Was ist Big Data, und welche Effekte ergeben sich für unser Leben? Anlässlich der nächste Woche unter anderem in Berlin stattfindenden Big Data Week sprach ich mit Data Scientist Klaas Bollhöfer.
Klaas, Anfang Mai ist Berlin das Epizentrum aller digital arbeitenden Menschen: Neben re:publica und Linuxtag ist die Hauptstadt auch wieder eine von dreißig Locations weltweit, die sich an der Big Data Week beteiligen. Erzähl doch mal, was sich dahinter verbirgt.
Die Big Data Week ist eine 2012 ins Leben gerufene Initiative mit dem Ziel, die Big Data Communities der Welt für eine Woche intensiv miteinander zu vernetzen, Hunderte von Events, Meetups, Konferenzen & Hackathons unter einem gemeinsamen Dach zu verorten und gemeinsam als zentrales Organ einer international agierenden Interessensgemeinschaft zu agieren.
Die Big Data Week wird von London aus organisiert und umspannt alle Kontinente (mit Ausnahme Antarktis, zumindest noch :-)), mehr als 30 Städte und mehr als 200 Veranstaltungen. Es ist ein „Global Festival of Data“, das in diesem Jahr bereits zum 2. Mal auch in Berlin stattfindet – vom 5. bis 11. Mai. Wie im letzten Jahr übernehme ich die Koordination für Berlin.
Das Schlagwort Big Data geistert ja seit Jahren (insbesondere) durch die IT-Welt. Dennoch scheint es vielen Menschen in seiner Bedeutung gar nicht klar zu sein. Wie erklärst Du Big Data?
Du hast recht – es gibt höchstwahrscheinlich ebenso viele Definitionen von Big Data wie Daten auf meinem Rechner. Das Erstaunliche: Die meisten davon sind irgendwie auch passend! Der Begriff ist so vage und unbestimmt, das er viel Raum für Interpretation und eine Füllung in jeder Geschmacksrichtung ermöglicht …
Für mich reden wir von Big Data immer dann, wenn wir Fragestellungen in Richtung von Daten formulieren, die mit den etablierten Werkzeugen und Methoden nicht mehr zu beantworten waren – sei es aufgrund von Datenvolumen, fehlenden Strukturen oder einfach, weil uns algorithmisch oder von Seiten der reinen Rechenleistung noch die Hände gebunden waren. Die technischen und mathematischen Entwicklungen der letzten Jahre erlauben uns, neue Fragen zu stellen, neue Lösungen zu kreieren und neue Ideen in die Tat um zu setzen. Ideen, von denen wir vor Jahren nicht zu träumen gewagt hätten. Dass wir das nun insgesamt als „Big Data“ bezeichnen ist alles andere als passend, aber aktuell auch nur schwer zu ändern. ;-)
Im Jahr 2005 veröffentlichte Tim O’Reilly den Artikel „What is Web 2.0“. Darin steht unter anderem „data is the next Intel Inside“. Das klingt vorrangig nach einem technologischen und wirtschaftlichen Vorsprung für die, die Data Mining betreiben. Welche Aspekte unseres Lebens werden sich durch eine ausgefeilte Datenanalyse außerdem verändern?
Neben rein Enterprise-relevanten Prozessen und Systemen, die durch neue Technologien „gepimped“ werden, werden wir eine Reihe von datenbasierten Lösungen in Zukunft dort erleben, wo wir als Menschen viel unmittelbarer mit diesen in Kontakt treten. Sei es in den Bereichen Energieversorgung (Smart Grid & Co.), Infrastruktur und Mobilität (Smart Cars & Cities), Gesundheit, Reisen oder Commerce. Das führt unwiderruflich dazu, dass jeder von uns den Umgang mit diesen Datensystemen erlernen muss, um entscheidungsfähig zu bleiben. Auch hieran sieht man, dass wir weniger eine technische als ein gesellschaftliche Herausforderung zu lösen haben. Die Events der Big Data Week tragen dem auch Rechnung, in dem wir nicht nur „Nerd“-Themen in den Fokus rücken, sondern uns auch zu Themen wie Personal Data & Big Data oder Open Data austauschen.
Die Big Data Week-Initiatoren Stewart Townsend und Carlos Somohano schätzten in einem Interview zur Strata 2012, dass deutsche Organisationen und Unternehmen die Technologien um „Big Data“ noch nicht auf dem Radar haben. Wie schätzt Du die Situation ein – ist Big Data inzwischen angekommen?
Definitiv ist Big Data auch hierzulande angekommen. Es gibt die Technologien, es gibt die Experten (nach eigener Schätzung um die 500 Data Scientists allein), es gibt die First Mover seitens der Unternehmen, es gibt unzählige Projekte und Use-Cases sowie eine sehr lebendige und innovative Community- und Startup-Szene. Es ist wie es immer ist – für USA/UK sind wir die „langsamen Langweiler“! Aus eigener Erfahrung aber kann ich sagen, dass auch dort nur mit Hadoop gekocht wird und wir uns hier in keinster Weise verstecken müssen! ;-)
Daten speichern, sinnvoll auswerten, Prognosen treffen: Klingt, als seien nicht nur die technischen Voraussetzungen sehr anspruchsvoll. Welche fachliche Unterstützung brauchen Unternehmen? Sind diese Anforderungen auch für kleine Unternehmen, etwa Startups oder Mittelständler zu schaffen?
In der Tat sind die Einstiegshürden nicht zu unterschätzen. Man sollte den Weg in Richtung Big Data gezielt und mit Bedacht beschreiten. Im einfachsten Fall reden wir von einem „Zoo neuer Technologien“, die – wie eh und je – alle so ihre Tücken besitzen. Im weiteren Verlauf von Kompetenzen, Prozessen und Strukturen, die es aufzubauen, zu verändern, zu etablieren gilt. Das ist alles andere als trivial und sicher kein Task für mal eben 12 Monate oder so.
Sich jetzt aber hinstellen und sagen „das ist nix für mich, da kümmere ich mich später vielleicht mal drum“ ist definitiv der falsche Ansatz. Big Data Projekte erfordern kein initiales Big Invest. Und nicht zuletzt ermöglichen Cloud-Services, immer ausgereiftere Endanwender-Tools und spezialisierte Dienstleister wie etwa mein Arbeitgeber The unbelievable Machine Company aus Berlin den maßgeschneiderten Einstieg in das Themenfeld. Ergo – „think big, start small, iterate often“ und nicht verzweifeln, wenn beim ersten Pilotprojekt noch nicht alle Daten wie Gold glänzen!
Du hast uns hier schon vor einiger Zeit beschrieben, was Deinen Job ausmacht und warum Du ihn so reizvoll findest. Was sollten unsere Leser können, wenn Sie den Weg eines Datenanlysten oder Data Scientists einschlagen wollen?
In erster Linie sollten sie neugierig sein, ergebnisoffen und mit Begeisterung an neue Aufgaben herangehen, schnelle Auffassungsgabe und logisches Denkvermögen besitzen und die ein oder andere Portion Kreativität, Selbstironie und Durchhaltevermögen im Gepäck haben. Dann ist schon viel geschafft! Das sogenannte „Big Data Mindset“ ist es, worauf es ankommt im Dschungel der Realwelt-Daten! :-)
Als Basis sicherlich hilfreich – eine profunde Ausbildung im Bereich (Wirtschafts-)Informatik, KI, Machine Learning & Co, die ein oder andere kompakte Weiterbildung bei Coursera & Co. und natürlich das ein oder andere O’Reilly-Buch! :-) Und dann „Ärmel hoch“ und rein in die Daten …
Klaas, Du weißt, wie sich aus riesigen Datenmengen spannende Zusammenhänge filtern lassen. Gehst Du mit Deinen Daten automatisch verantwortungsvoller um als der durchschnittliche Bundesbürger? Hinterlässt Du bewusst wenige(r) Spuren?
Das ist eine sehr schöne Frage – und ganz ehrlich: leider nein! Und ich weiß: das ist ein Fehler! Denn es ist in der Tat so, dass man aus Daten und deren intelligenter Verarbeitung und Verknüpfung unfassbar viel an Informationen über uns als Nutzer, Konsumenent und allgemein Menschen extrahieren kann (ein Gewinn für die einen – derzeit mehrheitlich Wirtschaftsunternehmen oder Staatsorgane, ein Verlust für die anderen – mehrheitlich wir alle!).
Diese Informationen – und das ist das Erschreckende – sind nicht zwingend korrekt, a) weil sie nicht zu unserer eigenen Prüfung und Freigabe (oder eben Nicht-Freigabe) bereit stehen und b) weil ein Großteil der neuen Algorithmen, die beispielsweise Muster in Daten erkennen, per se „unscharf“ sind, d. h. mit Wahrscheinlichkeiten im Ergebnis arbeiten. Es ist zwingend notwendig, dass wir – von frühester Kindheit an – den Umgang mit Daten (u.a. unseren eigenen) neu lernen, Systeme und Prozesse einfordern, die den Umgang mit Daten nachhaltig regulieren und sichern und wir (erst dann) wieder souverän an der digitalen Welt partizipieren können. Das ist aktuell anscheinend nicht mehr gegeben!
Der Data Science Day, der im Rahmen der Big Data Week stattfindet, war in rekordverdächtigen 2 Stunden komplett ausverkauft. Was verpassen wir ohne Ticket?
Eine ganze Menge! ;-)
Thema beim 6. Data Science Day ist „Data Driven Decisioning – an era of smart machines and smarter businesses!“ Wie
dieses Oberthema vermuten lässt blicken wir (mal wieder) einige Zeit voraus und widmen uns u.a. Themen wie Entscheidungsautomatisierung, Cognitive Computing, Smart Agents & Co. Neben Andrew Cantino von Huginn und Experten zu Spark, IBM Watson & Data Stream Processing freuen wir uns ganz besonders auf die Keynote von Drew Conway, der eines der wegweisenden O’Reilly Bücher zum Thema mitverfasst hat: „Machine Learning for Hackers„!
Das wirklich Entscheidende beim Data Science Day sind aber gar nicht die Talks und Speaker, sondern die Möglichkeit, sich intensiv auszutauschen, kennen zu lernen, Ideen zu kreieren und vielleicht die ein oder andere davon zukünftig gemeinsam umzusetzen. Der Data Science Day ist als Forum gedacht. Als Treffpunkt. Wir geben bewusst viel Raum & Zeit für die Interaktion, die Diskussion, das Gespräch. Wir leben den Community-Gedanken aus vollem Herzen. Und wie die Nachfrage auch dieses Mal eindrucksvoll belegt, liegen wir damit goldrichtig! :-)
Über Klaas Bollhöfer
Klaas Bollhoefer arbeitet bei *um – The unbelievable Machine Company in Berlin, einem Spezialisten für Cloud Computing und Big Data aus Berlin. Er ist Initiator des Data Science Day und an der Organisation zahlreicher internationaler Big-Data-Veranstaltungen beteiligt. Für das oreillyblog berichtete er bereits aus dem Leben eines Datenforschers und stellte sein Data Science Process Model vor.