Ein Gastbeitrag von Klaas Bollhoefer.
Ich bin Data Scientist. Ein Datenforscher. Jemand, der Probebohrungen im wieder entdeckten Rohstoff Daten vornimmt. Und damit Mitglied dieser sagenumwobenen Gruppe von Experten, über die im Umfeld von Big Data aktuell so viele reden. Hilary Mason, Chief Data Scientist bei bit.ly und Popstar dieser neuen Disziplin, hat Data Science einmal als Schnittstellenkompetenz beschrieben. Data Science liegt da, wo Computerwissenschaften, Statistik und Mathematik, Ingenieurskunst und „Hacking“ (hier: der neugierige, kreative Umgang mit Computern), Design und Algorithmen zusammentreffen. Data Science ist ein multidisziplinärer Raum, in dem neue Ideen und Lösungen entstehen. Hilary Mason nennt die Menschen, die diesen Raum bewohnen, „awesome nerds“ (zu Deutsch: fantastische Computerfreaks) oder, businesstauglicher: „Data Scientists“.
Diese Definition erscheint mir nicht vollständig, fehlt ihr doch der entscheidende Produkt- bzw. Geschäftsbezug. Neben dem „Was“ (was für Daten habe ich?) und dem „Wie“ (wie kreiere ich neues Wissen aus diesen Daten mit all den Big-Data- Technologien und künstlichen Intelligenzen?) ist noch eine andere Frage auschlaggebend, nämlich die nach dem Sinn und Zweck des Unterfangens. Welches Problem möchte ich lösen? Welche Potenziale gilt es auszuloten? Welchen Business Value kann ich ermöglichen?
Auf der Strata Konferenz letztes Jahr in London wurde beispielsweise ein interessanter Fall der Firma Tesco präsentiert, bei dem es darum ging, den Lieferverkehr leicht verderblicher Lebensmittel in die großen Ballungsräume auf die Nachfrage unterschiedlicher Stadtteile hin zu optimieren. Im Ergebnis konnten nicht nur Liefermengen und Fahrtzeiten genauer kalkuliert und die bedarfsgerechte, schnelle Versorung der einzelnen Ladengeschäfte sichergestellt werden. Als Nebeneffekt konnten auch die Preise für den Endverbraucher reduziert werden. Win, win.
Was bedeutet das konkret für mich? Dass die Arbeit bei meinen Kunden beginnt! In Gesprächen und Workshops denke ich mich in ihre Situation hinein, entwickle gemeinsam mit ihnen erste Ideen und Fragestellungen und verschaffe mir einen Überblick über ihre Datenlandschaft. In dieser Phase bin ich als Data Scientist Moderator, Katalysator und nicht zuletzt verlässlicher Guide im Big-Data-Dschungel.
Die nachfolgende Phase dient der Exploration und Analyse, dem Aufstellen und Verwerfen von Hypothesen und Lösungsansätzen. Hier agiere ich im wahrsten Sinne des Wortes als “Wissenschaftler”. Getrieben von Neugier werden Erfahrung, Technik und Algorithmen in einen Topf geworfen, umgerührt, immer wieder gekostet und zu guter Letzt als neues Rezept notiert. Je nach Aufgabe und Lösungsansatz reicht das Spektrum meiner Tätigkeiten von der Konfiguration eines Hadoop-Clusters oder dem Sammeln, Aggregieren und Normalisieren externer Datenquellen (Open Data, REST APIs, Scraping etc.) über statistische Auswertungen (z.B. in R) bis hin zur Anwendung komplexer Machine-Learning oder Natural-Language-Processing-Verfahren. Hier hat jeder Data Scientist aktuell sicher seinen eigenen „Baukasten“ und sein eigenes Vorgehensmodell.
Eine Definition (quasi-)standardisierter Prozesse und Tools steht noch aus. Bei der unbelievable Machine Company haben wir zu Beginn des Jahres das *umDataScienceLab gestartet, welches Kunden auf Basis eines praxiserprobten Data-Science-Vorgehensmodells hilft, businessrelevante Big-Data-Projekte zu identifizieren und diese in einer kontrollierten Umgebung umzusetzen. Ein erster Schritt zur eigenen Big-Data-Strategie.
Welche Disziplin fehlt noch für den “Data-Science-Mehrkampf”? Die Expertise, die Ergebnisse sowie daraus resultierende Big-Data-Lösungen so zu verpacken, dass sie a) in den Regelbetrieb überführt werden können (technischer Rollout) und b) der jeweiligen Nutzer- und Zielgruppen optimal aufbereitet zur Verfügung stehen, sei es als Dashboard-Interface, Datenvisualisierung oder – ganz allgemein – als “Data Experience” (Business Case Rollout).
Der Data Scientist begleitet Big-Data-Projekte vom Anfang bis zum Ende, von der ersten Idee bis zum “Go live”. Er verbindet nachhaltig Business mit Big Data. Er ist häufig Experte und Allrounder zugleich – noch. Eine Weiterentwicklung seines schon jetzt sehr komplexen Arbeitsfelds wird vermutlich zu einer Ausdifferenzierung des Berufs führen, so dass wir in Zukunft mehr von Data Sciene Teams als vom einzelnen Data Scientists sprechen werden.
Klaas Bollhoefer arbeitet bei *um – The unbelievable Machine Company in Berlin, einem Spezialisten für Big Data, Cloud Computing & Web Operations. Er ist Initiator des Data Science Day und an der Organisation zahlreicher internationaler Big-Data-Veranstaltungen beteiligt.
Pingback: Statistik für Data Scientists - oreillyblog