Alle Artikel mit dem Schlagwort: data science

Der Jahrgang 2016 – Teil 3

Wie versprochen gibt es neuen Lesestoff. Heute etwas für alle, die sich gerne durch riesige Datenberge ackern möchten: Einführung in Data Science „Der beste Weg, hacken zu lernen, ist, Dinge zu hacken“, schreibt der Google-Entwickler Joel Grus im Vorwort seines aktuellen Buchs Einführung in Data Science. Darin führt er Euch mit Hilfe von Python in die Welt der Datenanalyse ein – und das erklärtermaßen nicht nur mit Praxisbezug, sondern auch mit der Lust am Spiel mit dem Grundstoff Daten. Voraussetzungen Alles, was Ihr braucht, sind erste Programmierkenntnisse, wobei das Buch auch mit einer kleinen Python-Einführung startet. Und: Eure Kenntnisse aus Stochastik, Statistik und linearer Algebra sollten nicht ganz verschüttet sein. In Bezug auf Data Science selbst fängt Joel Grus bewusst ganz von vorne an, Ihr müsst keinerlei Techniken oder Tools vorab kennen. Diese führt der Autor erst im Laufe des Buches nach und nach ein, und zwar erst dann, wenn Ihr die Grundlagen verstanden habt. Alle Codebeispiele liegen übrigens auf GitHub, sowohl für Python 2.7 als auch für Python 3.x. Und warum sollte man sich durch Mathematik und Python-Code …

Interview: Mit weniger Daten mehr erreichen

Big Data, Data Mining, datenbasiertes Marketing: In den Ohren der Wirtschaft klingen diese Buzzwords verheißungsvoll, in den Ohren der Kunden nervig bis beängstigend. Und die Erfolgsaussichten? Wir haben uns mit Thomas Ramge, Technologie-Korrespondent des Magazins brand eins, Buchautor von „Smart Data“ und Keynotespeaker der Konferenz data2day unterhalten. oreillyblog: Herr Ramge, in den vorangegangenen Gesprächen, die wir u.a. hier im oreillyblog zu Big Data führten, wurde immer deutlich: Das Schlagwort Big Data hat nicht nur eine Dimension. Wie definieren Sie es? Die Gartner-Definition mit ihren drei (oder erweitert vier oder fünf) Dimensionen, an denen wir uns alle seit fünf Jahren abarbeiten, ist ja nicht falsch. Rasch wachsende Datenvolumen, Verarbeitungsgeschwindigkeit und Varianz erlauben der Massendaten-Analyse, die Vergangenheit und Gegenwart besser zu verstehen, Prozesse zu optimieren und in die Zukunft gerichtete Management-Entscheidungen auf der Grundlage von besseren Prognosen zu treffen. Das Problem am Begriff Big Data ist, dass er durch das „Big“ die Dimension der Größe zu stark betont. Im Kern geht es ja im Business-Kontext darum, Daten zu nutzen, um Wertschöpfung zu verbessern. Es gibt natürlich Unternehmen, für …

Ärmel hoch und rein in die Daten: Die Big Data Week in Berlin

Was ist Big Data, und welche Effekte ergeben sich für unser Leben? Anlässlich der nächste Woche unter anderem in Berlin stattfindenden Big Data Week sprach ich mit Data Scientist Klaas Bollhöfer. Klaas, Anfang Mai ist Berlin das Epizentrum aller digital arbeitenden Menschen: Neben re:publica und Linuxtag ist die Hauptstadt auch wieder eine von dreißig Locations weltweit, die sich an der Big Data Week beteiligen. Erzähl doch mal, was sich dahinter verbirgt. Die Big Data Week ist eine 2012 ins Leben gerufene Initiative mit dem Ziel, die Big Data Communities der Welt für eine Woche intensiv miteinander zu vernetzen, Hunderte von Events, Meetups, Konferenzen & Hackathons unter einem gemeinsamen Dach zu verorten und gemeinsam als zentrales Organ einer international agierenden Interessensgemeinschaft zu agieren. Die Big Data Week wird von London aus organisiert und umspannt alle Kontinente (mit Ausnahme Antarktis, zumindest noch :-)), mehr als 30 Städte und mehr als 200 Veranstaltungen. Es ist ein „Global Festival of Data“, das in diesem Jahr bereits zum 2. Mal auch in Berlin stattfindet – vom 5. bis 11. Mai. Wie …

datascience process model

Das Data Science Process Model – Leitfaden zur Realisierung von Big Data-Produkten

Ein Gastbeitrag von Klaas Bollhoefer. Das Data Science Process Model ist ein Vorgehensmodell, das den Prozess zur Entwicklung von Big Data-Produkten in sechs definierte Phasen organisiert und die einzelnen Akteure und ihr Zusammenspiel darin darstellt. Kern des Modells ist das harmonische Wechselspiel der Akteure Data Scientist und Machine Intelligence, die nahtlose Verknüpfung menschlicher und maschineller Intelligenz im Rahmen explorativer und automatisierter Big Data-Analysen. Das Data Science Process Model ist international eines der ersten, aus der Praxis hervorgegangenen Vorgehensmodelle  -vielleicht sogar die erste theoretische Darstellung überhaupt – und soll einen Beitrag zur weiteren Standardisierung der Disziplin leisten. Als Leitfaden kann es der individuellen Planung und Aufwandskalkulation bei der Realisierung von Big Data-Produkten dienen. Entwickelt habe ich das Modell bei The unbelievable Machine Company. Es basiert auf den Erkenntnissen und Erfahrungen aus einer Vielzahl von Big Data-Projekten für unterschiedliche Branchen und Fachdomänen aus den Jahren 2011-2013. Schematische Darstellung Zur Vergrößerung Grafik anklicken: Beschreibung der einzelnen Phasen Das Data Science Process Model besteht aus sechs aufeinander folgenden Phasen und beschreibt damit den Gesamtprozess zur Entwicklung von Big Data- Lösungen – …

Aus dem Leben eines Datenforschers

Ein Gastbeitrag von Klaas Bollhoefer. Ich bin Data Scientist. Ein Datenforscher. Jemand, der Probebohrungen im wieder entdeckten Rohstoff Daten vornimmt. Und damit Mitglied dieser sagenumwobenen Gruppe von Experten, über die im Umfeld von Big Data aktuell so viele reden. Hilary Mason, Chief Data Scientist bei bit.ly und Popstar dieser neuen Disziplin, hat Data Science einmal als Schnittstellenkompetenz beschrieben. Data Science liegt da, wo Computerwissenschaften, Statistik und Mathematik, Ingenieurskunst und „Hacking“ (hier: der neugierige, kreative Umgang mit Computern), Design und Algorithmen zusammentreffen. Data Science ist ein multidisziplinärer Raum, in dem neue Ideen und Lösungen entstehen. Hilary Mason nennt die Menschen, die diesen Raum bewohnen, „awesome nerds“ (zu Deutsch: fantastische Computerfreaks) oder, businesstauglicher: „Data Scientists“. Diese Definition erscheint mir nicht vollständig, fehlt ihr doch der entscheidende Produkt- bzw. Geschäftsbezug. Neben dem „Was“ (was für Daten habe ich?) und dem „Wie“ (wie kreiere ich neues Wissen aus diesen Daten mit all den Big-Data- Technologien und künstlichen Intelligenzen?) ist noch eine andere Frage auschlaggebend, nämlich die nach dem Sinn und Zweck des Unterfangens. Welches Problem möchte ich lösen? Welche Potenziale …