Alle Artikel mit dem Schlagwort: big data

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (2/4)

Ein Gastbeitrag von Christoph Henkelmann (Firmenseite, privates Blog). Redaktion: AP Nachdem wir im ersten Teil (Data-Mining 101, Data-Mining-Arten, Lernarten) die wichtigsten Grundbegriffe geklärt und die Vorgeschichte dieses Postings kurz beleuchtet haben, schauen wir uns heute Data Mining an einem konkreten Beispiel an: Es geht um die Filterung von E-Mails. Im dritten Teil wollen wir dann – soviel sei schon verraten – kritische Gedanken zur Zuverlässigkeit maschinenbasierter Entscheidungsysteme formulieren, wobei ein (hoffentlich nicht zu makabres) Gedankenspiel rund ums „Aussieben“ verdächtiger Personen eine zentrale Rolle spielen wird. Zunächst aber: Teil 2: Hallo Wortvektor, hallo Spam! Preprocessing Wie kann nun ein Algorithmus aus einer Liste von Einkäufen feststellen, welches Buch uns als nächstes interessieren könnte? Und aus dem Text einer Nachricht, ob es sich um nette Geburtstagsgrüße oder nervige Werbung für Potenzmittelchen handelt? Alle zuvor beschriebenen Analyseverfahren brauchen Daten in einer ganz speziellen Form, um etwas damit anfangen zu können. Das Preprocessing ist der wohl wichtigste Schritt beim Data-Mining und für die Qualität der Ergebnisse absolut entscheidend. Betrachten wir anhand eines ganz einfachen Beispiels, wie Daten präpariert werden …

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (1/4)

Durch den Hype um „Big Data“ einerseits und den NSA-Abhörskandal andererseits sind Begriffe wie Data Mining, Machine Learning & Co. plötzlich in aller Munde. Oft wird aber nur oberflächlich diskutiert, die genauen technischen Abläufe sind unklar, die Möglichkeiten und Konsequenzen moderner Tools werden entweder verharmlost oder verteufelt. Der folgende, voraussichtlich vierteilige Gastbeitrag von „AppGuy“ Christoph Henkelmann (Firmenseite, privates Blog) soll dem etwas entgegensetzen und auf möglichst nüchterne Art zwei grundlegenden Fragen nachgehen: Wie kann man mit Hilfe von Computerprogrammen überhaupt aus Daten einen Sinn erarbeiten? Warum kann dieses „sinnvolle“ Arbeitsergebnis möglicherweise ungenau, unzuverlässig, gefährlich sein? Die Idee zu diesem Post entstand nach einem ähnlich gelagerten Vortrag von Christoph auf dem letzten Braincamp, der später noch ausgiebig privat diskutiert und schließlich in Teamarbeit ins oreillyblog überführt wurde. Teil 1: Data-Mining 101, Data-Mining-Arten, Lernverfahren Buzzword-Alarm! Zunächst schalten wir einen Gang zurück und betrachten, was sich hinter den inflationär gebrauchten Fachbegriffen eigentlich verbirgt: Big Data bedeutet schlicht und ergreifend, dass es sich um viele Daten handelt, die verarbeitet werden. Ansonsten geht es hier v.a. um Implementierung bzw. um eine Reihe …

datascience process model

Das Data Science Process Model – Leitfaden zur Realisierung von Big Data-Produkten

Ein Gastbeitrag von Klaas Bollhoefer. Das Data Science Process Model ist ein Vorgehensmodell, das den Prozess zur Entwicklung von Big Data-Produkten in sechs definierte Phasen organisiert und die einzelnen Akteure und ihr Zusammenspiel darin darstellt. Kern des Modells ist das harmonische Wechselspiel der Akteure Data Scientist und Machine Intelligence, die nahtlose Verknüpfung menschlicher und maschineller Intelligenz im Rahmen explorativer und automatisierter Big Data-Analysen. Das Data Science Process Model ist international eines der ersten, aus der Praxis hervorgegangenen Vorgehensmodelle  -vielleicht sogar die erste theoretische Darstellung überhaupt – und soll einen Beitrag zur weiteren Standardisierung der Disziplin leisten. Als Leitfaden kann es der individuellen Planung und Aufwandskalkulation bei der Realisierung von Big Data-Produkten dienen. Entwickelt habe ich das Modell bei The unbelievable Machine Company. Es basiert auf den Erkenntnissen und Erfahrungen aus einer Vielzahl von Big Data-Projekten für unterschiedliche Branchen und Fachdomänen aus den Jahren 2011-2013. Schematische Darstellung Zur Vergrößerung Grafik anklicken: Beschreibung der einzelnen Phasen Das Data Science Process Model besteht aus sechs aufeinander folgenden Phasen und beschreibt damit den Gesamtprozess zur Entwicklung von Big Data- Lösungen – …

Aus dem Leben eines Datenforschers

Ein Gastbeitrag von Klaas Bollhoefer. Ich bin Data Scientist. Ein Datenforscher. Jemand, der Probebohrungen im wieder entdeckten Rohstoff Daten vornimmt. Und damit Mitglied dieser sagenumwobenen Gruppe von Experten, über die im Umfeld von Big Data aktuell so viele reden. Hilary Mason, Chief Data Scientist bei bit.ly und Popstar dieser neuen Disziplin, hat Data Science einmal als Schnittstellenkompetenz beschrieben. Data Science liegt da, wo Computerwissenschaften, Statistik und Mathematik, Ingenieurskunst und „Hacking“ (hier: der neugierige, kreative Umgang mit Computern), Design und Algorithmen zusammentreffen. Data Science ist ein multidisziplinärer Raum, in dem neue Ideen und Lösungen entstehen. Hilary Mason nennt die Menschen, die diesen Raum bewohnen, „awesome nerds“ (zu Deutsch: fantastische Computerfreaks) oder, businesstauglicher: „Data Scientists“. Diese Definition erscheint mir nicht vollständig, fehlt ihr doch der entscheidende Produkt- bzw. Geschäftsbezug. Neben dem „Was“ (was für Daten habe ich?) und dem „Wie“ (wie kreiere ich neues Wissen aus diesen Daten mit all den Big-Data- Technologien und künstlichen Intelligenzen?) ist noch eine andere Frage auschlaggebend, nämlich die nach dem Sinn und Zweck des Unterfangens. Welches Problem möchte ich lösen? Welche Potenziale …