data mining Archive - oreillyblog

Data, Data, Data: Berlin Buzzwords 2016

Corina Pahrmann — Mon, 23 May 2016 10:15:48 +0000

Die Berlin Buzzwords begleiten wir inzwischen schon seit der ersten Ausgabe im Jahr 2010. Nun steht – wie immer Anfang Juni – schon die siebte Ausgabe der (Big-)Data-Konferenz vor der Tür, auf die wir Euch gerne wieder hinweisen möchten. (Und Tickets verlosen.) Die Keynotes Als Keynotespeaker erwarten Euch in diesem Jahr Diane Mueller-Klingspor und Neha Narkhede: Diane Mueller-Klingspor ist eine langjährige „Pythonista“ und Open Source-Verfechterin. Momentan arbeitet sie als Community Lead bei Red Hat an der Application-Platform OpenShift Origin. Diane engagiert sich zudem in der Maker-Community und ist Gründerin von GetMakered Labs, einer mobilen Makerspace-Kollaboration, die Kinder aller Altersstufen inspirieren und ermutigen soll, sich mit neuen Technologien auseinanderzusetzen. Ihre Keynote findet am 6. Juni statt und trägt den Titel: „Inspiring the Next Generation to Run Away and Join Our Software Circus“. Neha Narkhede ist Mitgründerin und CTO von Confluent. Zuvor war sie für die Petabyte Scale Streaming Infrastruktur von LinkedIn zuständig, die mehrere Millionen Datenvorgänge unterstützt. Zudem ist sie eine der EntwicklerInnen von Apache Kafka, PMC Mitglied und Projekt-Comitterin. Neha startet Tag 2 der Buzzwords unter dem Titel: „Application development …

Der Beitrag Data, Data, Data: Berlin Buzzwords 2016 erschien zuerst auf oreillyblog.

Interview: Mit weniger Daten mehr erreichen

Corina Pahrmann — Mon, 28 Sep 2015 13:25:52 +0000

Big Data, Data Mining, datenbasiertes Marketing: In den Ohren der Wirtschaft klingen diese Buzzwords verheißungsvoll, in den Ohren der Kunden nervig bis beängstigend. Und die Erfolgsaussichten? Wir haben uns mit Thomas Ramge, Technologie-Korrespondent des Magazins brand eins, Buchautor von „Smart Data“ und Keynotespeaker der Konferenz data2day unterhalten. oreillyblog: Herr Ramge, in den vorangegangenen Gesprächen, die wir u.a. hier im oreillyblog zu Big Data führten, wurde immer deutlich: Das Schlagwort Big Data hat nicht nur eine Dimension. Wie definieren Sie es? Die Gartner-Definition mit ihren drei (oder erweitert vier oder fünf) Dimensionen, an denen wir uns alle seit fünf Jahren abarbeiten, ist ja nicht falsch. Rasch wachsende Datenvolumen, Verarbeitungsgeschwindigkeit und Varianz erlauben der Massendaten-Analyse, die Vergangenheit und Gegenwart besser zu verstehen, Prozesse zu optimieren und in die Zukunft gerichtete Management-Entscheidungen auf der Grundlage von besseren Prognosen zu treffen. Das Problem am Begriff Big Data ist, dass er durch das „Big“ die Dimension der Größe zu stark betont. Im Kern geht es ja im Business-Kontext darum, Daten zu nutzen, um Wertschöpfung zu verbessern. Es gibt natürlich Unternehmen, für …

Der Beitrag Interview: Mit weniger Daten mehr erreichen erschien zuerst auf oreillyblog.

oreillyblog 2013: politisch, geekig, gut

Alexander Plaum — Thu, 19 Dec 2013 13:08:51 +0000

Das WordPress-Backend ist entrümpelt, die letzten Arbeitstage vor Silvester lassen sich an einer Hand abzählen, die Weihnachtsmate steht im Kühlschrank. Höchste Zeit für den #oreillyblog-Jahresrückblick. Zunächst wieder ein bisschen Statistik: Bis zu 1300 Unique Visitors und 4900 Page Views am Tag, über 100 Beiträge, erneut viele Gastautoren (ihr seid großartig!) – und dieses Mal kein Award, aber das macht gar nix. Massig Kommentare (nämlich 73!) konnten wir bei der Koop-Aktion Blogger schenken Lesefreude zum Welttag des Buches im April verzeichnen (immer ein Highlight), massig Soc-Med-Schaltflächen-Aktivität (115 Interaktionen!) erst vor knapp zwei Wochen, als wir an dieser Stelle einen exklusiven Auszug aus dem lang erwarteten Passig/Janders-Buch Weniger schlecht programmieren publizieren durften. Dieser Beitrag gehört auch insgesamt zu den erfolgreichsten und generierte weit über 2000 Klicks in knapp 24 Stunden. Ja, vierstellig, wir sind (noch) nicht das Blog von Heise oder t3n. ;-) Davon abgesehen: Noch mehr als über tolle Zugriffszahlen haben wir uns darüber gefreut, gleich fünf der wichtigsten IT-Themen des Jahres zumindest ein Stück weit im #oreillyblog abbilden und begleiten zu können: Da wäre zunächst das große DIY-, Minicomputer- …

Der Beitrag oreillyblog 2013: politisch, geekig, gut erschien zuerst auf oreillyblog.

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (4/4)

Alexander Plaum — Thu, 05 Dec 2013 13:03:46 +0000

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Wie bereits angekündigt wollen wir uns im letzen Teil dieser Blogreihe der Frage widmen, unter welchen Voraussetzungen, mit welchen Werkzeugen und welcher Literatur man selber zum Data Miner avancieren kann. Oder anders formuliert: Wie man am Privatrechner auf den Spuren der Großkonzerne und Geheimdienste dieser Welt wandelt. Für alle, die die bisherigen Posts verpasst haben: Hier noch mal die Links zu Teil 1 (Data-Mining 101, Data-Mining-Arten, Lernarten), Teil 2 (Hallo Wortvektor, hallo Spam!) und Teil 3 (Die 99%ige Sicherheit und der “auffällige” Bürger). Teil 4: Wie werde ich Data Miner? Um selber ein Data-Mining- und Machine-Learning-Projekt zu starten, sind zumindest Grundkenntnisse im Bereich Programmierung notwendig. Prinzipiell kann man jede Sprache benutzen, einige empfehlen sich allerdings besonders, weil es bereits effiziente Frameworks und Bibliotheken sowie viele Anwendungsbeispiele in der einschlägigen Fachliteratur gibt: R R ist eine Skriptsprache mit einem besonderen Fokus auf Statistik und Datenauswertung, was sie natürlich für Data Mining prädestiniert. Besonders geeignet ist R für Prototyping und für Einmalanalysen, bei denen die Geschwindigkeit nicht kritisch …

Der Beitrag False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (4/4) erschien zuerst auf oreillyblog.

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (3/4)

Alexander Plaum — Thu, 24 Oct 2013 09:09:57 +0000

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Der Buzzword-Reigen ist entzaubert (Data-Mining 101, Data-Mining-Arten, Lernarten), ein konkreter Anwendungsfall ausführlich skizziert (Hallo Wortvektor, hallo Spam!) – Zeit für die philosophisch-politischen Überlegungen in dieser Blogreihe. Teil 3: Die 99%ige Sicherheit und der „auffällige“ Bürger Von Recall und Precision Wie gut sind nun moderne Data-Mining-Verfahren und Machine-Learning-Algorithmen? Haben wir ein magisches Computerorakel, das perfekt alle Entscheidungen treffen kann? Offensichtlich nicht: wir würden sonst ausschließlich Mails erhalten, die wir auch wirklich wollen. Außerdem wären Ärzte überflüssig, weil automatisierte Entscheidungssysteme immer die perfekte Diagnose stellten – und dank der wohlmeinenden Totalüberwachung gäbe es auch keine Verbrechen mehr. Der Teufel steckt im Detail. Man muss, möchte man die Güte eines Verfahrens einschätzen, verschiedene Kriterien und Zusammenhänge beachten. Gerne werden Angaben in den Raum geworfen wie „zu 99% korrekt“. Aber 99% von was? Zunächst einmal gibt es vier absolute Kennzahlen für das Ergebnis einer Data-Mining-Aktion. Wir bleiben beim Beispiel des Spamfilters: True Positives: Zu Recht (true) als Spam (positive) erkannte Daten: Spam wird als Spam identifiziert False Positives: Zu Unrecht (false) als …

Der Beitrag False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (3/4) erschien zuerst auf oreillyblog.

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (2/4)

Alexander Plaum — Mon, 23 Sep 2013 12:34:15 +0000

Ein Gastbeitrag von Christoph Henkelmann (Firmenseite, privates Blog). Redaktion: AP Nachdem wir im ersten Teil (Data-Mining 101, Data-Mining-Arten, Lernarten) die wichtigsten Grundbegriffe geklärt und die Vorgeschichte dieses Postings kurz beleuchtet haben, schauen wir uns heute Data Mining an einem konkreten Beispiel an: Es geht um die Filterung von E-Mails. Im dritten Teil wollen wir dann – soviel sei schon verraten – kritische Gedanken zur Zuverlässigkeit maschinenbasierter Entscheidungsysteme formulieren, wobei ein (hoffentlich nicht zu makabres) Gedankenspiel rund ums „Aussieben“ verdächtiger Personen eine zentrale Rolle spielen wird. Zunächst aber: Teil 2: Hallo Wortvektor, hallo Spam! Preprocessing Wie kann nun ein Algorithmus aus einer Liste von Einkäufen feststellen, welches Buch uns als nächstes interessieren könnte? Und aus dem Text einer Nachricht, ob es sich um nette Geburtstagsgrüße oder nervige Werbung für Potenzmittelchen handelt? Alle zuvor beschriebenen Analyseverfahren brauchen Daten in einer ganz speziellen Form, um etwas damit anfangen zu können. Das Preprocessing ist der wohl wichtigste Schritt beim Data-Mining und für die Qualität der Ergebnisse absolut entscheidend. Betrachten wir anhand eines ganz einfachen Beispiels, wie Daten präpariert werden …

Der Beitrag False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (2/4) erschien zuerst auf oreillyblog.

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (1/4)

Alexander Plaum — Thu, 05 Sep 2013 12:19:12 +0000

Durch den Hype um „Big Data“ einerseits und den NSA-Abhörskandal andererseits sind Begriffe wie Data Mining, Machine Learning & Co. plötzlich in aller Munde. Oft wird aber nur oberflächlich diskutiert, die genauen technischen Abläufe sind unklar, die Möglichkeiten und Konsequenzen moderner Tools werden entweder verharmlost oder verteufelt. Der folgende, voraussichtlich vierteilige Gastbeitrag von „AppGuy“ Christoph Henkelmann (Firmenseite, privates Blog) soll dem etwas entgegensetzen und auf möglichst nüchterne Art zwei grundlegenden Fragen nachgehen: Wie kann man mit Hilfe von Computerprogrammen überhaupt aus Daten einen Sinn erarbeiten? Warum kann dieses „sinnvolle“ Arbeitsergebnis möglicherweise ungenau, unzuverlässig, gefährlich sein? Die Idee zu diesem Post entstand nach einem ähnlich gelagerten Vortrag von Christoph auf dem letzten Braincamp, der später noch ausgiebig privat diskutiert und schließlich in Teamarbeit ins oreillyblog überführt wurde. Teil 1: Data-Mining 101, Data-Mining-Arten, Lernverfahren Buzzword-Alarm! Zunächst schalten wir einen Gang zurück und betrachten, was sich hinter den inflationär gebrauchten Fachbegriffen eigentlich verbirgt: Big Data bedeutet schlicht und ergreifend, dass es sich um viele Daten handelt, die verarbeitet werden. Ansonsten geht es hier v.a. um Implementierung bzw. um eine Reihe …

Der Beitrag False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (1/4) erschien zuerst auf oreillyblog.

Aus dem Leben eines Datenforschers

Alexander Plaum — Mon, 25 Mar 2013 11:32:08 +0000

Ein Gastbeitrag von Klaas Bollhoefer. Ich bin Data Scientist. Ein Datenforscher. Jemand, der Probebohrungen im wieder entdeckten Rohstoff Daten vornimmt. Und damit Mitglied dieser sagenumwobenen Gruppe von Experten, über die im Umfeld von Big Data aktuell so viele reden. Hilary Mason, Chief Data Scientist bei bit.ly und Popstar dieser neuen Disziplin, hat Data Science einmal als Schnittstellenkompetenz beschrieben. Data Science liegt da, wo Computerwissenschaften, Statistik und Mathematik, Ingenieurskunst und „Hacking“ (hier: der neugierige, kreative Umgang mit Computern), Design und Algorithmen zusammentreffen. Data Science ist ein multidisziplinärer Raum, in dem neue Ideen und Lösungen entstehen. Hilary Mason nennt die Menschen, die diesen Raum bewohnen, „awesome nerds“ (zu Deutsch: fantastische Computerfreaks) oder, businesstauglicher: „Data Scientists“. Diese Definition erscheint mir nicht vollständig, fehlt ihr doch der entscheidende Produkt- bzw. Geschäftsbezug. Neben dem „Was“ (was für Daten habe ich?) und dem „Wie“ (wie kreiere ich neues Wissen aus diesen Daten mit all den Big-Data- Technologien und künstlichen Intelligenzen?) ist noch eine andere Frage auschlaggebend, nämlich die nach dem Sinn und Zweck des Unterfangens. Welches Problem möchte ich lösen? Welche Potenziale …

Der Beitrag Aus dem Leben eines Datenforschers erschien zuerst auf oreillyblog.