Alle Artikel mit dem Schlagwort: big data

Aus NoSQL matters wird: distributed matters

Veröffentlicht von Corina Pahrmann

So long, NoSQL matters – welcome, distributed matters: Die zehnte Ausgabe der Konferenz kommt mit einem Namenswechsel und vielen Neuerungen. Was bleibt, ist das Zusammentreffen hochkarätiger NoSQL- und Big Data-Professionals. Wir haben mit Organisator Frank Celler gesprochen. oreillyblog: Neuer Name, neue Location: zu ihrer 10. Ausgabe erfindet sich die NoSQL matters – pardon, distributed matters – komplett neu. Wie kam es dazu? Frank Celler: Unser Ziel war es zum einen das Thema NoSQL in der Szene bekannt zu machen und voranzutreiben und zum anderen Entwickler zusammenzubringen – um Wissen zu teilen, zu inspirieren und neue Kontakte aufzubauen. Mit der Neuausrichtung möchten wir uns für innovative und aktuelle Entwicklungen öffnen, die neben NoSQL und Big Data auf großes Interesse in der Szene stoßen. Somit wird die distributed matters für ein größeres Publikum von Interesse sein. oreillyblog: Was heißt das für die Ausrichtung der Konferenz? Wer sollte zur distributed matters kommen? Frank Celler: Die distributed matters wird nun neben den bewährten Schwerpunkten NoSQL und Big Data auch Themen wie Distributed Systems, Microservices, Cloud Management, Database Solutions und DevOps abdecken. Wir richten uns an alle, …

Ärmel hoch und rein in die Daten: Die Big Data Week in Berlin

Veröffentlicht von Corina Pahrmann

Was ist Big Data, und welche Effekte ergeben sich für unser Leben? Anlässlich der nächste Woche unter anderem in Berlin stattfindenden Big Data Week sprach ich mit Data Scientist Klaas Bollhöfer. Klaas, Anfang Mai ist Berlin das Epizentrum aller digital arbeitenden Menschen: Neben re:publica und Linuxtag ist die Hauptstadt auch wieder eine von dreißig Locations weltweit, die sich an der Big Data Week beteiligen. Erzähl doch mal, was sich dahinter verbirgt. Die Big Data Week ist eine 2012 ins Leben gerufene Initiative mit dem Ziel, die Big Data Communities der Welt für eine Woche intensiv miteinander zu vernetzen, Hunderte von Events, Meetups, Konferenzen & Hackathons unter einem gemeinsamen Dach zu verorten und gemeinsam als zentrales Organ einer international agierenden Interessensgemeinschaft zu agieren. Die Big Data Week wird von London aus organisiert und umspannt alle Kontinente (mit Ausnahme Antarktis, zumindest noch :-)), mehr als 30 Städte und mehr als 200 Veranstaltungen. Es ist ein „Global Festival of Data“, das in diesem Jahr bereits zum 2. Mal auch in Berlin stattfindet – vom 5. bis 11. Mai. Wie …

oreillyblog 2013: politisch, geekig, gut

Veröffentlicht von Alexander Plaum

Das WordPress-Backend ist entrümpelt, die letzten Arbeitstage vor Silvester lassen sich an einer Hand abzählen, die Weihnachtsmate steht im Kühlschrank. Höchste Zeit für den #oreillyblog-Jahresrückblick. Zunächst wieder ein bisschen Statistik: Bis zu 1300 Unique Visitors und 4900 Page Views am Tag, über 100 Beiträge, erneut viele Gastautoren (ihr seid großartig!) – und dieses Mal kein Award, aber das macht gar nix. Massig Kommentare (nämlich 73!) konnten wir bei der Koop-Aktion Blogger schenken Lesefreude zum Welttag des Buches im April verzeichnen (immer ein Highlight), massig Soc-Med-Schaltflächen-Aktivität (115 Interaktionen!) erst vor knapp zwei Wochen, als wir an dieser Stelle einen exklusiven Auszug aus dem lang erwarteten Passig/Janders-Buch Weniger schlecht programmieren publizieren durften. Dieser Beitrag gehört auch insgesamt zu den erfolgreichsten und generierte weit über 2000 Klicks in knapp 24 Stunden. Ja, vierstellig, wir sind (noch) nicht das Blog von Heise oder t3n. ;-) Davon abgesehen: Noch mehr als über tolle Zugriffszahlen haben wir uns darüber gefreut, gleich fünf der wichtigsten IT-Themen des Jahres zumindest ein Stück weit im #oreillyblog abbilden und begleiten zu können: Da wäre zunächst das große DIY-, Minicomputer- …

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (4/4)

Veröffentlicht von Alexander Plaum

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Wie bereits angekündigt wollen wir uns im letzen Teil dieser Blogreihe der Frage widmen, unter welchen Voraussetzungen, mit welchen Werkzeugen und welcher Literatur man selber zum Data Miner avancieren kann. Oder anders formuliert: Wie man am Privatrechner auf den Spuren der Großkonzerne und Geheimdienste dieser Welt wandelt. Für alle, die die bisherigen Posts verpasst haben: Hier noch mal die Links zu Teil 1 (Data-Mining 101, Data-Mining-Arten, Lernarten), Teil 2 (Hallo Wortvektor, hallo Spam!) und Teil 3 (Die 99%ige Sicherheit und der “auffällige” Bürger). Teil 4: Wie werde ich Data Miner? Um selber ein Data-Mining- und Machine-Learning-Projekt zu starten, sind zumindest Grundkenntnisse im Bereich Programmierung notwendig. Prinzipiell kann man jede Sprache benutzen, einige empfehlen sich allerdings besonders, weil es bereits effiziente Frameworks und Bibliotheken sowie viele Anwendungsbeispiele in der einschlägigen Fachliteratur gibt: R R ist eine Skriptsprache mit einem besonderen Fokus auf Statistik und Datenauswertung, was sie natürlich für Data Mining prädestiniert. Besonders geeignet ist R für Prototyping und für Einmalanalysen, bei denen die Geschwindigkeit nicht kritisch …

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (3/4)

Veröffentlicht von Alexander Plaum

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Der Buzzword-Reigen ist entzaubert (Data-Mining 101, Data-Mining-Arten, Lernarten), ein konkreter Anwendungsfall ausführlich skizziert (Hallo Wortvektor, hallo Spam!) – Zeit für die philosophisch-politischen Überlegungen in dieser Blogreihe. Teil 3: Die 99%ige Sicherheit und der „auffällige“ Bürger Von Recall und Precision Wie gut sind nun moderne Data-Mining-Verfahren und Machine-Learning-Algorithmen? Haben wir ein magisches Computerorakel, das perfekt alle Entscheidungen treffen kann? Offensichtlich nicht: wir würden sonst ausschließlich Mails erhalten, die wir auch wirklich wollen. Außerdem wären Ärzte überflüssig, weil automatisierte Entscheidungssysteme immer die perfekte Diagnose stellten – und dank der wohlmeinenden Totalüberwachung gäbe es auch keine Verbrechen mehr. Der Teufel steckt im Detail. Man muss, möchte man die Güte eines Verfahrens einschätzen, verschiedene Kriterien und Zusammenhänge beachten. Gerne werden Angaben in den Raum geworfen wie „zu 99% korrekt“. Aber 99% von was? Zunächst einmal gibt es vier absolute Kennzahlen für das Ergebnis einer Data-Mining-Aktion. Wir bleiben beim Beispiel des Spamfilters: True Positives: Zu Recht (true) als Spam (positive) erkannte Daten: Spam wird als Spam identifiziert False Positives: Zu Unrecht (false) als …