Alle Artikel mit dem Schlagwort: Datenanalyse

Pandas

Universell anwendbare Datenbeispiele – oder: Wie erkläre ich pandas?

Unser Übersetzer Dr. Kristian Rother blickt in diesem Gastbeitrag unter die Motorhaube eines didaktisch sinnvollen Buchaufbaus – am Beispiel der Python-Bibliothek pandas im Buch „Datenanalyse mit Python“. Woran erkennt man einen ausgezeichneten technischen Text? Meiner Meinung nach an der universellen Anwendbarkeit, über die eigentlich beschriebene Technologie hinaus. Beim Übersetzen des Buches “Datenanalyse mit Python” von Wes McKinney bin ich auf zahlreiche Beispiele dafür gestoßen. Im Buch wendet Wes eine bestimmte didaktische Struktur an, um universelle Anwendbarkeit zu erreichen. Da ich die gleiche didaktische Struktur selbst im Training einsetze, und außerdem Wes’ Inhalte verwende, stelle ich diese hier einmal vor. Es handelt sich dabei um die Kombination der drei Komponenten Technologie, Daten und Problemstellung. Die Technologie Logisch, dass ein technischer Text sich mit mindestens einer Technologie auseinandersetzt. In “Datenanalyse mit Python” ist das die Python-Bibliothek pandas. pandas stellt eine mächtige Datenstruktur für tabellarische Daten bereit. Ich erinnere mich an meine ersten Versuche, Tabellen in Python zu bearbeiten. Ohne pandas hatte ich die Wahl zwischen verschachtelten Listen, verschachtelten Dictionaries, Listen in Dictionaries, Dictionaries in Listen usw. Nichts davon funktionierte so richtig …

Ärmel hoch und rein in die Daten: Die Big Data Week in Berlin

Was ist Big Data, und welche Effekte ergeben sich für unser Leben? Anlässlich der nächste Woche unter anderem in Berlin stattfindenden Big Data Week sprach ich mit Data Scientist Klaas Bollhöfer. Klaas, Anfang Mai ist Berlin das Epizentrum aller digital arbeitenden Menschen: Neben re:publica und Linuxtag ist die Hauptstadt auch wieder eine von dreißig Locations weltweit, die sich an der Big Data Week beteiligen. Erzähl doch mal, was sich dahinter verbirgt. Die Big Data Week ist eine 2012 ins Leben gerufene Initiative mit dem Ziel, die Big Data Communities der Welt für eine Woche intensiv miteinander zu vernetzen, Hunderte von Events, Meetups, Konferenzen & Hackathons unter einem gemeinsamen Dach zu verorten und gemeinsam als zentrales Organ einer international agierenden Interessensgemeinschaft zu agieren. Die Big Data Week wird von London aus organisiert und umspannt alle Kontinente (mit Ausnahme Antarktis, zumindest noch :-)), mehr als 30 Städte und mehr als 200 Veranstaltungen. Es ist ein „Global Festival of Data“, das in diesem Jahr bereits zum 2. Mal auch in Berlin stattfindet – vom 5. bis 11. Mai. Wie …

Moderne Werkzeuge für die rechnergestützte Statistik, Teil 2

Statistische Datenauswertung lebt vom Zusammenspiel zahlreicher Kompetenzen, Werkzeuge und Hilfsmittel. In Teil 1 dieses Artikels habe ich skizziert, welchen Anforderungen sich eine Statistiksoftware aus meiner Sicht heute stellen muss. In Teil 2 nun stelle ich verschiedene textbasierte Formate vor, die als Datenquellen eine relevante Rolle spielen. Textbasierte Datenformate & Auszeichnungssprachen Daten müssen vor der Analyse in der Regel auf irgendeine Weise aufbereitet, umgeformt und in geeignete(re) Speicherformate überführt werden. Speicherformate spielen auch in den Ausnahmefällen eine Rolle, in denen der Analyst bereits auf die elektronische Erfassung Einfluss nehmen kann. Jeder Arbeitsschritt, der in Handarbeit erledigt werden muss, zieht typische und nur begrenzt kontrollierbare Probleme nach sich (die u.a. mit der Vigilanz, mit Figur-Grund-Problemen und mit sensomotorischen Fehlleistungen zusammenhängen). Bei solchen Aufgaben können wir uns heute allerdings von einer Vielzahl leistungsfähiger und oft kostengünstiger Werkzeuge und Technologien unterstützen lassen. Sobald Daten ins Spiel kommen, arbeite ich nach zwei einfachen Prinzipien: (1) Handarbeit im Umgang mit Daten ist auf ein absolutes Minimum zu reduzieren; (2) maschinelle Verarbeitung der Daten muss so früh einsetzen, wie es das jeweilige Szenario zulässt, und …

Moderne Werkzeuge für die rechnergestützte Statistik, Teil 1

Dieser Beitrag ist der erste in einer kleinen Serie locker zusammenhängender Artikel rund um die Themen Datenanalyse, rechnergestützte Statistik und die exzellente universelle Statistikumgebung R. Rückblick Es ist noch nicht so lange her, 10 oder 15 Jahre, da reichte es für die Durchführung einer gewöhnlichen Datenanalyse, Zugriff auf eine  Statistiksoftware zu haben und mit einer Textverarbeitung umgehen zu können. In der zweiten Hälfte der 90er Jahre hatten SPSS und SAS den Wechsel von den Großrechnern auf die Windows-Plattform vollzogen und sich dort gemütlich eingerichtet. Den Steuersprachen waren GUIs übergestülpt worden, was vor allem für Gelegenheitsanwender und Technophobe praktisch war, weil es sie von der Aufgabe befreite, syntaktisch korrekte Anweisungen schreiben zu müssen – nicht immer eine triviale Aufgabe, da in diesen Systemen neben eigentlich einfachen Syntaxregeln teils komplexe Einschränkungen und nicht immer intuitive Randbedingungen zu beachten sind. Mit Einführung der GUIs war damals dem Anschein nach viel gewonnen; auf jeden Fall aber war die Vertracktheit besagter Steuersprachen erfolgreich der Wahrnehmung der Anwender entzogen worden – Statistik ließ sich jetzt auf Knopfdruck betreiben. Mit der Frage, …

Berlin Buzzwords 2011 am 06./07. Juni

    Nach dem Erfolg des ersten Events im Jahr 2010 findet am 6. und 7. Juni wieder die Berlin Buzzwords 2011 statt. Organisiert wird die Veranstaltung von Newthinking Communications in Zusammenarbeit  mit Simon Willnauer (Apache Lucene/Solr), Jan Lehnardt (Apache CouchDB) und Isabel Drost (Apache Mahout). Wie im letzten Jahr dreht sich auch 2011 wieder alles um die Themen skalierbare Datenanalyse, Suche und NoSQL Datenbanken. An zwei Tagen wird in einer Vielzahl von Vorträgen unter anderem über „Apache projects Hadoop, Lucene and Solr, scaling search with katta or Elastic search, NoSQL databases such as Apache CouchDB, HBase and MongoDB” gesprochen. Wer mehr zum Ablauf  erfahren möchte, kann einen Blick in das Programm für den 06. Juni und den 07. Juni der Berlin Buzzwords 2011 werfen. Tickets für die Veranstaltung können hier online bestellt werden. Der O’Reilly Verlag unterstützt die Berlin Buzzwords 2011 mit einem Buchpaket. Wir wünschen allen Teilnehmern viel Spaß!