Datenanalyse Archive - oreillyblog

E-Book-Deal: Datenanalyse mit Python

Corina Pahrmann — Thu, 12 Aug 2021 08:37:00 +0000

Sichert euch noch bis Sonntag unseren E-Book-Deal „Datenanalyse mit Python“ – ein Fachbuch, das euch alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python vermittelt. Typische Datenanalyse-Probleme effektiv lösen, gleichzeitig Pandas, NumPy und IPython lernen: Das schafft ihr mit Wes McKinneys „Datenanalyse mit Python“. Das Fachbuch, international bekannt und sehr geschätzt, bringt es in seiner Originalausgabe auf mehr 1.000 Amazon-Rezensionen. Vorgestellt hatten wir das Buch bereits an dieser Stelle, deshalb, hey, keine weiteren Worte mehr. Schnappts euch einfach, das E-Book-Angebot gilt nur bis Sonntag, den 15. August 2021. Erhältlich wie immer direkt bei uns auf oreilly.de sowie überall da, wo es E-Books gibt.

Der Beitrag E-Book-Deal: Datenanalyse mit Python erschien zuerst auf oreillyblog.

Geburtstag: „Datenintensive Anwendungen designen“ und „Datenanalyse mit Python“

Corina Pahrmann — Mon, 21 Oct 2019 11:22:01 +0000

Mit „Datenintensive Anwendungen designen“ und „Datenanalyse mit Python“ holten wir zwei Schwergewichte für Softwarearchitekten und Datenanalysten in unser Programm. Und heute feiern wir ihren Geburtstag! (Inklusive Verlosung ;)) Verraten wir mal eine schöne Routine: Einmal monatlich kommen wir alle – Lektorat, Marketing, Vertrieb, Herstellung und Geschäftsführung – in einem großen Meeting zusammen. Wir stellen einander neue Projekte vor, berichten von Konferenzen, die wir besucht haben und: wir stoßen auf unsere Geburtstagskinder an. Nicht auf die der Kollegen. Sondern auf die Jubilare aus Papier, Druckfarbe und Leim. (Ja, und natürlich auch auf ihre elektronischen Äquivalente.) Und worum ging es im Oktober? Um diese beiden: Was die Bücher auszeichnet? Das erzähle ich euch jetzt. :) Datenintensive Anwendungen designen Dieses umfassende Buch zum datenbasierten Systemdesign erschien zunächst in englischer Sprache – und wurde hochgelobt (wenn ihr beispielsweise mal zu Amazon rüber schauen möchtet). Der Softwarearchitekt und Forscher Martin Kleppmann hat es für O’Reilly USA geschrieben, unser Übersetzer Frank Langenau hat das Manuskript wiederum ins Deutsche übertragen. Und dann? Hat sich Martin Kleppmann für uns noch einmal dran gesetzt und einige …

Der Beitrag Geburtstag: „Datenintensive Anwendungen designen“ und „Datenanalyse mit Python“ erschien zuerst auf oreillyblog.

E-Book-Deal: R für Data Science

Corina Pahrmann — Tue, 12 Jun 2018 10:04:33 +0000

Gesammelte Daten in Erkenntnisse verwandeln: Das ist das Ziel jedes Forschers und Wissenschaftlers, jedes Entwicklers, jedes Produktmanagers und Werbers und wohl jedes Unternehmers. Was ließe sich erreichen, wenn man aus dem Wust an Einzelinformationen über ein Produkt oder über einen Kunden, über Prozesse oder über Geschehnisse, über Eindrücke und Gedanken ein klares Bild ableiten könnte? Moderne Data Science will genau das. Und mit der Datenbanksprache R gibt es ein Tool, das Antworten liefern kann. Hadley Wickham – Chief Scientist bei RStudio und Mitglied der R Foundation – und sein Co-Autor Garrett Grolemund – Statistiker, Lehrer und Master Instructor bei RStudio – führen in ihrem Buch „R für Data Science“ Studenten, Data Scientists und Datenanalysten durch den vollständigen Data-Science-Zyklus aus Datenimport, Bereinigung, Transformation, der Visualisierung und Modellierung sowie schließlich der Kommunikation der Ergebnisse mit R Markdown. Das Buch gibt die notwendigen Tools an die Hand, erklärt und ordnet ein. Und zwar nicht nach einer streng akademischen Reihenfolge, sondern immer genau dann, wenn eine Aufgabe in der Praxis ansteht. Es eignet sich auch für Programmieranfänger. Nur im Juni gibt’s das E-Book …

Der Beitrag E-Book-Deal: R für Data Science erschien zuerst auf oreillyblog.

Neuerscheinung: Statistik mit R

Corina Pahrmann — Fri, 24 Nov 2017 13:05:15 +0000

„Dieses Buch ist nicht einfach ein Buch über R. Auch nicht über Statistik. Es ist ein Buch über Statistik mit R“, leitet der Volkswirt, Projektmanager und Autor Joachim Zuckarelli sein Buch ein. Denn Zuckarelli will eines: Anwendungsorientierung. Statistische Konzepte erklären und sofort in R umsetzen. Ergebnisse interpretieren. Systematisch in die Statistik einführen. Aber: keine Methoden diskutieren. Keine theoretischen Erörterungen der Sprachkonzepte von R. An der Stelle unterscheidet sich das Buch deutlich von reinen Statistik- bzw. R-Handbüchern sowie -Tutorials oder Online-Foren. Zuckarelli bleibt nah an der Praxis – geht zum Beispiel auf die häufigsten Fehlermeldungen ein – und verfolgt dabei einen didaktisch sinnvollen Lehrplan. Wer sollte es lesen? Alle, die R zügig für ihre Arbeit einsetzen wollen. Dabei spielt es keine Rolle, ob damit wissenschaftliche Arbeiten angefertigt oder Marktforschungsdaten aufbereitet werden sollen. Ob Ihr für Euer Startup den Finanzmarkt analysieren oder endlich die Dissertation fertigstellen wollt. Wann immer Ihr empirisch arbeiten wollt (oder müsst) und R einsetzen wollt: Dieses Buch liefert Euch eine pragmatische und praxisorientierte Einführung. Zuckarelli schreibt sehr verständlich und versetzt Euch in die Lage, sehr schnell produktiv …

Der Beitrag Neuerscheinung: Statistik mit R erschien zuerst auf oreillyblog.

Excel, Windows Server und Gartenpartys im Herbst

Corina Pahrmann — Mon, 23 Oct 2017 07:00:30 +0000

„Viele meinen ja, sie können Excel, nur weil sie die Adressen ihrer Mitarbeiter mal in ein Spreadsheet getippt haben“, meinte der Bekannte auf der Gartenparty am vergangenen Wochenende. (Ja, Gartenparty. Geht alles im Oktober.) Besagter Bekannter jedenfalls habe es satt, in Bewerbungsunterlagen einfach per default „MS Office-Kenntnisse: sehr gut“ zu lesen, betonte er weiter. „Und dann scheitert es schon an der Summenfunktion, von mehr brauchen wir gar nicht reden“, erklärte er weiter. Microsoft Excel 2016: Das Handbuch Na – welches Buch ich ihm empfohlen habe, ist klar, oder? In diesem Jahr nämlich neu erschienen ist unser knapp 1.000 Seiten starkes Handbuch Microsoft Excel 2016. Das Autorenteam Frank Arendt-Theilen, Dietmar Gieringer, Hildegard Hügemann, Dominik Petri und Eckehard Pfeifer hat es nicht nur gründlich aktualisiert, sondern auch zu den neuen Business-Intelligence-Tools erweitert. Mein Bekannter wird es nun für seine Firma kaufen. Neben meiner Buchempfehlung konnte ich mir übrigens eine kleine Predigt darüber, dass gute Chefs sich durchaus aktiv für die Weiterbildung ihrer Mitarbeiter engagieren können, nicht ganz verkneifen. ;-) Überzeugend an Büchern fand er nun, dass man sie immer …

Der Beitrag Excel, Windows Server und Gartenpartys im Herbst erschien zuerst auf oreillyblog.

Universell anwendbare Datenbeispiele – oder: Wie erkläre ich pandas?

Corina Pahrmann — Thu, 09 Jun 2016 07:05:26 +0000

Unser Übersetzer Dr. Kristian Rother blickt in diesem Gastbeitrag unter die Motorhaube eines didaktisch sinnvollen Buchaufbaus – am Beispiel der Python-Bibliothek pandas im Buch „Datenanalyse mit Python“. Woran erkennt man einen ausgezeichneten technischen Text? Meiner Meinung nach an der universellen Anwendbarkeit, über die eigentlich beschriebene Technologie hinaus. Beim Übersetzen des Buches “Datenanalyse mit Python” von Wes McKinney bin ich auf zahlreiche Beispiele dafür gestoßen. Im Buch wendet Wes eine bestimmte didaktische Struktur an, um universelle Anwendbarkeit zu erreichen. Da ich die gleiche didaktische Struktur selbst im Training einsetze, und außerdem Wes’ Inhalte verwende, stelle ich diese hier einmal vor. Es handelt sich dabei um die Kombination der drei Komponenten Technologie, Daten und Problemstellung. Die Technologie Logisch, dass ein technischer Text sich mit mindestens einer Technologie auseinandersetzt. In “Datenanalyse mit Python” ist das die Python-Bibliothek pandas. pandas stellt eine mächtige Datenstruktur für tabellarische Daten bereit. Ich erinnere mich an meine ersten Versuche, Tabellen in Python zu bearbeiten. Ohne pandas hatte ich die Wahl zwischen verschachtelten Listen, verschachtelten Dictionaries, Listen in Dictionaries, Dictionaries in Listen usw. Nichts davon funktionierte so richtig …

Der Beitrag Universell anwendbare Datenbeispiele – oder: Wie erkläre ich pandas? erschien zuerst auf oreillyblog.

Ärmel hoch und rein in die Daten: Die Big Data Week in Berlin

Corina Pahrmann — Mon, 28 Apr 2014 09:55:08 +0000

Was ist Big Data, und welche Effekte ergeben sich für unser Leben? Anlässlich der nächste Woche unter anderem in Berlin stattfindenden Big Data Week sprach ich mit Data Scientist Klaas Bollhöfer. Klaas, Anfang Mai ist Berlin das Epizentrum aller digital arbeitenden Menschen: Neben re:publica und Linuxtag ist die Hauptstadt auch wieder eine von dreißig Locations weltweit, die sich an der Big Data Week beteiligen. Erzähl doch mal, was sich dahinter verbirgt. Die Big Data Week ist eine 2012 ins Leben gerufene Initiative mit dem Ziel, die Big Data Communities der Welt für eine Woche intensiv miteinander zu vernetzen, Hunderte von Events, Meetups, Konferenzen & Hackathons unter einem gemeinsamen Dach zu verorten und gemeinsam als zentrales Organ einer international agierenden Interessensgemeinschaft zu agieren. Die Big Data Week wird von London aus organisiert und umspannt alle Kontinente (mit Ausnahme Antarktis, zumindest noch :-)), mehr als 30 Städte und mehr als 200 Veranstaltungen. Es ist ein „Global Festival of Data“, das in diesem Jahr bereits zum 2. Mal auch in Berlin stattfindet – vom 5. bis 11. Mai. Wie …

Der Beitrag Ärmel hoch und rein in die Daten: Die Big Data Week in Berlin erschien zuerst auf oreillyblog.

Moderne Werkzeuge für die rechnergestützte Statistik, Teil 2

Christine Haite — Fri, 10 Jun 2011 12:03:49 +0000

Statistische Datenauswertung lebt vom Zusammenspiel zahlreicher Kompetenzen, Werkzeuge und Hilfsmittel. In Teil 1 dieses Artikels habe ich skizziert, welchen Anforderungen sich eine Statistiksoftware aus meiner Sicht heute stellen muss. In Teil 2 nun stelle ich verschiedene textbasierte Formate vor, die als Datenquellen eine relevante Rolle spielen. Textbasierte Datenformate & Auszeichnungssprachen Daten müssen vor der Analyse in der Regel auf irgendeine Weise aufbereitet, umgeformt und in geeignete(re) Speicherformate überführt werden. Speicherformate spielen auch in den Ausnahmefällen eine Rolle, in denen der Analyst bereits auf die elektronische Erfassung Einfluss nehmen kann. Jeder Arbeitsschritt, der in Handarbeit erledigt werden muss, zieht typische und nur begrenzt kontrollierbare Probleme nach sich (die u.a. mit der Vigilanz, mit Figur-Grund-Problemen und mit sensomotorischen Fehlleistungen zusammenhängen). Bei solchen Aufgaben können wir uns heute allerdings von einer Vielzahl leistungsfähiger und oft kostengünstiger Werkzeuge und Technologien unterstützen lassen. Sobald Daten ins Spiel kommen, arbeite ich nach zwei einfachen Prinzipien: (1) Handarbeit im Umgang mit Daten ist auf ein absolutes Minimum zu reduzieren; (2) maschinelle Verarbeitung der Daten muss so früh einsetzen, wie es das jeweilige Szenario zulässt, und …

Der Beitrag Moderne Werkzeuge für die rechnergestützte Statistik, Teil 2 erschien zuerst auf oreillyblog.

Moderne Werkzeuge für die rechnergestützte Statistik, Teil 1

Christine Haite — Fri, 20 May 2011 12:20:08 +0000

Dieser Beitrag ist der erste in einer kleinen Serie locker zusammenhängender Artikel rund um die Themen Datenanalyse, rechnergestützte Statistik und die exzellente universelle Statistikumgebung R. Rückblick Es ist noch nicht so lange her, 10 oder 15 Jahre, da reichte es für die Durchführung einer gewöhnlichen Datenanalyse, Zugriff auf eine Statistiksoftware zu haben und mit einer Textverarbeitung umgehen zu können. In der zweiten Hälfte der 90er Jahre hatten SPSS und SAS den Wechsel von den Großrechnern auf die Windows-Plattform vollzogen und sich dort gemütlich eingerichtet. Den Steuersprachen waren GUIs übergestülpt worden, was vor allem für Gelegenheitsanwender und Technophobe praktisch war, weil es sie von der Aufgabe befreite, syntaktisch korrekte Anweisungen schreiben zu müssen – nicht immer eine triviale Aufgabe, da in diesen Systemen neben eigentlich einfachen Syntaxregeln teils komplexe Einschränkungen und nicht immer intuitive Randbedingungen zu beachten sind. Mit Einführung der GUIs war damals dem Anschein nach viel gewonnen; auf jeden Fall aber war die Vertracktheit besagter Steuersprachen erfolgreich der Wahrnehmung der Anwender entzogen worden – Statistik ließ sich jetzt auf Knopfdruck betreiben. Mit der Frage, …

Der Beitrag Moderne Werkzeuge für die rechnergestützte Statistik, Teil 1 erschien zuerst auf oreillyblog.

Berlin Buzzwords 2011 am 06./07. Juni

Viviane Kramer — Mon, 16 May 2011 13:03:41 +0000

Nach dem Erfolg des ersten Events im Jahr 2010 findet am 6. und 7. Juni wieder die Berlin Buzzwords 2011 statt. Organisiert wird die Veranstaltung von Newthinking Communications in Zusammenarbeit mit Simon Willnauer (Apache Lucene/Solr), Jan Lehnardt (Apache CouchDB) und Isabel Drost (Apache Mahout). Wie im letzten Jahr dreht sich auch 2011 wieder alles um die Themen skalierbare Datenanalyse, Suche und NoSQL Datenbanken. An zwei Tagen wird in einer Vielzahl von Vorträgen unter anderem über „Apache projects Hadoop, Lucene and Solr, scaling search with katta or Elastic search, NoSQL databases such as Apache CouchDB, HBase and MongoDB” gesprochen. Wer mehr zum Ablauf erfahren möchte, kann einen Blick in das Programm für den 06. Juni und den 07. Juni der Berlin Buzzwords 2011 werfen. Tickets für die Veranstaltung können hier online bestellt werden. Der O’Reilly Verlag unterstützt die Berlin Buzzwords 2011 mit einem Buchpaket. Wir wünschen allen Teilnehmern viel Spaß!

Der Beitrag Berlin Buzzwords 2011 am 06./07. Juni erschien zuerst auf oreillyblog.