In Teil 1 unseres Gesprächs berichtete Bruno Hopp von den Anforderungen, die das Speichern und Nutzbarmachen von riesigen Datenmengen mit sich bringen. In der heutigen Fortsetzung sprechen wir über R, eine Datenbanksoftware, die in den letzten Jahren immer mehr begeisterte Anhänger fand.
Die Open Source-Statistiksoftware und Programmiersprache R ist gerade dabei, den Markt für Statistiktools umzuwerfen. Sie nutzen R seit einigen Jahrent. Wie sind Ihre Erfahrungen?
Das sind ganz hervorragende! Ich bin auf R aufmerksam geworden, als R noch bei Versionsnummer 1.10 herum dümpelte. Vor Jahren hatte ich für mich privat Linux als leistungsstarkes System entdeckt, aber es gab nur unbedeutende open-source Lösungen für empirischen Datenanalysen. Gretl gibt es für die Ökonometrie (Teil der Wirtschaftswissenschaften), und Computer-Algebra Systeme wie Octave gibt es auch schon eine Weile. Leider sind sie in den Sozialwissenschaften bisher ungebräuchlich bis unbekannt.
Unix und Linux wird oft von Menschen verwendet, die es nicht nur wegen seiner Offenheit schätzen (im Sinne von „kostenlos“), sondern die wirklich wissen, was sie da tun. Da hat man keine Angst, einen C-compiler, Perl oder Python zu nehmen und sich sein Werkzeug selbst zu schreiben. In der Welt der Sozialwissenschaften gab es dagegen lange Jahre den Satz „Datenanalyse? Dann sollten sie jetzt SPSS lernen…“. Immerhin bröckelt seit einiger Zeit manches Monopol, sogar proprietäre Software muss heute im Wettbewerb mit anderen wie Maple, STATA etc. Profil zeigen. Die Märkte für Analysesoftware sind eher konservativ – wer einmal die Bedienung einer Software mühsam erlernt hat, möchte nur ungern ein zweites Mal neu investieren. Von daher muss man mit Verzögerungen rechnen, bis der Trend hin zu R in der statistischen Analyse eine ganze Profession erfasst. Aber dank Open Source gibt es da eine Entspanntheit, das Bessere wird einfach gewinnen.
Beobachten Sie persönlich auch ein stärker werdendes Interesse an R?
R macht dank seiner Open Source-Wurzeln in kürzester Zeit eine erstaunlich gute Figur, und ich erhalte inzwischen häufiger die Nachfrage – „hm, sie haben da diese interessante Studie. Ich würde die gern mit R analysieren…“ – Das ist natürlich schön, wenn ich erklären darf, dass R heutzutage ein feines Zusatzpaket „foreign“ anbietet, das den Import und den Export in Fremdformaten wie SPSS, STATA, SAS, Minitab und anderen spielend einfach macht. R wächst natürlich beständig, und auch ich muss aufpassen, dass ich bei den momentan ca. 2700 Zusatzpaketen nicht die Übersicht verliere. Auch viele Kollegen lernen – wie bei uns im GESIS Spring Seminar – wie die Stärken von R für die eigene Arbeit zielführend genutzt werden.
Wie gelingt Ihnen das? Können Sie Hilfsmittel empfehlen?
Da hilft es, dass der R-Code frei einsehbar ist, dass es im Internet reichlich Dokumentationen zu allen Aspekten gibt, der Newsletter http://journal.r-project.org/ ist sowohl lesenswert als auch frei zugänglich. Das Problem ist selten die Suche – eher wird man überrollt von einer Vielzahl an Handbüchern und Anwendungen. Wichtig ist natürlich, wenn erfahrene Praktiker ihr Wissen teilen – hier möchte ich unbedingt „R in a Nutshell“ erwähnen. Inzwischen auch in der deutschen Übersetzung verfügbar zeigt es in R die verfügbaren Varianzanalysen, Multidimensionale Skalierung, Mehrebenenanalysen und Text mining, natürlich die täglichen Regressionsanalysen, Zeitreihen und und und… ich komme ins Schwärmen.
Nicht nur R (und das O’Reilly-Buch) – auch die R-Community begeistert sie?
Ja, was mich fasziniert: wie die zahlreichen R-Enthusiasten es schaffen, immer wieder etwas Neuartiges zu entwickeln. Schließlich gibt es nicht nur in Banken und Firmen, in der Forschung und wo auch immer Nachfrage nach Datenanalyse – das Geschäft ist definitiv schneller geworden. Die theoretischen Grundlagen, wie die Daten interpretiert werden können – das ist mehr und mehr im Fluss. Ich sehe mit teils gemischten Gefühlen, wenn Statistik traditionell wie in den Wirtschaftswissenschaften verwendet wird, freue mich sehr wenn Statistik neuartige Forschungen ermöglicht wie in den Politikwissenschaften, der Soziologie aber auch in Physik und Genetik. Die Community wird durch die „R Foundation“ unterstützt bzw. mitorganisiert, z.B. gibt es diese schönen internationalen Kongresse (einmal jährlich) oder für Softwarentwickler die Teilnahme am Google Summer of Code.
Das GESIS Leibniz-Institut archiviert abgeschlossene Umfragen und hilft, die archivierten Daten zu analysieren oder mit weiteren zu vergleichen. In den letzten Jahren ging der Trend dabei immer stärker zur Visualisierung: Mit Hilfe von Software werden Datenströme dabei grafisch dargestellt, mit dem Ziel, die Zusammenhänge zwischen ihnen zu erkennen – häufig auch überraschende. Ist dies mit R ebenfalls möglich?
Oh ja – Visualisierung ist eine der spannendsten Seiten von R! Dazu sollte man wissen, dass es in der Vergangenheit eine Wissenschaftstradition gab, die nur die Verwendung von Indizes und numerischem Material als „ordentliche Wissenschaft“ honorierte. Visualisierung war aufgrund nicht vorhandener technischer Mittel im letzten Jahrtausend kümmerlich.
Heutzutage haben wir enorme Möglichkeiten, wenn wir Linux auf Arbeitsrechnern und Clustern nutzen, um darauf R laufen zu lassen. Solche Rechenpower gab es früher nur in Großforschungseinrichtungen, heute haben wir das am Arbeitsplatz – von besserer Vernetzung dank Web und Email haben wir noch nicht gesprochen.
Ein Lattice-plot ist so etwas – da kann ich mehrere Variablen mit der Stärke ihrer Zusammenhänge visualisieren. Das macht R erstklassig. Oder eine 3D-Darstellung, bei der ich alles dynamisch rotieren lassen und „grafisch“ Hypothesen antesten kann. Netzwerkgraphen visualisieren – das ist auch faszinierend.
Andere Software kann das natürlich auch – aber mit sehr viel mehr Aufwand. Andererseits höre ich gerade von Einsteigern oft „ich will meine Dissertation nicht programmieren müssen…“ – hier ist entscheidend, zu differenzieren: vieles ist möglich, aber nicht alles zielführend. Grafische Oberflächen wie der R-Commander (Paket „Rcmdr“) sind für Einsteiger wertvoll. Wenn die Themen komplexer werden, geht es nicht ohne Skripte. Natürlich muss man in der Wissenschaft wissen, was mensch da macht – ein zugegeben hoher Anspruch. Und manchmal fällt es schwer, den Preis zu akzeptieren – aber dafür ist R so effizient, dass der Preis nicht gar zu hoch wird. Andererseits gibt es klar auch Fälle, in denen R nicht angebracht ist. Qualitative Forschung würde ich hier sehen, denn sie ist in i.d.R. nicht empirisch konzipiert.
Wo sehen Sie weitere Vorteile gegenüber den bekannten, proprietären Tools ? Und welche Nachteile gibt es?
R ist für mich ein Statistikpaket der Extraklasse – „Batterien inklusive“. Damit meine ich, es kommt vielleicht nicht so bunt schillernd daher wie manche anderen – aber schnörkellos und macht auch bei Sonderwünschen eine prima Figur wie z.B. der Präsentation seiner Ergebnisse.
Bei soviel Licht ist auch etwas Schatten zu erwarten – natürlich lernt niemand R an einem Vormittag komplett. Das ist bei allen mir bekannten Statistiklösungen vergleichbar. Nachdem ich SPSS und STATA erlebt und teils erlitten habe, kam mir R wie ein Lichtblick vor – was meiner Begeisterung für Open Source zuzuschreiben ist. SPSS, Stata und viele andere sind ohne Zweifel nützliche und sinnvolle Werkzeuge mit kommerzieller Lizensierung.
Für meine Bedürfnisse sind die Entwicklungszyklen in proprietärer Software schlicht zu langsam und/oder unzuverlässig, deshalb meine Präferenz hin zum Entwicklungsmodell von R. Aber nicht alle Anwender haben meine Ansprüche, von daher haben alle ihre Existenzberechtigung – glaube ich. Entscheiden müssen die Anwender – und gut, dass es diese Auswahl für uns Anwender heute gibt.
Herr Hopp, ich danke Ihnen für das Gespräch.
Über Bruno Hopp:
Bruno Hopp betreut am GESIS-Standort in Köln die „Party Manifesto Collection“ – eine umfangreiche Sammlung von Wahlprogrammen politischer Parteien. Er hat sich auf empirisch-statistische Verfahren in der Textanalyse spezialisiert, wobei Multidimensionale Skalierung (MDS), Mehrebenenverfahren und Netzwerkanalysen ihn immer wieder faszinieren. Dass er seit mehr als fünfzehn Jahren regelmässig Debian GNU/Linux auf seinen privaten Rechnern vom Desktop bis zum Server einsetzt, hat ihm im Freundeskreis den Ruf eines technikbegeisterten Trendsetters eingetragen, der seine Ideen im Kreise Gleichgesinnter weiterentwickelt.
Über das GESIS-Institut:
Das in Köln ansässige GESIS Leibniz-Institut ist die größte Infrastruktureinrichtung für Sozialwissenschaften (in Deutschland und wahrscheinlich weltweit). Es speichert repräsentative Datensätze und berät bei der Durchführung von Umfragen, fördert in der Profession den Umgang mit diesen Daten und deren Analyse, z.B. durch Lehre von fortgeschrittenen Methoden und den Umgang mit statistischen Werkzeugen. Vom 14. März bis 1. April veranstaltet es das 40. GESIS-Frühjahrsseminar in Köln mit hochkarätigen Tutorien für Sozialwissenschaftler mit Interesse an empirischen Analyseverfahren