Alle Artikel mit dem Schlagwort: R

Moderne Werkzeuge für die rechnergestützte Statistik, Teil 1

Dieser Beitrag ist der erste in einer kleinen Serie locker zusammenhängender Artikel rund um die Themen Datenanalyse, rechnergestützte Statistik und die exzellente universelle Statistikumgebung R. Rückblick Es ist noch nicht so lange her, 10 oder 15 Jahre, da reichte es für die Durchführung einer gewöhnlichen Datenanalyse, Zugriff auf eine  Statistiksoftware zu haben und mit einer Textverarbeitung umgehen zu können. In der zweiten Hälfte der 90er Jahre hatten SPSS und SAS den Wechsel von den Großrechnern auf die Windows-Plattform vollzogen und sich dort gemütlich eingerichtet. Den Steuersprachen waren GUIs übergestülpt worden, was vor allem für Gelegenheitsanwender und Technophobe praktisch war, weil es sie von der Aufgabe befreite, syntaktisch korrekte Anweisungen schreiben zu müssen – nicht immer eine triviale Aufgabe, da in diesen Systemen neben eigentlich einfachen Syntaxregeln teils komplexe Einschränkungen und nicht immer intuitive Randbedingungen zu beachten sind. Mit Einführung der GUIs war damals dem Anschein nach viel gewonnen; auf jeden Fall aber war die Vertracktheit besagter Steuersprachen erfolgreich der Wahrnehmung der Anwender entzogen worden – Statistik ließ sich jetzt auf Knopfdruck betreiben. Mit der Frage, …

R im praktischen Einsatz: Interview mit Bruno Hopp, Teil 2

In Teil 1 unseres Gesprächs berichtete Bruno Hopp von den Anforderungen, die das Speichern und Nutzbarmachen von riesigen Datenmengen mit sich bringen. In der heutigen Fortsetzung sprechen wir über R, eine Datenbanksoftware, die in den letzten Jahren immer mehr begeisterte Anhänger fand. Die Open Source-Statistiksoftware und Programmiersprache R ist gerade dabei, den Markt für Statistiktools umzuwerfen. Sie nutzen R seit einigen Jahrent. Wie sind Ihre Erfahrungen? Das sind ganz hervorragende! Ich bin auf R aufmerksam geworden, als R noch bei Versionsnummer 1.10 herum dümpelte. Vor Jahren hatte ich für mich privat Linux als leistungs­starkes System entdeckt, aber es gab nur unbedeutende open-source Lösungen für empirischen Datenanalysen. Gretl gibt es für die Ökonometrie (Teil der Wirtschafts­wissenschaften), und Computer-Algebra Systeme wie Octave gibt es auch schon eine Weile. Leider sind sie in den Sozialwissenschaften bisher ungebräuchlich bis unbekannt. Unix und Linux wird oft von Menschen verwendet, die es nicht nur wegen seiner Offenheit schätzen (im Sinne von „kostenlos“), sondern die wirklich wissen, was sie da tun. Da hat man keine Angst, einen C-compiler, Perl oder Python zu …

R im praktischen Einsatz: Interview mit Bruno Hopp, Teil 1

Vor einiger Zeit stellte ich Ihnen an dieser Stelle die Statistiksoftware R vor. Nun habe ich mit Bruno Hopp gesprochen, der zum einen auf einen großen Erfahrungsschatz im Bereich der Datenanalyse zurückgreifen kann, und zum anderen die Vorzüge von Open Source-Software im allgemeinen und der freien Software R im besonderen sehr gut kennt und schätzt. Lesen Sie in Teil 1 des Interviews zunächst, vor welchen Herausforderungen Bruno Hopp in seiner täglichen Arbeit in einer der in den Sozialwissenschaften größten Datenbanksammlungen der Welt steht. In Kürze folgt Teil 2, in dem wir uns besonders über R unterhielten. Herr Hopp, am GESIS Leibniz-Institut für Sozialwissenschaften, an dem Sie seit vielen Jahren arbeiten, werden große Datenmengen gespeichert. Um welche Daten handelt es sich dabei? Es handelt sich um ca. 7000 (siebentausend) meist empirische Studien aus den Sozialwissenschaften nach 1945 zu den verschiedensten Themen, etwa Bildung, Einkommen, ökonomische Verhältnisse und politischen Einstellungen –  namentlich z.B. die Politbarometer, der ALLBUS (Allgemeine Bevölkerungs­umfrage), die Eurobarometer, der EVS (European Value Study). Ihre Zahl lässt sich nicht ganz präzise fassen, da wir regelmässig …

R – oder: Wenn es eine Programmiersprache in die New York Times schafft

Wieviele Programmiersprachen gibt es, denen sogar die New York Times einen begeisterten Artikel schenkt? Noch dazu, wenn sie sich dem als trocken verrufenen Feld der Statistik widmen? Die Open Source-Statistiksoftware und Programmiersprache R hat dies geschafft, und mehr noch: Die New York Times bezeichnet sie gar als „Lingua Franca“ der Datenanalysten und nennt mit Google, Pfizer und der Bank of America gleich einige prominente Anwender. Höchste Zeit also, sich einmal auf Spurensuche nach R zu begeben. Erster Anlaufpunkt: die Wikipedia. Der englischsprachige Artikel klärt mich auf, R basiere auf S. Ah ja, natürlich. Ich lese weiter: Die Professoren Ross Ihaka and Robert Gentleman begannen Anfang der Neunziger an der Universität Auckland, die unter Statistikern bekannte Programmiersprache S abzuwandeln. 1996 gab es dann die erste Version, seitdem wird R an immer mehr Hochschulen und Forschungseinrichtungen, aber auch im Unternehmensumfeld eingesetzt. Ich kenne SPSS als Statistiktool, außerdem gibt es noch das ebenfalls propretiäre “SAS” – die Software des gleichnamigen Anbieters ist quasi Standard. R versucht, SAS den Rang abzulaufen: In klinischen Studien beispielsweise – für die besonders …