R im praktischen Einsatz: Interview mit Bruno Hopp, Teil 1

Vor einiger Zeit stellte ich Ihnen an dieser Stelle die Statistiksoftware R vor. Nun habe ich mit Bruno Hopp gesprochen, der zum einen auf einen großen Erfahrungsschatz im Bereich der Datenanalyse zurückgreifen kann, und zum anderen die Vorzüge von Open Source-Software im allgemeinen und der freien Software R im besonderen sehr gut kennt und schätzt. Lesen Sie in Teil 1 des Interviews zunächst, vor welchen Herausforderungen Bruno Hopp in seiner täglichen Arbeit in einer der in den Sozialwissenschaften größten Datenbanksammlungen der Welt steht. In Kürze folgt Teil 2, in dem wir uns besonders über R unterhielten.

Herr Hopp, am GESIS Leibniz-Institut für Sozialwissenschaften, an dem Sie seit vielen Jahren arbeiten, werden große Datenmengen gespeichert. Um welche Daten handelt es sich dabei?

Es handelt sich um ca. 7000 (siebentausend) meist empirische Studien aus den Sozialwissenschaften nach 1945 zu den verschiedensten Themen, etwa Bildung, Einkommen, ökonomische Verhältnisse und politischen Einstellungen – namentlich z.B. die Politbarometer, der ALLBUS (Allgemeine Bevölkerungsumfrage), die Eurobarometer, der EVS (European Value Study). Ihre Zahl lässt sich nicht ganz präzise fassen, da wir regelmässig uns international mit weiteren Datenarchiven in Europa und Nordamerika austauschen.

Bruno Hopp

Aus welchen Gründen werden diese wahnsinnig vielen Daten am GESIS Institut vorgehalten?
Sozialwissenschaftliche Datenarchive gibt es, damit Ergebnisse teils jahrelanger, kostspieliger Untersuchungen für die Nachwelt erhalten bleiben.

Die Sozialwissenschaften stehen damit keineswegs allein da. In vielen empirisch arbeitenden Bereichen sind gewaltige Datenmengen zu verarbeiten, die im Umfang unsere noch überbieten – ich denke da z.B. an Meteorologen, die satellitengestützte Bildinformationen im Bereich von 80 bis 200 GigaB täglich verarbeiten und auch speichern müssen. Etliche unserer grossen Studien – etwa die EuroBarometer passen längst nicht mehr auf eine einfache CD und benötigen selbst schon eine eigene Datenbank, um den Überblick zu wahren. Das spiegelt auch einen Trend wider, dass viele jüngere Studien nicht mehr singuläre Einzelfallstudien sind sondern komplexer gewordenen Realität in Form zunehmend komplexer konzipierter Studien zu bewältigen suchen.

Wie müssen wir uns das vorstellen: Wieviele Datenbanken gibt es, und wie sind diese strukturiert?
Hm, die pure Zahl der Datenbanken ist ähnlich konkret wie eine „Wolke“. Wenn sie unsere Webseiten besuchen, wird unter „Recherche und Datenzugang“ eine Menge angeboten – z.B. Recherchen innerhalb von Fragentexten, natürlich unser Datenbestandskatalog, nicht zu vergessen ZAKAT, SoFis und vieles mehr. Hinter all diesen Angeboten, ob sie nun simpel oder kompliziert scheinen, verbergen sich Datenbanken.

Diese sind per Webinterfaces abfragbar und werden bei uns entwickelt oder mitentwickelt – ein ausgesprochen schwieriges Geschäft, weil hier die Nachfrage durch die Fachwissenschaftler(-Innen) und die IT zusammenfinden müssen. Manchmal ist es ganz schön vertrackt, wenn Nutzer uns fragen „könnt ihr das nicht so simpel machen wie die Googlesuche?“ und wir darauf ehrlich antworten müssten „kaum, weil in diesen Daten soviel mehr drin steckt und sie als Wissenschaftler schon selbst entscheiden müssen, was davon für Sie wichtig ist“.

Welche Datenbanksysteme setzen Sie ein?
Hier ist so ziemlich alles vertreten – z.B. nutzen Sofis und Sowiport teils frei verfügbare Open-source Software (Apache Webserver, MySQL, PHP usw). Wir haben keine Berührungsängste, je nach Notwendigkeit das vielversprechendste Werkzeug einzusetzen – das hängt ganz von den Projektzielen ab. Weil unsere Klientel – wissenschaftlich motivierte Anwender – keine einfachen, simplen Profile haben, müssen wir die Nachfrage etwa in unseren Wissensportalen völlig anders behandeln als eine Zielgruppe, die schon genau weiss, welchen Datensatz sie benötigt. Der Einsatz von Open Source-basierten Werkzeugen ist in einer Zeit von Open Access nicht mehr derart polarisierend wie vor wenigen Jahren. Und nicht zuletzt erleben auch wir, dass es nicht ausreicht, die Umfragedaten nur ordentlich zu archivieren. Auch wir müssen unsere Daten intern vernetzen, Zusatznutzen schaffen und Zugänge erleichtern. Dass der durchschnittliche Sozialwissenschaftler derartiges im Studium nicht gelernt hat, ist noch eines der geringeren Probleme.

Die größten Datenanhäufungen nützen nichts, wenn sie nicht sauber abgefragt und analysiert werden können. Wie funktioniert das in der Praxis: Wer hat Interesse an den Daten, und wie können diejenigen darauf zugreifen?
Eine schöne Frage – da ich regelmäßig selbst mit Anfragen zu tun habe. Das ist nicht leicht zu fassen – einmal sind es fortgeschrittene Studenten (vor ihrer Abschlussarbeit, häufiger in Vorbereitung ihrer Dissertation). Viele Wissenschaftler aus Universitäten und FHs, manchmal Journalisten und etwas seltener Lehrer interessieren sich für unsere Bestände.

Unser Angebot ist in vielen Bereichen natürlich im Web, so dass die Einzelstudien, Panels und Zeitreihen zu finden sind. Teils funktioniert das ähnlich wie ein Nachweissystem, aber bei Datensätzen ist immer entscheidend: aus welchem Jahr, woraus besteht die Stichprobe, wie groß ist die Fallzahl? Es kommen ganz klar sehr viel mehr Kriterien zusammen, als auf ein Stück Papier passen. Unsere Webportale liefern hier z. B mit den Studienbeschreibungen Einblicke.

Das sind immer noch die Metadaten. Die Rohdaten werden dann individuell nachgefragt und zur Verfügung gestellt. Die Nutzung dieser Daten ist natürlich Sache des jeweiligen Nutzers, darauf haben wir keinen Einfluss. Aber viele, die unsere Dienstleistungen einmal in Anspruch genommen haben, kommen wieder – lassen sich z.B. beraten oder erwerben nötiges Fachwissen im analytisch-methodischen Bereich, wie etwa in unserem Spring Seminar in Köln.

Über Bruno Hopp:

Bruno Hopp betreut am GESIS-Standort in Köln die „Party Manifesto Collection“ – eine umfangreiche Sammlung von Wahlprogrammen politischer Parteien. Er hat sich auf empirisch-statistische Verfahren in der Textanalyse spezialisiert, wobei Multidimensionale Skalierung (MDS), Mehrebenenverfahren und Netzwerkanalysen ihn immer wieder faszinieren. Dass er seit mehr als fünfzehn Jahren regelmässig Debian GNU/Linux auf seinen privaten Rechnern vom Desktop bis zum Server einsetzt, hat ihm im Freundeskreis den Ruf eines technikbegeisterten Trendsetters eingetragen, der seine Ideen im Kreise Gleichgesinnter weiterentwickelt.

Über das GESIS-Institut:

Das in Köln ansässige GESIS Leibniz-Institut ist die größte Infrastruktureinrichtung für Sozialwissenschaften (in Deutschland und wahrscheinlich weltweit). Es speichert repräsentative Datensätze und berät bei der Durchführung von Umfragen, fördert in der Profession den Umgang mit diesen Daten und deren Analyse, z.B. durch Lehre von fortgeschrittenen Methoden und den Umgang mit statistischen Werkzeugen. Vom 14. März bis 1. April veranstaltet es das 40. GESIS-Frühjahrsseminar in Köln mit hochkarätigen Tutorien für Sozialwissenschaftler mit Interesse an empirischen Analyseverfahren.

In Kürze veröffentlichen wir Teil 2 des Interviews.

oreillyblog

IT, Social Media & Geek Life von und mit O'Reilly-Büchern

R im praktischen Einsatz: Interview mit Bruno Hopp, Teil 1

Schreibe einen Kommentar