In seinem Gastbeitrag geht Jörg Beyer, Übersetzer von „Statistik von Kopf bis Fuß“ und „Datenanalyse von Kopf bis Fuß„, der Frage nach, ob wir nicht alle ein bisschen Datenanalyst sind.
Wenn Sie jetzt sagen, „ein Datenanalyst analysiert Daten“, sind wir zwar schnell fertig, wirklich weiter hätte es uns aber nicht gebracht.
Zunächst einmal bezeichnet „Datenanalyst“ keinen Beruf, sondern eine Tätigkeit oder Funktion. Datenanalysten findet man in Industrie und Wirtschaft (beispielsweise in der Marktforschung oder der Finanzanalyse), oder auch im Versicherungswesen und im medizinischen Bereich (Qualitätssicherung!), und allgemein überall dort, wo durch laufende Geschäftsprozesse große Datenmengen anfallen. Eine allgemeingültige Definition für die Tätigkeit eines Datenanalysten zu finden, fällt deshalb nicht ganz leicht, je nach Branche und Stellenprofil oder Ausschreibung variieren fachliche Anforderungen und Aufgaben teils stark.
Trotzdem lässt sich diese bunte Vielfalt auf einen gemeinsamen Nenner herunterbrechen. Einfach ausgedrückt besteht die Aufgabe eines Datenanalysten darin, Fragen zu Unternehmenszielen zu beantworten, und er tut das, indem er geeignete Daten auswählt, zusammenstellt, auswertet, seine Auswertungsergebnisse für den Fragesteller aufbereitet und zu Antworten – seiner Stellungnahme – verdichtet.
Der Datenanalyst trifft selbst keine unternehmensrelevanten Entscheidungen, er berät, unterstützt und empfiehlt. Um ein Beispiel aus Statistik von Kopf bis Fuß aufzugreifen, könnte ein Datenanalyst im Auftrag eines Open-Air-Veranstalters aus den vorhergesagten Sonnenstunden eines bestimmten Termins auf die zu erwartenden Besucherzahlen schließen und dem Auftraggeber damit eine Entscheidungshilfe anbieten, ob die Durchführung des geplanten Events wirtschaftlich sinnvoll ist oder nicht.
Wie macht er das, der Datenanalyst? Seine Mittel lassen sich – wiederum grob vereinfacht – in drei Kategorien einteilen: Strategien, Methoden und Werkzeuge. Diese Unterscheidung ist mit etwas Vorsicht zu genießen, die Grenzen zwischen Strategien und Methoden fließen. Für unsere Zwecke ist es am einfachsten, wenn wir einen pragmatischen statt eines akademischen Zugangs wählen und uns an den Fragen „Was?“, „Wie?“ und „Womit?“ orientieren.
Zu den Strategien gehört die Klärung der beiden Fragen, was überhaupt analysiert wird, und woher die Daten kommen sollen. Es beginnt damit, Beziehungen zwischen realen, beobachtbaren Ereignissen herzustellen und eine Hypothese oder ein „Modell“ zur Fragestellung zu formulieren (z.B. „viel Sonne führt zu vielen Open-Air-Besuchern“). Aus diesem Modell wird dann abgeleitet, welche Daten benötigt werden – oft schwerer zu beantworten, als dieser harmlose Satz vermuten lässt, Datenbeschaffung ist kein triviales Thema. Unter die Strategien kann beispielsweise aber auch fallen, gemeinsam mit dem Auftraggeber etwas konkret Analysierbares aus der Fragestellung herauszuarbeiten.
Gut, nehmen wir an, das Modell steht und alle Daten liegen vor. Das Projekt geht in die nächste Phase, „Wie sollen die Daten ausgewertet werden?“. Hier ist das Methodenarsenal des Analysten gefragt: (a) Methoden zur Datenaufbereitung und -bereinigung, (b) Heuristiken, (c) statistische Auswertungsverfahren. Was davon gebraucht wird und in welchem Mischungsverhältnis, entscheidet der Einzelfall. Oft sind ankommende Rohdaten in einem Zustand, der für eine unmittelbare Analyse unbrauchbar ist, dann muss bereinigt und/oder umstrukturiert werden. Es kann auch vorkommen, dass die Rohdatenlage beim besten Willen für eine Analyse mit „harten“ statistischen Methoden nicht ausreicht, dann muss zu Heuristiken, also Näherungsregeln, gegriffen werden. Michael Milton gibt in seiner Datenanalyse von Kopf bis Fuß einen breiten (und unterhaltsamen) Überblick über Strategien und Methoden bei unterschiedlichen Problemstellungen.
Zuletzt müssen wir noch wissen, mit welchen Werkzeugen der Analyst seine Daten bearbeitet. Kurz gesagt, mit allem, was sich auf einem Rechner installieren und mit Daten füttern lässt, angefangen bei Illustrationssoftware und Tabellenkalkulationen, bis hin zu großkalibrigen Datenbankservern, professioneller Statistiksoftware und dem einen oder anderen Programmierwerkzeug. Was benötigt wird, entscheidet sich von Fall zu Fall, sobald klar wird, wie Problemstellung und Datengrundlage aussehen. Ein weites und spannendes Feld, aber für heute würde es den Rahmen sprengen, tiefer ins Detail zu gehen – vielleicht ein andermal…
Jörg Beyer arbeitet als Statistik-Consultant im Gesundheitswesen und als Übersetzer für wissenschaftliche und IT-Fachliteratur. Seine Beziehung zur Statistik lässt sich am besten als Liebe auf den zweiten Blick beschreiben, aber wenn sich heute irgendwo ein Datensatz blicken lässt, löst das einen sofortigen Beutefangreflex bei ihm aus.