Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog)
Redaktion: AP
Der Buzzword-Reigen ist entzaubert (Data-Mining 101, Data-Mining-Arten, Lernarten), ein konkreter Anwendungsfall ausführlich skizziert (Hallo Wortvektor, hallo Spam!) – Zeit für die philosophisch-politischen Überlegungen in dieser Blogreihe.
Teil 3: Die 99%ige Sicherheit und der „auffällige“ Bürger
Von Recall und Precision
Wie gut sind nun moderne Data-Mining-Verfahren und Machine-Learning-Algorithmen? Haben wir ein magisches Computerorakel, das perfekt alle Entscheidungen treffen kann? Offensichtlich nicht: wir würden sonst ausschließlich Mails erhalten, die wir auch wirklich wollen. Außerdem wären Ärzte überflüssig, weil automatisierte Entscheidungssysteme immer die perfekte Diagnose stellten – und dank der wohlmeinenden Totalüberwachung gäbe es auch keine Verbrechen mehr.
Der Teufel steckt im Detail. Man muss, möchte man die Güte eines Verfahrens einschätzen, verschiedene Kriterien und Zusammenhänge beachten. Gerne werden Angaben in den Raum geworfen wie „zu 99% korrekt“. Aber 99% von was?
Zunächst einmal gibt es vier absolute Kennzahlen für das Ergebnis einer Data-Mining-Aktion. Wir bleiben beim Beispiel des Spamfilters:
- True Positives: Zu Recht (true) als Spam (positive) erkannte Daten: Spam wird als Spam identifiziert
- False Positives: Zu Unrecht (false) als Spam (positive) erkannte Daten: Normale Mail wandert in den Spam Ordner
- True Negatives: Zu Recht (true) als normale E-Mail (negative) erkannte Daten: Normale Mail bleibt unangetastet
- False Negatives: Zu Unrecht (false) als normale Email (negative) erkannte Daten: Eine Spam Mail schafft es in den Posteingang
Aus diesen vier Werten kann man zwei weitere, wichtige Werte für ein Verfahren ermitteln (vergl.: http://en.wikipedia.org/wiki/Precision_and_recall):
- Recall: Prozensatz der korrekten Daten, die als korrekt erkannt werden (die „Erinnerung“ des Systems): Wenn von 1000 Emails 100 Spam sind, und das System 80 True Positives liefert, haben wir einen Recall von 80%
- Precision: Prozensatz aller Daten, die als korrekt erkannt werden: Wenn das System 100 E-Mails als Spam erkennt und davon 90 True Positives sind, haben wir eine Precision (Genauigkeit) von 90%
Nun ist es sehr einfach, einen Spam Filter mit 100% Recall zu bauen: man markiert jede Mail als Spam – nur hat man dann eine Precision von 0%. Gleichfalls kann man einen Filter mit 100% Precision bauen: der erkennt dann gar keine Mail als Spam – und hat einen Recall von 0%.
Beide Werte zusammen werden in der Regel mit einer speziellen Formel zum sogenannten F-Score kombiniert. Hier ist es möglich einzustellen, ob Precision oder Recall schwerer gewichtet werden sollen.
Wenn also jemand mit Prozentzahlen zu Filterfähigkeiten um sich wirft: schauen Sie genau nach, was gemeint ist – und glauben Sie keiner Statistik, die Sie nicht selbst gefälscht haben!
Von Freiheit und Sicherheit
Machen wir nun ein makabres Gedankenspiel und ersetzen in unserem Beispiel rund um erwünschte und unerwünschte Mails ein paar Begriffe:
Posteingang durch Menschenmenge.
Normale E-Mail durch unbescholtener Bürger.
Spam durch Terrorist.
Spam-Ordner durch Geheimgefängnis.
Recall durch Sicherheit.
Precision durch Freiheit.
Durch eine Totalüberwachung gepaart mit Data-Mining-Methoden wird im Grunde eine große Lotterie veranstaltet, bei der den „Gewinnern“ – also den False Positives – bestenfalls eine rechtsstaatliche Ermittlung nach dem Grundsatz „in dubio pro reo“ winkt (unangenehm genug!), und schlimmstenfalls… tja…
Betrachten wir mit dieser Analogie im Hinterkopf ein simples Rechenbeispiel, bekommt der oft zitierte Satz „Wer nichts zu verbergen hat, hat auch nichts zu befürchten“ einen sehr unangenehmen Beigeschmack:
Stellen wir uns ein Verfahren vor, das eine (fantastische & unrealistisch gute) False-Positive-Rate von 0,1% der untersuchten Datensätze hat. Wenn wir alle Kölner Bürger (ca. 1 Million) einmal im Jahr mit unserem Verfahren analysieren, würde das bedeuten, das 1000 (!) dieser Menschen regelmäßig Besuch – oder zumindest einige Aufmerksamkeit – vom BND bekommen. Über ein potentielles Rendezvous mit der CIA beim Auslandsurlaub haben wir dann noch gar nicht gesprochen.
Natürlich gibt es auch bei herkömmlichen Ermittlungen Fehler – deshalb gibt es ja (bisher) einen Rechtsstaat, in dem die Justiz getrennt ist von den Sicherheitskräften, jeder das Recht auf einen Anwalt hat und außerdem Berufung gegen ein Urteil einlegen kann. Ebenfalls ganz wichtig: Für jede Ermittlung bedarf es eines Anfangsverdachts. Wenn nun aber statistische Verfahren pauschal jeden durchleuchten und analysieren, springt schlagartig auch die Anzahl derer in die Höhe, die zu Unrecht verdächtigt werden.
Argumentationen à la „irgend etwas wird schon dran sein“, „kein Rauch ohne Feuer“ sind, wenn man sich die Funktionsweise vieler Verfahren anschaut, höchst irrational: Es kann jeden treffen! Eine ungünstige Mischung von Schlüsselwörtern in einer (vielleicht satirischen) Mail, ein „verdächtiges“ Bewegungsprofil am Bahnhof (weil man verzweifelt eine saubere Toilette sucht), eine durch falsche Klicks oder investigative Recherche entstandene, „auffällige“ Suchhistorie – schon wird ein arbiträrer Confidence-Wert überschritten, und man gerät ins Raster.
Mit Data Mining & Co. verhält es sich wie mit nahezu jeder modernen Technologie: Man kann sie für spannende, nützliche, faszinierende Zwecke verwenden, z.B. für ein Recommender-System auf einer Geek-Movie-Plattform. Oder man missbraucht sie zur kompletten, wenig effektiven, dafür u.U. fatalen Überwachung von privater Kommunikation im Internet.
Ok, 1x tief durchatmen. Im nächsten und letzen Teil erklären wir, mit welchen Tools (fast) jeder Data-Mining betreiben und Amazon/Facebook/BND/NSA (bescheidene) Konkurrenz machen kann.