False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (3/4)
Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Der Buzzword-Reigen ist entzaubert (Data-Mining 101, Data-Mining-Arten, Lernarten), ein konkreter Anwendungsfall ausführlich skizziert (Hallo Wortvektor, hallo Spam!) – Zeit für die philosophisch-politischen Überlegungen in dieser Blogreihe. Teil 3: Die 99%ige Sicherheit und der „auffällige“ Bürger Von Recall und Precision Wie gut sind nun moderne Data-Mining-Verfahren und Machine-Learning-Algorithmen? Haben wir ein magisches Computerorakel, das perfekt alle Entscheidungen treffen kann? Offensichtlich nicht: wir würden sonst ausschließlich Mails erhalten, die wir auch wirklich wollen. Außerdem wären Ärzte überflüssig, weil automatisierte Entscheidungssysteme immer die perfekte Diagnose stellten – und dank der wohlmeinenden Totalüberwachung gäbe es auch keine Verbrechen mehr. Der Teufel steckt im Detail. Man muss, möchte man die Güte eines Verfahrens einschätzen, verschiedene Kriterien und Zusammenhänge beachten. Gerne werden Angaben in den Raum geworfen wie „zu 99% korrekt“. Aber 99% von was? Zunächst einmal gibt es vier absolute Kennzahlen für das Ergebnis einer Data-Mining-Aktion. Wir bleiben beim Beispiel des Spamfilters: True Positives: Zu Recht (true) als Spam (positive) erkannte Daten: Spam wird als Spam identifiziert False Positives: Zu Unrecht (false) als …