Big Data: Korrelationen, Kausalitäten oder einfach nur Käse?

In unserer schönen neuen Big Data Welt soll die Auswertung großer Datenmengen Verhaltensmuster gesellschaftlicher Gruppierungen offenlegen, die sich bei der Analyse einzelner Personen bzw. Konsumenten nicht ohne weiteres erkennen lassen. Das Problem ist nur, dass gewaltige Massen von Korrelationen geradezu zwangsläufig überall zutage treten, wo Google, Facebook und Co. nur lange genug mit ihren Big Data Algorithmen nach Datengold schürfen. Je mehr Daten dank immer größerer Rechenkapazitäten von den üblichen Verdächtigen munter ausgewertet werden, desto höher wird die Wahrscheinlichkeit, dass scheinbare Zusammenhänge zwischen zwei Variablen konstruiert werden, die in Wirklichkeit überhaupt nichts miteinander zu tun haben.

Anstelle einer Komplexitätsreduktion erfolgt also oftmals eher das Gegenteil, indem fleißig Korrelations-Schrott produziert wird. Beim Data Mining ist eben nicht alles Gold, was glänzt: Scheinbare Korrelationen als kausale Zusammenhänge zu interpretieren, kann natürlich oftmals auch zu ziemlich absurden Ergebnissen führen. Beispiele gefällig?

Zwischen dem Pro-Kopf-Verbrauch von Käse in den USA und der Zahl von Amerikanern, die sich mit ihrem Bettlaken erdrosselt haben, sst sich eine beeindruckende Korrelation feststellen:

chart

Die Website Spurious Correlations hat es sich zur Aufgabe gemacht, zahlreiche solcher kuriosen Korrelationen aufzulisten. Bleiben wir doch einfach mal bei den Nahrungsmitteln: Bei der Betrachtung der Beziehung zwischen der Scheidungsrate im US-Bundesstaat Maine und des Pro-Kopf-Verbrauchs von Margarine finden wir ebenfalls sehr schön parallel verlaufende Kurven:

chart-2

Man mag über diese Dinge nun schmunzeln und als aufgeklärten Zeitgenossen dürfte uns wohl auch schon seit längerem klar sein, dass etwa die Anzahl von Neugeborenen und Störchen in einer Region nicht unmittelbar kausal zusammenhängen. Die unsichtbare dritte Variable ist in diesem Fall die Ländlichkeit der Region. Doch wenn heute bereits Facebook-Daten zur Berechnung der Kreditwürdigkeit genutzt werden, zeigt sich, dass bei der Auswertung großer Datenmengen aus dem Internet auch unsere Bewegungsspielräume im Netz bedroht sind.

image description

Quelle: Fotolia

 

Bei SpaceNet verfolgen wir diese Entwicklungen sehr aufmerksam und nehmen auch kein Blatt vor den Mund, wenn es gilt, zu IT-Sicherheitsthemen wie aktuell etwa der glorreichen Rückkehr von Angela Merkels Großer Koalition zur Vorratsdatenspeicherung kritisch Stellung zu beziehen. Oder nehmen wir doch einfach mal den bei näherer Betrachtung ziemlich ambivalenten Begriff der Netzneutralität, der in der politischen Debatte gerne definiert wird als „Gleichbehandlung von Daten bei der Übertragung im Internet, unabhängig von Sender und Empfänger, dem Inhalt der Pakete und der Paketanwendung”.

Das klingt eigentlich zunächst ganz okay und auch irgendwie ziemlich liberal. Doch auch hier gilt wieder, dass nicht alles Gold ist, was glänzt: Wenn ein Internetprovider einen Angriff auf einen seiner Kunden feststellt, dann sperrt er, falls möglich, umgehend die Sender-Adresse und verhält sich damit im Sinne der Definition keineswegs mehr neutral, aber sicherlich durchaus im Interesse seiner Kunden.

Die Liste derartiger „nicht-neutraler Maßnahmen” im Dienste des Kunden ließe sich noch weiter fortsetzen, doch mein Chef Sebastian von Bomhard hat bereits an anderer Stelle dargelegt, warum die vielbeschworene Netzneutralität ein Mythos ist. Außerdem muss ich mich jetzt auch langsam mal wieder meinem Tagesgeschäft widmen, da ich meine Brötchen hier bei SpaceNet nicht in erster Linie als Netzphilosoph verdiene. 🙂  

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.