Menü
Kontakt
Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation

Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation
#146 3/01/2017 Geschätzte Lesezeit: 7 Minuten.

„Correlation does not imply causation!“ wird bei der Analyse von Daten immer wieder gewarnt. Wir zeigen, warum es doch immer wieder passiert und warum einige Stimmen in Zeiten von Big Data behaupten, dass Korrelation angeblich ausreichen soll. Vor allem zeigen wir, wie man wirklich richtig mit Daten umgeht.

Wer sich irgendwann in seinem Leben länger mit Statistiken und dem Auswerten von Daten beschäftigt hat, kennt den Satz: „Korrelation bedeutet nicht Kausalität.“ Im Englischen ist die Formulierung „Correlation does not imply causation“ fest verankert, der Fehlschluss wird meist lateinisch formuliert: „Cum hoc ergo propter hoc“ (lat.: „Wenn zugleich, dann deswegen“).

Daten-Analysten sind sich also sicher bewusst, dass zwei Ereignisse nicht zwingend Ursache und Wirkung sind, nur weil sie häufig zusammen auftreten. Denn genau das ist der Unterschied zwischen Kausalität und Korrelation: Wenn A aus B folgt, spricht man von Kausalität. Wenn A und B nur häufig zusammen beobachtet werden, liegt eine Korrelation vor.

Oft wird direkt nach dieser Erklärung die ganze Sache an einem Beispiel ad absurdum geführt. Etwa: der Zusammenhang von Eiscreme-Verkäufen und Todesfällen durch Ertrinken. Hier wird schnell klar, wie unsinnig es ist, die Eisverkäufe als Ursache für das Ertrinken zu vermuten, auch wenn die mathematische Ähnlichkeit der Datensätze eine solche Schlussfolgerung nahelegen würde.

Es gibt jede Menge weitere Beispiele, und viele sind ziemlich unterhaltsam, etwa die Scheidungsrate in Maine, die immerhin eine Korrelation von 99 Prozent zum Margarinekonsum in den USA aufweist. Tyler Vigen, der an der Harvard University Jura studiert, hat solche Beispiele zu einem Buch zusammengefasst.

Schokolade führt zu Nobelpreisen

Was wir bisher gesagt haben, könnte sich in jedem Statistik-Seminar abgespielt haben: Das Phänomen wird erklärt und benannt, im Anschluss spricht man über den Eiscreme-Fall, man lacht und ist sich sicher, dass einem das nie unterlaufen würde.

Aber es passiert. Es passiert vor allem Menschen, die es auf jeden Fall besser wissen müssten. 2012 vertrat eine im „New England Journal of Medicine” publizierte Studie die These, dass der Genuss von Schokolade eine bevölkerungsweite Verbesserung der kognitiven Fähigkeiten bewirken kann. Die Begründung sollte eine Statistik liefern, die die Anzahl der Nobelpreisträger aus einem Land mit dem Schokoladenkonsum im selben Land in Verbindung brachte.

Die Forscher sprachen sogar selbst die Problematik an: „The principal finding of this study is a surprisingly powerful correlation between chocolate intake per capita and the number of Nobel laureates in various countries. Of course, a correlation between X and Y does not prove causation but indicates that either X influences Y, Y influences X, or X and Y are influenced by a common underlying mechanism. However, since chocolate consumption has been documented to improve cognitive function, it seems most likely that in a dose-dependent way, chocolate intake provides the abundant fertile ground needed for the sprouting of Nobel laureates.”

Diese Schlussfolgerung birgt einige Probleme, nicht nur die Sache mit der Korrelation und Kausalität. Die Autoren haben auch einen sogenannten Ökologischen Fehlschluss vorgelegt: Nur weil man zwei Datensätze hat, bei denen einer die Nobelpreisträger und ein anderer den Schokoladenkonsum abbildet, kann man von diesen kollektiven Datensätzen noch lange keine Rückschlüsse auf einzelne Individuen ziehen. Trotz der mathematischen Ähnlichkeit beider Werte ist es beispielsweise durchaus möglich, dass nie ein Nobelpreisträger Schokolade gegessen hat – wir können den Schokoladenkonsum von Nobelpreisträgern aus diesen Datensätzen gar nicht ablesen. Das Gewinnen eines Nobelpreises durch Einzelpersonen ist außerdem kein geeignetes Anzeichen für die kognitiven Fähigkeiten der gesamten Bevölkerung eines Landes. Die biologischen Metaphern („fertile ground“, „sprouting“) sollten hier schon die Alarmglocken schrillen lassen.

Warum erliegen sogar Menschen, die sich wissenschaftlich mit Daten beschäftigen (und sogar selbst die Problematik ansprechen!), immer wieder der Versuchung, einen kausalen Zusammenhang zu vermuten, wo keiner ist?


Mehr Wissen?

Mit Research von NIMIRUM können auch Sie individuelle Insights und Handlungsempfehlungen für Ihre Projekte nutzen.
Ihre Fragen. Unsere Antworten.


Die wissenschaftliche Suche nach dem kausalen Zusammenhang

Das liegt erst einmal daran, dass das Ableiten von Kausalitäten aus beobachteten Tatsachen eine der schwierigsten wissenschaftlichen Aufgaben ist und von vielen als das Grundproblem von Wissenschaft überhaupt gesehen wird. Der finnische Informatiker Patrik Hoyer versuchte sich mit seinen additive noise models trotzdem daran. Seine Ergebnisse wurden auch von Joris Mooij, Juniorprofessor für maschinelles Lernen an der Universität von Amsterdam, aufgegriffen und stellen einen Versuch dar, eine allgemeingültige und vor allem saubere Methode zur Daten-Auswertung zu entwickeln.

Die Idee ist vergleichsweise simpel: Sollte tatsächlich ein Ereignis ein anderes beeinflussen, findet man das, was Hoyer „additive noise“ nennt, also zusätzliches Rauschen oder die Nebeneffekte dieses Ereignisses, im beeinflussten Ereignis wieder.

Fahre ich also jeden Tag mit dem Auto zur Arbeit, schlagen sich zufällige Nebenereignisse meiner Fahrt (eine rote Ampel, Blitzeis oder Stau) in der Dauer meiner Fahrt nieder. Aus dem Beobachten dieser „additive noises“ kann man nun per Gegenprobe schließen, dass der Verkehr meine Fahrzeit beeinflusst und nicht etwa meine Fahrzeit den gesamten Verkehr.

Diese Vorgehensweise ist leider nur bei ähnlich simplen Zusammenhängen anwendbar. Sie ist auch auch nicht zu 100 Prozent verlässlich. Aber sie zeigt immerhin eines: Die Schwierigkeiten beim Ermitteln von kausalen Zusammenhängen sind enorm und sollten am besten Profis überlassen werden.

Big Data und die steigende Verfügbarkeit von Daten

Und genau hier kommt das zweite große Problem ins Spiel. Daten und statistische Erhebungen sind so einfach zu bekommen wie noch nie. Unter dem Begriff Big Data möchte jeder an diesen Informationen teilhaben und sie auswerten. Und zwar möglichst viele Daten auf einmal, und möglichst schnell, am besten automatisiert.

Gerade Entscheidungen, die Produkte und Dienstleistungen betreffen, stehen verstärkt unter Datendruck, und gerade hier wird Korrelation und Kausalität verwechselt. Oder ganz weit auseinander gehalten. Der zum Thema Big Data sehr vielsagende Satz von Chris Anderson, „Petabytes allow us to say: ‚Correlation is enough‘“ beschreibt eine neue Einstellung zu Statistiken: Wenn die Menge der Daten ausreichend groß ist, reicht auch schon eine Korrelation als Grundlage für Entscheidungen.

Andersons Aussage ist sicher bewusst provokativ formuliert. Dennoch stimmt es, dass in einigen Fällen eine beobachtete Korrelation von Ereignissen als Entscheidungsgrundlage ausreichen kann. Ob und wann allerdings auf der Basis von Korrelationen eine Schlussfolgerung gezogen werden kann, hängt allerdings, wie eigentlich alles im Bereich Data-Analyse, davon ab, was man eigentlich wissen möchte und ob man überhaupt die richtigen Informationen hat.

Es kommt häufig genug vor, dass wir uns blenden lassen von einer überwältigenden Menge an Daten und Statistiken, ohne zu hinterfragen, ob wir nicht doch die falschen Daten zu einem bestimmten Thema ausgewählt haben. Der Ökonom David Reily greift beispielsweise lieber zu kontrollierten Experimenten, statt sich auf die Auswertung von Daten zu verlassen. So in einer Arbeit zur Effektivität von Werbung auf Yahoo. Er hatte die Möglichkeit, die Kunden eines Händlers mit Yahoo-Nutzern abzugleichen und aus allen passenden Testpersonen, die bei beiden registriert waren, eine Versuchsgruppe und eine Kontrollgruppe zu bilden. Der Versuchsgruppe wurde regelmäßig Werbung des Händlers gezeigt, der Kontrollgruppe nicht, auch wenn die Testpersonen die Bedingungen für die Anzeige erfüllten. Reily hat sich also ganz bewusst dazu entschieden, mit seinem Experiment nur die Zielgruppe des Unternehmens zu beobachten und nicht jede einzelne Suchanfrage auf Yahoo.

Ohne dieses Experiment, so Reily, wäre er zu den falschen Schlüssen gekommen. Die reine Analyse bestehender Daten hätte nicht berücksichtigt, dass sich Menschen, die eine bestimmte Werbung sehen, sehr stark von Menschen unterscheiden, die diese Werbung nie sehen werden, einfach indem sie bestimmte Begriffe nicht suchen. Wer auf der Suche nach einem neuen Auto ist, wird sich wenig für meine Anzeige zu aktueller Sportbekleidung interessieren. Aber wenn aus diesem Grund die Anzeige schnell weggeklickt wird, kommt man schnell zu falschen Schlüssen, wenn man die Effektivität der eigenen Anzeige bewerten möchte. Diese Daten würden mir zwar viel über die Positionierung und die Verbreitung meiner Anzeige sagen, nicht aber darüber, wie effektiv sie formuliert ist und wie viele Menschen aus meiner tatsächlichen Zielgruppe durch genau diese Anzeige zum Kauf angeregt werden.

Auch der Versuch, bei der Auswertung von Daten durch kleinere Stichproben und andere Methoden wieder mehr auf einzelne Menschen zu achten, um seine Zielgruppe zu verstehen, bekommt wieder mehr Beachtung. In der Welt von Big Data versuchen sich einige durch ihren ganz eigenen Ansatz abzugrenzen: Small Data.

Selbst mit einer unbegrenzten Menge an Daten bleibt also die Auswertung dieser Daten schwierig und in Ihr menschliches Ermessen gestellt. Mit Blick auf eine konkrete Unternehmens-Situation ist immer zu klären: Stelle ich die richtigen Fragen? Wie wurden die Daten erhoben? Sind sie neutral? Sind sie aussagekräftig? Gesunder Menschenverstand und individuelle Urteilsfähigkeit und Erfahrung sind im Umgang mit Daten unerlässlich.

Ein erster Schritt, auch in der Datenflut die richtigen Entscheidungen zu treffen, kann für Sie mit Research von NIMIRUM beginnen. Wir wissen, wie man aus einer Vielzahl von Informationen und Meinungen die richtigen herausfiltert und unsere unabhängigen Experten geben, anders als Algorithmen, entsprechend Ihrer individuellen Fragen und Anforderungen Antworten und Handlungsoptionen. 

Autor: Björn Berger / Redaktion NIMIRUM 

Wir empfehlen Ihnen folgende Zitierweise:
Berger, Björn: „Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation”, unter: https://www.nimirum.info/insights/b_146-korrelation-und-kausalitaet-in-zeiten-von-big-data/ (abgerufen am 12/12/2019).

Ein Thema, mit dem Sie beruflich zu tun haben?


Anja Mutschler

Anja Mutschler

Inhaberin

Dann helfen wir Ihnen, auf dem Laufenden zu bleiben. Nimirum bespielt fundiert eine Bandbreite an Themen, die für Menschen und Märkte derzeit interessant sind. Abonnieren Sie unseren Infoletter, der Ihnen regelmäßig alle Insights zusammenfasst. Oder buchen Sie eine Research von Nimirum, die Ihnen komplett und maßgeschneidert dieses Thema aufbereitet. Schauen Sie hier, was wir im Angebot haben oder kontaktieren Sie Anja Mutschler direkt als Ihre Ansprechpartnerin für Research-Projekte.

Kontakt mit Anja Mutschler

Dieser Artikel ist ihnen etwas wert:

Diesen Artikel bewerten:

Weitere verwandte Artikel lesen


50 Cents zur Hypermotion von Alfred Fuhr #231 – 9/12/2019

Auch in diesem Jahr war NIMIRUM wieder auf der Hypermotion unterwegs und stellte die Methode der Mobilitäts-Biographien vor. Alfred Fuhr berichtet auch von seinen Eindrücken als Besucher der Messe und von interessanten Gesprächen und Begegnungen.

Community Building, Teil 1: Grundlagen für erfolgreiches Community Building #230 – 30/10/2019

In dieser dreiteiligen Serie untersuchen wir mit unserer Lead-Expertin Prof. Dr. Astrid Nelke den neuen und zugleich uralten Trend des Community Building. Die Digitalisierung hat die Community neu belebt. Die digitale bzw. virtuelle Community kann ganz verschiedene Formen annehmen, folgt aber in Aufbau, Etablierung und Betrieb bestimmten Kriterien. Der erste Teil der Serie widmet sich den Grundlagen für erfolgreiches Community Building.

Research Guide, Teil 1: Keine Angst vorm Deep Web – Wie funktionieren eigentlich Suchmaschinen? #228 – 20/06/2019

Im ersten Teil unseres Research Guides mit Rechercheprofi Heike Baller schauen wir uns an, wie Suchmaschinen eigentlich funktionieren, wie Google zur wichtigsten Suchmaschine wurde und welche Alternativen vielleicht doch noch nützlich sein könnten.

Research Guide, Teil 2: Effiziente Recherche braucht ein paar Kenntnisse #229 – 20/06/2019

Im zweiten Teil unseres Research Guides mit Rechercheprofi Heike Baller stellen wir die wichtigsten Zeichen, Befehle und Tricks vor, mit denen man seine eigenen Suchanfragen um einiges verbessern kann.

Kampf der Mobilitätskulturen Teil 1: Automobilismus als Privileg #225 – 8/04/2019

Automobilismus: Ein Privileg oder Vorraussetzung zur gesellschaftlichen Teilhabe? Dieser Frage widmet sich NIMIRUM-Experte Gunter Heinickel in einer dreiteiligen biographisch-historischen Perspektive. Teil eins: Automobilismus als Privileg.

Kampf der Mobilitätskulturen Teil 2: Mobilitätsbiographie als Blaupause #226 – 8/04/2019

Automobilismus: Ein Privileg oder Vorraussetzung zur gesellschaftlichen Teilhabe? Dieser Frage widmet sich NIMIRUM-Experte Gunter Heinickel in einer dreiteiligen biographisch-historischen Perspektive. Teil zwei: Mobilitätsbiographie als Blaupause.

Kampf der Mobilitätskulturen Teil 3: Mobilität muss auch heute nutzerorientiert gedacht werden #227 – 8/04/2019

Automobilismus: Ein Privileg oder Vorraussetzung zur gesellschaftlichen Teilhabe? Dieser Frage widmet sich NIMIRUM-Experte Gunter Heinickel in einer dreiteiligen biographisch-historischen Perspektive. Teil drei: Mobilität muss nutzerorientiert gedacht werden.

Reporting for Change: Wie CSR-Berichte ein Unternehmen verändern #223 – 22/10/2018

In diesem Jahr sind Unternehmen erstmals dazu verpflichtet eine nicht-finanzielle Erklärung zu den sozialen und ökologischen Dimensionen ihrer Arbeit abzugeben – eine Neuerung die für viele betroffene Unternehmen nur als zusätzliche Arbeit gesehen wird. NIMIRUM-Expertin Kerstin Hermuth-Kleinschmidt zeigt, wie aus dem CSR-Bericht statt leidiger Verpflichtung ein direkter Mehrwert für das Unternehmen wird.

Wie geht es weiter mit Journalismus und Gesellschaft? #217 – 15/12/2017

Wer sich heute für den Journalismus entscheidet, hat klare Vorstellungen – aber auch Fragen: an Medienhäuser, an die Öffentlichkeit, an sich selbst. Die 12 Studierenden des internationalen Masterstudiengangs New Media Journalism (NMJ) haben sich zum Auftakt an der Leipzig School of Media in einer Übung journalistisch mit dem Thema Journalismus auseinandergesetzt. Einige Gedanken und Reflexionen von Studiengangsleiter Dr. Tobias D. Höhn.

Hypermobility! NIMIRUM auf der Hypermotion #216 – 11/12/2017

Alfred Fuhr war für NIMIRUM auf der neuen Messe Hypermotion in Frankfurt und hat mit Beteiligten und Gästen über den Begriff der Hypermotion als Oberbegriff zu Mobilität, Logistik, Digitalisierung und Dekarbonisierung gesprochen. Bildquelle: Messe Frankfurt Exhibition GmbH.