Menü
Kontakt
Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation

Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation
#146 3/01/2017 Geschätzte Lesezeit: 7 Minuten.

„Correlation does not imply causation!“ wird bei der Analyse von Daten immer wieder gewarnt. Wir zeigen, warum es doch immer wieder passiert und warum einige Stimmen in Zeiten von Big Data behaupten, dass Korrelation angeblich ausreichen soll. Vor allem zeigen wir, wie man wirklich richtig mit Daten umgeht.

Wer sich irgendwann in seinem Leben länger mit Statistiken und dem Auswerten von Daten beschäftigt hat, kennt den Satz: „Korrelation bedeutet nicht Kausalität.“ Im Englischen ist die Formulierung „Correlation does not imply causation“ fest verankert, der Fehlschluss wird meist lateinisch formuliert: „Cum hoc ergo propter hoc“ (lat.: „Wenn zugleich, dann deswegen“).

Daten-Analysten sind sich also sicher bewusst, dass zwei Ereignisse nicht zwingend Ursache und Wirkung sind, nur weil sie häufig zusammen auftreten. Denn genau das ist der Unterschied zwischen Kausalität und Korrelation: Wenn A aus B folgt, spricht man von Kausalität. Wenn A und B nur häufig zusammen beobachtet werden, liegt eine Korrelation vor.

Oft wird direkt nach dieser Erklärung die ganze Sache an einem Beispiel ad absurdum geführt. Etwa: der Zusammenhang von Eiscreme-Verkäufen und Todesfällen durch Ertrinken. Hier wird schnell klar, wie unsinnig es ist, die Eisverkäufe als Ursache für das Ertrinken zu vermuten, auch wenn die mathematische Ähnlichkeit der Datensätze eine solche Schlussfolgerung nahelegen würde.

Es gibt jede Menge weitere Beispiele, und viele sind ziemlich unterhaltsam, etwa die Scheidungsrate in Maine, die immerhin eine Korrelation von 99 Prozent zum Margarinekonsum in den USA aufweist. Tyler Vigen, der an der Harvard University Jura studiert, hat solche Beispiele zu einem Buch zusammengefasst.

Schokolade führt zu Nobelpreisen

Was wir bisher gesagt haben, könnte sich in jedem Statistik-Seminar abgespielt haben: Das Phänomen wird erklärt und benannt, im Anschluss spricht man über den Eiscreme-Fall, man lacht und ist sich sicher, dass einem das nie unterlaufen würde.

Aber es passiert. Es passiert vor allem Menschen, die es auf jeden Fall besser wissen müssten. 2012 vertrat eine im „New England Journal of Medicine” publizierte Studie die These, dass der Genuss von Schokolade eine bevölkerungsweite Verbesserung der kognitiven Fähigkeiten bewirken kann. Die Begründung sollte eine Statistik liefern, die die Anzahl der Nobelpreisträger aus einem Land mit dem Schokoladenkonsum im selben Land in Verbindung brachte.

Die Forscher sprachen sogar selbst die Problematik an: „The principal finding of this study is a surprisingly powerful correlation between chocolate intake per capita and the number of Nobel laureates in various countries. Of course, a correlation between X and Y does not prove causation but indicates that either X influences Y, Y influences X, or X and Y are influenced by a common underlying mechanism. However, since chocolate consumption has been documented to improve cognitive function, it seems most likely that in a dose-dependent way, chocolate intake provides the abundant fertile ground needed for the sprouting of Nobel laureates.”

Diese Schlussfolgerung birgt einige Probleme, nicht nur die Sache mit der Korrelation und Kausalität. Die Autoren haben auch einen sogenannten Ökologischen Fehlschluss vorgelegt: Nur weil man zwei Datensätze hat, bei denen einer die Nobelpreisträger und ein anderer den Schokoladenkonsum abbildet, kann man von diesen kollektiven Datensätzen noch lange keine Rückschlüsse auf einzelne Individuen ziehen. Trotz der mathematischen Ähnlichkeit beider Werte ist es beispielsweise durchaus möglich, dass nie ein Nobelpreisträger Schokolade gegessen hat – wir können den Schokoladenkonsum von Nobelpreisträgern aus diesen Datensätzen gar nicht ablesen. Das Gewinnen eines Nobelpreises durch Einzelpersonen ist außerdem kein geeignetes Anzeichen für die kognitiven Fähigkeiten der gesamten Bevölkerung eines Landes. Die biologischen Metaphern („fertile ground“, „sprouting“) sollten hier schon die Alarmglocken schrillen lassen.

Warum erliegen sogar Menschen, die sich wissenschaftlich mit Daten beschäftigen (und sogar selbst die Problematik ansprechen!), immer wieder der Versuchung, einen kausalen Zusammenhang zu vermuten, wo keiner ist?


Mehr Wissen?

Mit Research von NIMIRUM können auch Sie individuelle Insights und Handlungsempfehlungen für Ihre Projekte nutzen.
Ihre Fragen. Unsere Antworten.


Die wissenschaftliche Suche nach dem kausalen Zusammenhang

Das liegt erst einmal daran, dass das Ableiten von Kausalitäten aus beobachteten Tatsachen eine der schwierigsten wissenschaftlichen Aufgaben ist und von vielen als das Grundproblem von Wissenschaft überhaupt gesehen wird. Der finnische Informatiker Patrik Hoyer versuchte sich mit seinen additive noise models trotzdem daran. Seine Ergebnisse wurden auch von Joris Mooij, Juniorprofessor für maschinelles Lernen an der Universität von Amsterdam, aufgegriffen und stellen einen Versuch dar, eine allgemeingültige und vor allem saubere Methode zur Daten-Auswertung zu entwickeln.

Die Idee ist vergleichsweise simpel: Sollte tatsächlich ein Ereignis ein anderes beeinflussen, findet man das, was Hoyer „additive noise“ nennt, also zusätzliches Rauschen oder die Nebeneffekte dieses Ereignisses, im beeinflussten Ereignis wieder.

Fahre ich also jeden Tag mit dem Auto zur Arbeit, schlagen sich zufällige Nebenereignisse meiner Fahrt (eine rote Ampel, Blitzeis oder Stau) in der Dauer meiner Fahrt nieder. Aus dem Beobachten dieser „additive noises“ kann man nun per Gegenprobe schließen, dass der Verkehr meine Fahrzeit beeinflusst und nicht etwa meine Fahrzeit den gesamten Verkehr.

Diese Vorgehensweise ist leider nur bei ähnlich simplen Zusammenhängen anwendbar. Sie ist auch auch nicht zu 100 Prozent verlässlich. Aber sie zeigt immerhin eines: Die Schwierigkeiten beim Ermitteln von kausalen Zusammenhängen sind enorm und sollten am besten Profis überlassen werden.

Big Data und die steigende Verfügbarkeit von Daten

Und genau hier kommt das zweite große Problem ins Spiel. Daten und statistische Erhebungen sind so einfach zu bekommen wie noch nie. Unter dem Begriff Big Data möchte jeder an diesen Informationen teilhaben und sie auswerten. Und zwar möglichst viele Daten auf einmal, und möglichst schnell, am besten automatisiert.

Gerade Entscheidungen, die Produkte und Dienstleistungen betreffen, stehen verstärkt unter Datendruck, und gerade hier wird Korrelation und Kausalität verwechselt. Oder ganz weit auseinander gehalten. Der zum Thema Big Data sehr vielsagende Satz von Chris Anderson, „Petabytes allow us to say: ‚Correlation is enough‘“ beschreibt eine neue Einstellung zu Statistiken: Wenn die Menge der Daten ausreichend groß ist, reicht auch schon eine Korrelation als Grundlage für Entscheidungen.

Andersons Aussage ist sicher bewusst provokativ formuliert. Dennoch stimmt es, dass in einigen Fällen eine beobachtete Korrelation von Ereignissen als Entscheidungsgrundlage ausreichen kann. Ob und wann allerdings auf der Basis von Korrelationen eine Schlussfolgerung gezogen werden kann, hängt allerdings, wie eigentlich alles im Bereich Data-Analyse, davon ab, was man eigentlich wissen möchte und ob man überhaupt die richtigen Informationen hat.

Es kommt häufig genug vor, dass wir uns blenden lassen von einer überwältigenden Menge an Daten und Statistiken, ohne zu hinterfragen, ob wir nicht doch die falschen Daten zu einem bestimmten Thema ausgewählt haben. Der Ökonom David Reily greift beispielsweise lieber zu kontrollierten Experimenten, statt sich auf die Auswertung von Daten zu verlassen. So in einer Arbeit zur Effektivität von Werbung auf Yahoo. Er hatte die Möglichkeit, die Kunden eines Händlers mit Yahoo-Nutzern abzugleichen und aus allen passenden Testpersonen, die bei beiden registriert waren, eine Versuchsgruppe und eine Kontrollgruppe zu bilden. Der Versuchsgruppe wurde regelmäßig Werbung des Händlers gezeigt, der Kontrollgruppe nicht, auch wenn die Testpersonen die Bedingungen für die Anzeige erfüllten. Reily hat sich also ganz bewusst dazu entschieden, mit seinem Experiment nur die Zielgruppe des Unternehmens zu beobachten und nicht jede einzelne Suchanfrage auf Yahoo.

Ohne dieses Experiment, so Reily, wäre er zu den falschen Schlüssen gekommen. Die reine Analyse bestehender Daten hätte nicht berücksichtigt, dass sich Menschen, die eine bestimmte Werbung sehen, sehr stark von Menschen unterscheiden, die diese Werbung nie sehen werden, einfach indem sie bestimmte Begriffe nicht suchen. Wer auf der Suche nach einem neuen Auto ist, wird sich wenig für meine Anzeige zu aktueller Sportbekleidung interessieren. Aber wenn aus diesem Grund die Anzeige schnell weggeklickt wird, kommt man schnell zu falschen Schlüssen, wenn man die Effektivität der eigenen Anzeige bewerten möchte. Diese Daten würden mir zwar viel über die Positionierung und die Verbreitung meiner Anzeige sagen, nicht aber darüber, wie effektiv sie formuliert ist und wie viele Menschen aus meiner tatsächlichen Zielgruppe durch genau diese Anzeige zum Kauf angeregt werden.

Auch der Versuch, bei der Auswertung von Daten durch kleinere Stichproben und andere Methoden wieder mehr auf einzelne Menschen zu achten, um seine Zielgruppe zu verstehen, bekommt wieder mehr Beachtung. In der Welt von Big Data versuchen sich einige durch ihren ganz eigenen Ansatz abzugrenzen: Small Data.

Selbst mit einer unbegrenzten Menge an Daten bleibt also die Auswertung dieser Daten schwierig und in Ihr menschliches Ermessen gestellt. Mit Blick auf eine konkrete Unternehmens-Situation ist immer zu klären: Stelle ich die richtigen Fragen? Wie wurden die Daten erhoben? Sind sie neutral? Sind sie aussagekräftig? Gesunder Menschenverstand und individuelle Urteilsfähigkeit und Erfahrung sind im Umgang mit Daten unerlässlich.

Ein erster Schritt, auch in der Datenflut die richtigen Entscheidungen zu treffen, kann für Sie mit Research von NIMIRUM beginnen. Wir wissen, wie man aus einer Vielzahl von Informationen und Meinungen die richtigen herausfiltert und unsere unabhängigen Experten geben, anders als Algorithmen, entsprechend Ihrer individuellen Fragen und Anforderungen Antworten und Handlungsoptionen. 

Autor: Björn Berger / Redaktion NIMIRUM 

Wir empfehlen Ihnen folgende Zitierweise:
Berger, Björn: „Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation”, unter: https://www.nimirum.info/insights/b_146-korrelation-und-kausalitaet-in-zeiten-von-big-data/ (abgerufen am 25/06/2020).

Ein Thema, mit dem Sie beruflich zu tun haben?


Anja Mutschler

Anja Mutschler

Inhaberin

Dann helfen wir Ihnen, auf dem Laufenden zu bleiben. Nimirum bespielt fundiert eine Bandbreite an Themen, die für Menschen und Märkte derzeit interessant sind. Abonnieren Sie unseren Infoletter, der Ihnen regelmäßig alle Insights zusammenfasst. Oder buchen Sie eine Research von Nimirum, die Ihnen komplett und maßgeschneidert dieses Thema aufbereitet. Schauen Sie hier, was wir im Angebot haben oder kontaktieren Sie Anja Mutschler direkt als Ihre Ansprechpartnerin für Research-Projekte.

Kontakt mit Anja Mutschler

Dieser Artikel ist ihnen etwas wert:

Diesen Artikel bewerten:

Weitere verwandte Artikel lesen


Corona-Pandemie in Lateinamerika: Gesundheitskrise durch soziale Ungleichheiten #250 – 25/06/2020

„In Lateinamerika verschärfen sich soziale Ungleichheiten und die Gesundheitskrise gegenseitig, auch weil Anti-Corona-Maßnahmen die soziale Realität der Bevölkerung nicht anerkennen. Die Krise legt die bestehenden Ungleichheiten offen und macht die Notwendigkeit struktureller Reformen deutlich.“ Eines unserer #expertstatements von Dr. Mona Nikolić.

Kunst findet statt, egal unter welchen Umständen #249 – 16/06/2020

Warum die Kunst vor Corona nichts zu befürchten hat, außer sich selbst. Eines unserer #expertstatements von Moritz Eggert: „Schon vor Corona wurde tatsächlich in Deutschland sehr, sehr viel Geld für Kultur ausgegeben, und es zeichnet sich nicht ab, dass hier ein grundsätzlicher Paradigmenwechsel ins Haus steht. Keine Seuche der Weltgeschichte hat je dauerhaft die Kultur zerstört – ganz im Gegenteil, nach der Überwindung einer Seuche gab es normalerweise sogar eher Blütezeiten der kreativen Produktivität. Kunst findet statt, egal unter welchen Umständen.“

Content Marketing aus dem Remote: Ansätze für die agile Content-Produktion im Homeoffice #248 – 11/06/2020

„Für den Newsroom bieten die Auswirkungen der COVID19-Pandemie wesentliche Chancen der Weiterentwicklung: Konsequent zu Ende gedacht, wird aus dem physischen Ort eine agile Content-Planungs- und Produktionszentrale für Marketing und Corporate Communications für die es unerheblich ist, ob das Team im Unternehmen oder im Remote arbeitet. Dies gelingt jedoch nur, wenn das gesamte Team gemeinsam an der Transformation arbeitet und diese mit einem hohen Maß an Eigenverantwortung trägt. Die eingesetzten Tools unterstützen dabei, den Wirkungsgrad der Arbeit im Remote deutlich zu erhöhen.“ - Eines unserer #expertstatements von Philipp Dieterich.

Covid-19 und Museen – „In Umrissen lässt sich das digitale Museum bereits ausmachen“ #247 – 9/06/2020

„Der Begriff der ‚Digitalen Strategie‘ bleibt aber eine merkwürdige contradictio in adiecto. Strategien zielen auf Langfristigkeit, Planung und die Sicherheit strukturierter Abläufe, während das Digitale durch kurze Aufmerksamkeitszyklen, rapide technische Entwicklungen und ständiges Experimentieren mit neuen Möglichkeiten bestimmt ist. Um diesen Widerspruch aufzulösen, sollte der Fokus tatsächlich weniger auf dem Digitalen, sondern vor allem auf den Mitarbeiter*innen von Museen liegen. Sinnvolle Strategien sollten vor allem auf den breiten Aufbau von Digital Literacy und agiler Methodenkompetenz zielen.“ - Eines unserer #expertstatements von Dr. Johannes C. Bernhardt.

Die Zeit der Entspannung: (Digital) Health und Wellness als Themen der Zukunft #246 – 4/06/2020

„Was zuerst eine Zwangsentspannung war, wird zukünftig einen deutlichen Einfluss auf unser Leben haben – und die Themen Gesundheit und Wellness erlangen als Folge dieser Gesundheitskrise eine größere Bedeutung für die Menschen.“ - Eines unserer #expertstatements von Dr. Astrid Nelke.

The pandemic is transforming the market for art. Existing power structures are eroding – to the benefit of artists and buyers #245 – 2/06/2020

“Corona facilitates what was long overdue: It enforces the transformation of the art world and helps to democratise the art market by opening it up to the public. Digital access to art enforces transparent prices and enables everybody to buy great art at a fair price. That makes the art market accessible for everyone.“ - One of our #expertstatements from Dr. Ruth Polleit-Riechert.

Die Diversität des Erlebens. Chronisch krank in Zeiten der Krise #244 – 27/05/2020

„In dieser Krise herrscht eine große Diversität des Erlebens: Die einen langweilen sich, die anderen kämpfen ums Überleben. Erstere möchten nicht selten glauben, gefeit zu sein, und fordern, Einschränkungen nur noch für Risikogruppen gelten zu lassen. Diskriminierung also. Ausgrenzung. Wollte Deutschland nicht ein Sozialstaat sein, um soziale Gerechtigkeit bemüht?“ - Eines unserer #expertstatements von Ilka Baral.

#Expertstatements – eine Zwischenbilanz nach 25 Beiträgen #243 – 12/05/2020

„Funktioniert Infotainment in einer Welt, in der #FakeNews objektive Debatten an den Rand drängen und wissenschaftliche Erkenntnisse unter Druck geraten? Unsere #Expertstatements zeigen mir: Ja. Erfahrungswissen als pointierte Meinung ist ein gutes Format, um Orientierung zu bieten. Allerdings müssen knowledge worker die Gesetze von Social Media verstehen lernen – denn die digitale Informationsgesellschaft lebt maßgeblich vom Mitmachen“ – Eine Zwischenbilanz zu unseren #expertstatements von Anja Mutschler.

Wie verändert Corona unsere Mobilitätswelt? Eine Branche zwischen Angst, Vermutungen und Hoffnung #242 – 7/05/2020

„Was macht die Covid-19-Pandemie mit der Mobilitätsbranche, wenn wir kaum noch mobil sein können, wollen und sollen? Wie verändert das langfristig die Einstellung und das Verhalten der Verbraucher zu einzelnen Verkehrsmitteln? Dazu gibt es weder erprobte Theorien noch vorgefertigte Antworten. Doch es gibt uns die Chance, gemeinsam neue Lösungen zu finden!“ - Eines unserer #expertstatements von Marinela Potor.

Unsichtbares und der visuelle Kontext der Welt – wie Corona die Fotografie verändert #241 – 5/05/2020

„Die Coronakrise verändert nicht nur Bedingungen für die ganze Fotobranche, sondern die visuellen Erfahrungen jedes einzelnen. Alltägliches erregt Aufmerksamkeit und Konstrukte von Viren kommen ins Blickfeld. Unsichtbares verändert unseren visuellen Kontext der Welt. Das wird die Fotografie auf lange Jahre prägen!“ - Eines unserer #expertstatements von Fabian Haas.