Menü
Kontakt

Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation
#146 3/01/2017 Geschätzte Lesezeit: 7 Minuten.

„Correlation does not imply causation!“ wird bei der Analyse von Daten immer wieder gewarnt. Wir zeigen, warum es doch immer wieder passiert und warum einige Stimmen in Zeiten von Big Data behaupten, dass Korrelation angeblich ausreichen soll. Vor allem zeigen wir, wie man wirklich richtig mit Daten umgeht.

Wer sich irgendwann in seinem Leben länger mit Statistiken und dem Auswerten von Daten beschäftigt hat, kennt den Satz: „Korrelation bedeutet nicht Kausalität.“ Im Englischen ist die Formulierung „Correlation does not imply causation“ fest verankert, der Fehlschluss wird meist lateinisch formuliert: „Cum hoc ergo propter hoc“ (lat.: „Wenn zugleich, dann deswegen“).

Daten-Analysten sind sich also sicher bewusst, dass zwei Ereignisse nicht zwingend Ursache und Wirkung sind, nur weil sie häufig zusammen auftreten. Denn genau das ist der Unterschied zwischen Kausalität und Korrelation: Wenn A aus B folgt, spricht man von Kausalität. Wenn A und B nur häufig zusammen beobachtet werden, liegt eine Korrelation vor.

Oft wird direkt nach dieser Erklärung die ganze Sache an einem Beispiel ad absurdum geführt. Etwa: der Zusammenhang von Eiscreme-Verkäufen und Todesfällen durch Ertrinken. Hier wird schnell klar, wie unsinnig es ist, die Eisverkäufe als Ursache für das Ertrinken zu vermuten, auch wenn die mathematische Ähnlichkeit der Datensätze eine solche Schlussfolgerung nahelegen würde.

Es gibt jede Menge weitere Beispiele, und viele sind ziemlich unterhaltsam, etwa die Scheidungsrate in Maine, die immerhin eine Korrelation von 99 Prozent zum Margarinekonsum in den USA aufweist. Tyler Vigen, der an der Harvard University Jura studiert, hat solche Beispiele zu einem Buch zusammengefasst.

Schokolade führt zu Nobelpreisen

Was wir bisher gesagt haben, könnte sich in jedem Statistik-Seminar abgespielt haben: Das Phänomen wird erklärt und benannt, im Anschluss spricht man über den Eiscreme-Fall, man lacht und ist sich sicher, dass einem das nie unterlaufen würde.

Aber es passiert. Es passiert vor allem Menschen, die es auf jeden Fall besser wissen müssten. 2012 vertrat eine im „New England Journal of Medicine” publizierte Studie die These, dass der Genuss von Schokolade eine bevölkerungsweite Verbesserung der kognitiven Fähigkeiten bewirken kann. Die Begründung sollte eine Statistik liefern, die die Anzahl der Nobelpreisträger aus einem Land mit dem Schokoladenkonsum im selben Land in Verbindung brachte.

Die Forscher sprachen sogar selbst die Problematik an: „The principal finding of this study is a surprisingly powerful correlation between chocolate intake per capita and the number of Nobel laureates in various countries. Of course, a correlation between X and Y does not prove causation but indicates that either X influences Y, Y influences X, or X and Y are influenced by a common underlying mechanism. However, since chocolate consumption has been documented to improve cognitive function, it seems most likely that in a dose-dependent way, chocolate intake provides the abundant fertile ground needed for the sprouting of Nobel laureates.”

Diese Schlussfolgerung birgt einige Probleme, nicht nur die Sache mit der Korrelation und Kausalität. Die Autoren haben auch einen sogenannten Ökologischen Fehlschluss vorgelegt: Nur weil man zwei Datensätze hat, bei denen einer die Nobelpreisträger und ein anderer den Schokoladenkonsum abbildet, kann man von diesen kollektiven Datensätzen noch lange keine Rückschlüsse auf einzelne Individuen ziehen. Trotz der mathematischen Ähnlichkeit beider Werte ist es beispielsweise durchaus möglich, dass nie ein Nobelpreisträger Schokolade gegessen hat – wir können den Schokoladenkonsum von Nobelpreisträgern aus diesen Datensätzen gar nicht ablesen. Das Gewinnen eines Nobelpreises durch Einzelpersonen ist außerdem kein geeignetes Anzeichen für die kognitiven Fähigkeiten der gesamten Bevölkerung eines Landes. Die biologischen Metaphern („fertile ground“, „sprouting“) sollten hier schon die Alarmglocken schrillen lassen.

Warum erliegen sogar Menschen, die sich wissenschaftlich mit Daten beschäftigen (und sogar selbst die Problematik ansprechen!), immer wieder der Versuchung, einen kausalen Zusammenhang zu vermuten, wo keiner ist?


Mehr Wissen?

Mit Research von NIMIRUM können auch Sie individuelle Insights und Handlungsempfehlungen für Ihre Projekte nutzen.
Ihre Fragen. Unsere Antworten.


Die wissenschaftliche Suche nach dem kausalen Zusammenhang

Das liegt erst einmal daran, dass das Ableiten von Kausalitäten aus beobachteten Tatsachen eine der schwierigsten wissenschaftlichen Aufgaben ist und von vielen als das Grundproblem von Wissenschaft überhaupt gesehen wird. Der finnische Informatiker Patrik Hoyer versuchte sich mit seinen additive noise models trotzdem daran. Seine Ergebnisse wurden auch von Joris Mooij, Juniorprofessor für maschinelles Lernen an der Universität von Amsterdam, aufgegriffen und stellen einen Versuch dar, eine allgemeingültige und vor allem saubere Methode zur Daten-Auswertung zu entwickeln.

Die Idee ist vergleichsweise simpel: Sollte tatsächlich ein Ereignis ein anderes beeinflussen, findet man das, was Hoyer „additive noise“ nennt, also zusätzliches Rauschen oder die Nebeneffekte dieses Ereignisses, im beeinflussten Ereignis wieder.

Fahre ich also jeden Tag mit dem Auto zur Arbeit, schlagen sich zufällige Nebenereignisse meiner Fahrt (eine rote Ampel, Blitzeis oder Stau) in der Dauer meiner Fahrt nieder. Aus dem Beobachten dieser „additive noises“ kann man nun per Gegenprobe schließen, dass der Verkehr meine Fahrzeit beeinflusst und nicht etwa meine Fahrzeit den gesamten Verkehr.

Diese Vorgehensweise ist leider nur bei ähnlich simplen Zusammenhängen anwendbar. Sie ist auch auch nicht zu 100 Prozent verlässlich. Aber sie zeigt immerhin eines: Die Schwierigkeiten beim Ermitteln von kausalen Zusammenhängen sind enorm und sollten am besten Profis überlassen werden.

Big Data und die steigende Verfügbarkeit von Daten

Und genau hier kommt das zweite große Problem ins Spiel. Daten und statistische Erhebungen sind so einfach zu bekommen wie noch nie. Unter dem Begriff Big Data möchte jeder an diesen Informationen teilhaben und sie auswerten. Und zwar möglichst viele Daten auf einmal, und möglichst schnell, am besten automatisiert.

Gerade Entscheidungen, die Produkte und Dienstleistungen betreffen, stehen verstärkt unter Datendruck, und gerade hier wird Korrelation und Kausalität verwechselt. Oder ganz weit auseinander gehalten. Der zum Thema Big Data sehr vielsagende Satz von Chris Anderson, „Petabytes allow us to say: ‚Correlation is enough‘“ beschreibt eine neue Einstellung zu Statistiken: Wenn die Menge der Daten ausreichend groß ist, reicht auch schon eine Korrelation als Grundlage für Entscheidungen.

Andersons Aussage ist sicher bewusst provokativ formuliert. Dennoch stimmt es, dass in einigen Fällen eine beobachtete Korrelation von Ereignissen als Entscheidungsgrundlage ausreichen kann. Ob und wann allerdings auf der Basis von Korrelationen eine Schlussfolgerung gezogen werden kann, hängt allerdings, wie eigentlich alles im Bereich Data-Analyse, davon ab, was man eigentlich wissen möchte und ob man überhaupt die richtigen Informationen hat.

Es kommt häufig genug vor, dass wir uns blenden lassen von einer überwältigenden Menge an Daten und Statistiken, ohne zu hinterfragen, ob wir nicht doch die falschen Daten zu einem bestimmten Thema ausgewählt haben. Der Ökonom David Reily greift beispielsweise lieber zu kontrollierten Experimenten, statt sich auf die Auswertung von Daten zu verlassen. So in einer Arbeit zur Effektivität von Werbung auf Yahoo. Er hatte die Möglichkeit, die Kunden eines Händlers mit Yahoo-Nutzern abzugleichen und aus allen passenden Testpersonen, die bei beiden registriert waren, eine Versuchsgruppe und eine Kontrollgruppe zu bilden. Der Versuchsgruppe wurde regelmäßig Werbung des Händlers gezeigt, der Kontrollgruppe nicht, auch wenn die Testpersonen die Bedingungen für die Anzeige erfüllten. Reily hat sich also ganz bewusst dazu entschieden, mit seinem Experiment nur die Zielgruppe des Unternehmens zu beobachten und nicht jede einzelne Suchanfrage auf Yahoo.

Ohne dieses Experiment, so Reily, wäre er zu den falschen Schlüssen gekommen. Die reine Analyse bestehender Daten hätte nicht berücksichtigt, dass sich Menschen, die eine bestimmte Werbung sehen, sehr stark von Menschen unterscheiden, die diese Werbung nie sehen werden, einfach indem sie bestimmte Begriffe nicht suchen. Wer auf der Suche nach einem neuen Auto ist, wird sich wenig für meine Anzeige zu aktueller Sportbekleidung interessieren. Aber wenn aus diesem Grund die Anzeige schnell weggeklickt wird, kommt man schnell zu falschen Schlüssen, wenn man die Effektivität der eigenen Anzeige bewerten möchte. Diese Daten würden mir zwar viel über die Positionierung und die Verbreitung meiner Anzeige sagen, nicht aber darüber, wie effektiv sie formuliert ist und wie viele Menschen aus meiner tatsächlichen Zielgruppe durch genau diese Anzeige zum Kauf angeregt werden.

Auch der Versuch, bei der Auswertung von Daten durch kleinere Stichproben und andere Methoden wieder mehr auf einzelne Menschen zu achten, um seine Zielgruppe zu verstehen, bekommt wieder mehr Beachtung. In der Welt von Big Data versuchen sich einige durch ihren ganz eigenen Ansatz abzugrenzen: Small Data.

Selbst mit einer unbegrenzten Menge an Daten bleibt also die Auswertung dieser Daten schwierig und in Ihr menschliches Ermessen gestellt. Mit Blick auf eine konkrete Unternehmens-Situation ist immer zu klären: Stelle ich die richtigen Fragen? Wie wurden die Daten erhoben? Sind sie neutral? Sind sie aussagekräftig? Gesunder Menschenverstand und individuelle Urteilsfähigkeit und Erfahrung sind im Umgang mit Daten unerlässlich.

Ein erster Schritt, auch in der Datenflut die richtigen Entscheidungen zu treffen, kann für Sie mit Research von NIMIRUM beginnen. Wir wissen, wie man aus einer Vielzahl von Informationen und Meinungen die richtigen herausfiltert und unsere unabhängigen Experten geben, anders als Algorithmen, entsprechend Ihrer individuellen Fragen und Anforderungen Antworten und Handlungsoptionen. 

Autor: Björn Berger / Redaktion NIMIRUM 

Wir empfehlen Ihnen folgende Zitierweise:
Berger, Björn: „Wenn zugleich, dann deswegen? Falsch! Big Data und das Problem von Kausalität und Korrelation”, unter: https://www.nimirum.info/insights/b_146-korrelation-und-kausalitaet-in-zeiten-von-big-data/ (abgerufen am 7/12/2018).

Ein Thema, mit dem Sie beruflich zu tun haben?


Anja Mutschler

Anja Mutschler

Managing Partner

Dann helfen wir Ihnen, auf dem Laufenden zu bleiben. Nimirum bespielt fundiert eine Bandbreite an Themen, die für Menschen und Märkte derzeit interessant sind. Abonnieren Sie unseren Infoletter, der Ihnen regelmäßig alle Insights zusammenfasst. Oder buchen Sie eine Research von Nimirum, die Ihnen komplett und maßgeschneidert dieses Thema aufbereitet. Schauen Sie hier, was wir im Angebot haben oder kontaktieren Sie Anja Mutschler direkt als Ihre Ansprechpartnerin für Research-Projekte.

Kontakt mit Anja Mutschler

Dieser Artikel ist ihnen etwas wert:

Diesen Artikel bewerten:

Weitere verwandte Artikel lesen


Reporting for Change: Wie CSR-Berichte ein Unternehmen verändern #223 – 22/10/2018

In diesem Jahr sind Unternehmen erstmals dazu verpflichtet eine nicht-finanzielle Erklärung zu den sozialen und ökologischen Dimensionen ihrer Arbeit abzugeben – eine Neuerung die für viele betroffene Unternehmen nur als zusätzliche Arbeit gesehen wird. NIMIRUM-Expertin Kerstin Hermuth-Kleinschmidt zeigt, wie aus dem CSR-Bericht statt leidiger Verpflichtung ein direkter Mehrwert für das Unternehmen wird.

Wie geht es weiter mit Journalismus und Gesellschaft? #217 – 15/12/2017

Wer sich heute für den Journalismus entscheidet, hat klare Vorstellungen – aber auch Fragen: an Medienhäuser, an die Öffentlichkeit, an sich selbst. Die 12 Studierenden des internationalen Masterstudiengangs New Media Journalism (NMJ) haben sich zum Auftakt an der Leipzig School of Media in einer Übung journalistisch mit dem Thema Journalismus auseinandergesetzt. Einige Gedanken und Reflexionen von Studiengangsleiter Dr. Tobias D. Höhn.

Hypermobility! NIMIRUM auf der Hypermotion #216 – 11/12/2017

Alfred Fuhr war für NIMIRUM auf der neuen Messe Hypermotion in Frankfurt und hat mit Beteiligten und Gästen über den Begriff der Hypermotion als Oberbegriff zu Mobilität, Logistik, Digitalisierung und Dekarbonisierung gesprochen. Bildquelle: Messe Frankfurt Exhibition GmbH.

„Nachhaltige Vernetzung nötig“ – Demenznetzwerke.de im Gespräch #215 – 28/11/2017

Der Patient von heute informiert sich online: Eine neue Gattung Gesundheitsportale ist dabei entstanden, die nicht nur den Patienten, sondern immer häufiger auch andere Anspruchsgruppen informiert: Politik, Pharmaunternehmen, medizinische Start-Ups, Krankenkassen. NIMIRUM nimmt die neuen Spezialportale unter die Lupe, in Folge 2: Demenznetzwerke.de.

5 Fragen an ... Anja Mutschler und Christophe Fricker #213 – 26/10/2017

Die Frage, ob Wissen käuflich ist, ist fast eine philosophische. Unstrittig ist jedoch, dass ein Wissensvorsprung im Geschäftsleben heute unabdingbar ist. Im Interview berichten die Gründer und Geschäftsführer von NIMIRUM, Anja Mutschler und Dr. Christophe Fricker, über die Illusion der neuen Datenwelt und darüber, dass Expertise auch heißen kann, den menschlichen Faktor zu berücksichtigen.

Wie sieht die Zukunft der Mobilität aus? #208 – 29/09/2017

Wir haben alle Veröffentlichungen der letzten Wochen zum NIMIRUM Themenboost Mobility hier abschließend zusammengestellt – Fachbeiträge von Experten, unser Audioboost sowie kommentierte Links zum Thema.

Future of Mobility: Wie wir urbane Mobilität gestalten #210 – 27/09/2017

„Um zu erfahren, wie urbane Mobilität auch anders gedacht werden kann, lohnt sich ein Blick in Städte wie Amsterdam“. Unser Experte Michael Weber und Kommunikationsdesignerin Eva Jahnen zeigen mit Ihrer Infografik eine Vision für die Städte der Zukunft, in denen die Lebensqualität der Menschen wieder im Vordergrund stehen.

Mobilität in China – ein Vorbild? #209 – 27/09/2017

Genau wie Deutschland investiert China in die Entwicklung von alternativen Antriebssystemen. Doch ganz im Gegensatz zu Deutschland scheinen Elektroautos in der Volksrepublik auch in der alltäglichen Verwendung realistisch angelegt zu sein.

Future of Mobility: Kampf der Mobilitätskulturen? #207 – 26/09/2017

Studien zur Zukunft der Mobilität fokussieren oft eine gutverdiendende, urbane Zielgruppe. NIMIRUM-Experte Gunter Heinickel erklärt, warum eine Verbreiterung der Perspektive auf vielen Ebenen notwendig ist, um die Anforderungen von Mobilitätslösungen zu identifizieren.

Haben Autos künftig ein Bewusstsein? #206 – 14/09/2017

Verkehrssoziologe Alfred Fuhr weiß, dass Autos nicht nur ein Bewusstsein haben, sondern auch betrügerische Taten vollbringen können. Darüber schreibt er in „Haben Autos künftig ein Bewusstsein? Ein vorausschauender Rückblick auf die IAA 2017 aus der Perspektive der automobilen Gesellschaft.“