MEDIA – Die Zahlen sprechen für sich – Wie Massendaten die Wissenschaft revolutionieren

This article has recently been published in freiraum 1/2017. The text is a translation of the article “Scientist” from the column “Ideas in the Second Machine Age”.

Ein Wissenschaftler ist eine Person, die sich an einer systematischen Aktivität beteiligt, um Wissen zu erlangen, das die natürliche Welt beschreibt und vorhersagt. Im engeren Sinne ist ein Wissenschaftler jemand, der sich mit einer wissenschaftlichen Methode beschäftigt. In den maßgeblichen empirischen Wissenschaften basieren wissenschaftliche Methoden auf Modellierung und Testbarkeit.

Seit Jahrzehnten beruhte die moderne empirische Wissenschaft hierbei auf dem Prinzip der Falsifikation. Theorie, visualisiert im Kopf des Forschers, wurde durch Hypothesen formuliert. Entlang dieser Hypothesen konnten Modelle konstruiert werden, überprüfbare Modelle, die man in Experimenten entweder bestätigt oder abgelehnt sah. Bevor eine kausale Beziehung zwischen zwei Beobachtungen aufgestellt werden konnte, mussten Forscher zuerst die zugrundeliegenden theoretischen Mechanismen formulieren. Ohne theoretische Annahmen könnten Relationen ebenso auch durch den Zufall bedingt sein. Theoretische Modelle unterscheiden zwischen Korrelation und Kausalität.

In der Zeit gigantischer Datenmengen wird dieses Prinzip, der bisher altbewährte Ansatz der Hypothesenbildung, Modellierung und Falsifikation überflüssig. Dafür gibt es praktische und konzeptionelle Gründe. Praktisch gesehen, wenn Daten auf der Tera- oder Petabyte-Skala mit Hunderten von Millionen oder Milliarden von Beobachtungen untersucht werden, werfen aktuelle statistische Techniken das Handtuch. Lineare Regressionsmodelle sind die am häufigsten angewandte Technik in der Natur-und Sozialwissenschaften um statistische Schlussfolgerung zu etablieren. Während des Prozesses der Modellanpassung wird eine Beziehung zwischen Ursache und Wirkung, zwischen X und Y, für eine Gruppe von Beobachtungen hergestellt. Matrix-basierte Verfahren bestimmen den Grad zu welchem Y von X beeinflusst wird. Für 100 x 100 Beobachtungen, sind Berechnungen unkompliziert und effektiv. Für große Datenmatrizen in der Größenordnung von 100 Millionen x 100 Millionen Beobachtungen werden die gleichen Berechnungen zu „teuer” (in Bezug auf die Rechenleistung) und sinnlos, da Datenpaare dieser Stichprobengröße immer Korrelation in parametrischen statistischen Tests aufweisen. Darüber hinaus hat die Theorie-geführte Wissenschaft eine konzeptionelle Limitation.

“Alle Modelle sind falsch, aber einige sind nützlich”, so hat es Statistik Mastermind George Box einmal treffen zusammengefasst. Heute möchte man diese Aussage vielleicht erweitern; „Alle Modelle sind falsch und sie werden weniger und weniger nützlich“. Ein Modell ist eine vereinfachte Darstellung der Realität. Es entbehrt Aspekte der Komplexität, welche vernachlässig werden können um die Fragestellung zufriedenstellend zu beantworten. In der Vergangenheit, wenn Wissenschaftler etwas modellierten, sei es in der Quantenphysik oder in der Makroökonomie, haben sie die Natur pragmatisch idealisiert, um der Lösbarkeit willen. Heute aber könnte sich die Vereinfachungsabkürzung tatsächlich als Umweg herausstellen. Warum sollten wir die Natur mittels einer Vereinfachung untersuchen, wenn wir die Natur auch direkt beobachten könnten? Datenwissenschaft und maschinelles Lernen kritisieren zu Recht den bisherigen Model-Ansatz. In der Welt der Petabyte, könnte reine Korrelation genug sein um wissenschaftliche Aussagen zu treffen. Clustering-Algorithmen weisen uns signifikante Muster auf, die keine Theorie hätte ersinnen können.

 

(c) Shutterstock
(c) Shutterstock

Schon heute werden die Entdeckung neuer Mikroorganismen, die Vorhersage industrieller Entwaldung oder Erkenntnisse über Enzym-Genom-Interaktionen von Datenwissenschaftlern mit wenig oder gar keinem theoretischen Vorwissen – stellenweise “per Zufall” – erforscht. Der “theoriefreie” Paradigmenwechsel wird die Wissenschaft grundlegend verändern. Es überrascht umso mehr, dass dieser Umbruch nicht von Wissenschaftlern angestoßen wurde. Die Entwicklung der “agnostischen Statistik” ist ein Kind des Internets, geboren aus der Aspiration von Internet-Giganten, wie Google, die Welt der Werbung zu erobern. Ohne Wissen über die Kultur und Konventionen der Werbung, konnte sich Google erfolgreich durchsetzen, alleine durch bessere Daten und analytische Werkzeuge. Die Semantik der Kausalanalyse spielt keine Rolle, wenn Anzeigen mit Inhalten verknüpft werden oder umgekehrt. Internet-Konzerne, die täglich nicht nur die Auswertung, sondern auch die Produktion von Daten im Petabyte-Format vorantreiben, brauchen keine theoretischen Annahmen mehr, um maßgeschneiderte Werbung zu generieren.

Google war einer der ersten Akteure, der lernte sich in einer Welt ohne Theorie durch Klassifizierungs- und Clustering-Techniken zurecht zu finden. Vergessen war die Theorie des menschlichen Handelns, von der Ökonomie bis zur Linguistik. So wie Google, könnten Wissenschaftler irgendwann aufhören sich dafür zu interessieren, warum Menschen Dinge tun. Alleine zählt die Tatsache, dass sie etwas tun. Dass man ihre Handlungen verfolgen und ihr Verhalten mit ungeahnter Präzision vorhergesagt kann. Bald schon werden die Zahlen auch in der Wissenschaft für sich selbst sprechen.