Interview Big Data: Chance oder Risiko?
Big Data könnte das Gesundheitswesen revolutionieren. Aber die Sammelei von Massendaten birgt auch Gefahren.
Big Data, der Begriff weckt Begehrlichkeiten. Geheimdienste wittern in den Massendaten Lösungen für Sicherheitsprobleme, Marketingexperten freuen sich über reichhaltige Informationen über Konsumenten, Forscher erlangen Zugriff auf Datensätze, wie sie sie in dieser Größe niemals selbst erheben könnten.
Wir alle tragen beiläufig zu dem unaufhörlich wachsenden Datenberg bei: wenn wir googlen, wenn wir Daten über uns in Gesundheits-Apps preisgeben, aber auch einfach dadurch, dass wir bei den Behörden registriert sind. Was Big Data zum Guten oder Schlechten verändern kann, darüber haben wir mit Prof. Dr. Thomas Bauer gesprochen.
Herr Bauer, Sie haben bereits viel mit Big Data gearbeitet. Für welche Fragen nutzen Sie die Analyse großer Datenmengen?
Arbeitsmarktökonomen arbeiten seit langer Zeit mit Sozialversicherungsdaten, insbesondere von der Bundesagentur für Arbeit. Jeder, der irgendwann mal in Deutschland sozialversicherungspflichtig beschäftigt war, ist in diesem Datensatz enthalten.
Anhand dieser Daten wurden zum Beispiel Arbeitsbeschaffungsmaßnahmen wissenschaftlich evaluiert. Dabei zeigte sich, dass diese Maßnahmen nicht helfen, Arbeitslose zurück in den Arbeitsmarkt zu bringen. Im Gegenteil, sie verschlechtern ihre Chancen. Man kann allerdings streiten, ob es sich dabei wirklich um Big Data handelt.
Warum?
Bei Big Data sprechen wir häufig von unstrukturierten und großen Datenmengen. Dazu würden Sozialversicherungsdaten nicht zählen, weil sie strukturiert sind. Unstrukturierte Daten fallen zum Beispiel immer dann an, wenn jemand bei Google nach einem Produkt sucht. Oder wenn im Krankenhaus sehr viele unterschiedliche Informationen in Form eines Arztbriefes aufgenommen werden.
Haben Sie mit solchen unstrukturierten Daten auch schon gearbeitet?
Ich habe mit teilweise unstrukturierten Daten von Immobilienscout gearbeitet, dem größten deutschen Internetprovider für Inserate im Bereich Hausverkauf, Wohnungs- und Hausvermietung.
Eine Ursache der letzten Finanzmarktkrise lag darin, dass eine Immobilienpreisblase in einer kleinen Region in den USA geplatzt ist und sich die damit einhergehenden Probleme dann wie eine Infektion über die ganze Welt ausgebreitet haben. Wir haben uns gefragt, ob wir eine derartige Immobilienpreisblase auf kleinem Raum in Deutschland hätten sehen können.
Die Antwort war: nein. Es gab die Daten dafür nicht. Es gab keinen Indikator für Immobilienpreise auf kleinem Raum, der in kurzen zeitlichen Abständen erhoben wurde. Daraufhin haben wir in Kooperation mit Immobilienscout einen Immobilienpreisindex entwickelt, der diese Lücke füllen kann.
Es scheint beinahe, als könnten wir jede beliebige Forschungsfrage beantworten, wenn wir nur genug Daten sammeln.
Nein, so ist es sicherlich nicht. Hier wird das Potenzial von Big Data häufig völlig überschätzt. Es kommt immer auf die konkrete Fragestellung an.
Aus statistischer Sicht entstehen häufig Probleme mit Big Data, weil der datengenerierende Prozess und die zugrunde liegende Bevölkerung häufig vollkommen unbekannt sind. Ohne diese Informationen wissen wir jedoch nicht, wie zuverlässig unsere Aussagen basierend auf diesen Daten sind.
Haben Sie ein Beispiel dafür?
Im August kursierte ein Ranking in den Medien, das suggerierte, dass überdurchschnittlich viele Fußballfans einen Hochschulabschluss haben. Die Stichprobe war aber so zusammengesetzt, dass sie bereits überdurchschnittlich viele Akademiker enthielt.
Das ist ein völliger Fehlschluss.
Es gibt noch ein zweites Problem bei der Analyse von Big Data. Aus der Big-Data-Community hört man häufig, dass man sich wegen der Masse an Daten keine Gedanken mehr über Kausalitäten machen müsste. Das ist ein völliger Fehlschluss. Es ist egal, ob Tausende oder Millionen Beobachtungen in eine Auswertung einfließen. Das erhöht zwar die Präzision der Schätzung, hilft aber per se nicht dabei, den kausalen Zusammenhang einer gefundenen Korrelation zu entschlüsseln.
Man weiß nicht, was Ursache und was Folge ist.
Genau. Angenommen, die Zahlen aus dem Fußballbeispiel wären repräsentativ gewesen. Dann wüsste man immer noch nicht den Grund für den Zusammenhang. Muss man einen Hochschulabschluss haben, um Fußball zu verstehen? Oder erhöht Fußball etwa die Intelligenz? Selbst wenn wir die gesamte deutsche Bevölkerung befragen würden, könnten wir hierzu gar nichts sagen. Um Licht ins Dunkel zu bringen, würde man tiefergehende Strategien und Methoden benötigen.
Es hat sich ein statistischer Analphabetismus verbreitet, der in Deutschland sogar hip ist.
Daten zu sammeln ist die eine Sache, Daten korrekt auszuwerten eine andere. Sie küren mit Kollegen regelmäßig die Unstatistik des Monats.
Damit machen wir auf Probleme bei der Auswertung von Daten und bei der Interpretation von Statistiken aufmerksam. Das ist uns ein Herzensanliegen. Es hat sich ein statistischer Analphabetismus verbreitet, der in Deutschland sogar hip ist. Oft sind gar nicht die Statistiken an sich falsch, sondern sie sind falsch interpretiert oder die Ergebnisse falsch dargestellt. Wir wollen dafür sensibilisieren, Statistiken richtig zu deuten.
Wie finden Sie denn die Themen für Ihre Unstatistiken?
Durch Zeitung lesen. Neben dem oben erwähnten Fußballthema war für den Monat August ein weiterer heißer Kandidat eine Unstatistik zur Schlagzeile „Leser leben länger“. Wir haben inzwischen auch eine große Fangemeinde, die uns regelmäßig mit Ideen versorgt.
Ich bin überzeugt, dass Big Data den Gesundheitssektor massiv verändern wird.
Big Data wird so schnell nicht mehr aus unserem Alltag verschwinden. Wird er sich dadurch verändern?
Ich bin überzeugt, dass Big Data insbesondere den Gesundheitssektor massiv verändern wird. Für die Medizin kann Big Data große Fortschritte bedeuten. Viele Menschen haben inzwischen Gesundheits-Apps, die alle möglichen Daten erfassen. Sie könnten in eine Datenbank einfließen, auf die ein behandelnder Arzt im Notfall zugreifen könnte. Dann wüsste er, wann und was man zuletzt gegessen hat, wie hoch der Puls war und der Blutdruck. Alle Diagnosen oder auch Röntgenbilder könnten an einer Stelle gespeichert werden und allen Ärzten im Bedarfsfall zur Verfügung stehen.
Es könnte so weit gehen, dass ein Patient bei seiner Einlieferung ins Krankenhaus vom aufnehmenden Arzt nach einer vorgegebenen Routine zu seinen Beschwerden befragt wird, die in ein Tablet aufgenommen werden. Die dahinterliegende Software greift auf alle bislang gesammelten medizinischen Erkenntnisse zurück. So bekommt der Arzt einen Vorschlag für eine Diagnose und kann den Patienten entsprechend behandeln. Technisch ist das schon heute möglich.
Das klingt erst einmal positiv. Wo ist der Haken?
Der Datenschutz. In Deutschland gibt es dafür zumindest im internationalen Vergleich ein großes Bewusstsein, wobei ich manche Verhaltensweisen vor diesem Hintergrund nicht verstehe. Einerseits wollen einige Leute nicht an einer Umfrage des Statistischen Bundesamtes teilnehmen, weil sie Datenschutzbedenken haben. Aber sie geben freiwillig ihre Gesundheitsdaten in einer App preis. Wer weiß schon, wer hinter welcher App steckt? Und was die Betreiber mit diesen Daten machen?
Vielleicht haben Menschen das Gefühl, dass sie in den Abertausenden von Datensätzen als Einzelperson untergehen.
Das ist leider nicht der Fall. Es gibt georeferenzierte Daten, die in einem Raster von 500 mal 500 Metern umfangreiche Informationen preisgeben: wie viele Luxusautos dort angemeldet sind, die Arbeitslosenquote, wie viele Haushalte dort schon einmal Insolvenz angemeldet haben, den Ausländeranteil.
Der Datenschutz wird häufiger problematisch mit dieser Art von Daten.
In einem Wohnblockviertel in der Stadt wohnen auf 500 mal 500 Metern viele Personen. Nicht aber auf dem Land oder in Einfamilienhaussiedlungen. Darüber hinaus kann man einen Datensatz leicht mit weiteren Informationen aus einer anderen Quelle anreichern. Aus derart zusammengeführten Datensätzen kann man oft mit einer hohen Wahrscheinlichkeit denjenigen identifizieren, der in dem Raster Privatinsolvenz angemeldet hat. Der Datenschutz wird häufiger problematisch mit dieser Art von Daten.
In der Summe: Sehen Sie Big Data eher als Chance oder Risiko?
Ich sehe es als große Chance, wenn wir einige wichtige Dinge hinbekommen. In der Wissenschaft müssen wir uns bei der Verwendung von Big Data verstärkt einigen spezifischen Problemen widmen: Was ist der datengenerierende Prozess? Was ist die zugrunde liegende Bevölkerung? Außerdem müssen wir uns vermehrt über Datenschutz unterhalten. Und schließlich müssen wir den statistischen Analphabetismus bekämpfen.