Big Data und Datenjournalismus

Zwei kurze Bücher habe ich letzte Woche gelesen. Beide befassen sich auf ihre Weise mit den Herausforderungen, die mit dem gigantischen Volumen der heutigen Daten befassen. Das Problem, es wurde auf den Namen Big Data getauft, besteht zwar seit Beginn der Informationstechnologie. Heutzutage dringen Datenbanken in enorme Höhen vor.

Die beiden kurzen E-Books zum Thema sind eigentlich nur aggregierte und konzentrierte Inhalte zweier Blogs, doch boten sie mehr Übersicht und waren für einen kleinen Preis zu haben. Das erste stammt vom Team des O’Reilly Radar, es wirft einen Blicka auf heutige Datenvolumen und ihre Bewältigung. Mit einem Nebeneffekt dieser Informationsmasse sieht sich Simon Rogers vom Guardian Data Blog gegenüber, der zu dem Schluss kommte,dass der Journalismus von einer solchen Entwicklung profitieren können, wenn man Journalismus durch Datenjournalismus ergänzt.

Big Data was?

Ein paar Worte zu Big Data sind notwendig. Was genau darunter verstanden wird, ist von der jeweiligen Situation abhängig, doch Rogers macht es sehr einfach:

Some analysts have a very simple rule of thumb: „if it’s too big to go on one machine, then it’s big data,“ says one.

Für meine Zwecke reicht das schon. Big Data ist ein bewegliches Ziel, es kann nicht an einer absoluten Zahl festgemacht werden. Was vor Jahrzehnten noch ein Gigabyte war, können heute die Petabyte und in nicht allzu ferner Zukunft Zettabytes sein. Mit den technischen Grenzen wächst auch das Maß für Big Data1.

Wie damit umgehen? Big Data Now

Das Buch des O’Reilly Radar hat eine übersichtliche Sammlung dazu. Insgesamt ist der Aufbau sehr gelungen und gibt Laien wie mir einen ordentlichen Einblick, ohne ganz auf technische Details und Hintergründe zu verzichten. Doch wird es nicht zu einer Formelsammlung.

Nach einer kurzen Klärung des Begriffs steigen die Autorinnen und Autoren direkt ein. Eines der prägenden Probleme großer Datenbanken ist aus technischer Sicht die Verarbeitung dieser Daten. In heutigen Zeiten fallen solche Mengen an Informationen an, dass es schwer wird, diese schnell – möglichst in Echtzeit – zu verarbeiten. Daher werden erst einmal die bedeutendsten Tools zur Datenerhebung, -verarbeitung und der statistischen Analyse angesprochen (bspw. Hadoop und R), mit deren Hilfe das Volumen angegangen werden kann. Zwar liegt der Fokus auf industriellen und kommerziellen Anwendungsbereichen. Dort liegt die Zielgruppe des Buches, doch bleiben viele Tipps auch für Einzelanwender interessant.

Auch wenn ein optimistischer Einschlag die Artikel durchzieht, bleibt genügend Raum für kritische Bemerkungen. Denn mit einer enormen Datenmenge kommen vielerlei Sicherheitsbedenken auf. Die Autorinnen und Autoren übersehen nicht, dass sowohl die statistischen Methoden klug ausgewählt sein müssen, aber vor allem auch der Schutz der Daten gewährleistet sein muss. Aus dem Fundus der heutigen Datenbanken lassen sich selbst bei anonymisierten Informationen durch statistische Referenzierung wieder einzelne Personen destillieren. Dieses Risikio wird ausführlich beschrieben und einige nützliche Hinweise zum Schutz der personenbezogenen Daten dargelegt.

Ein neuer Journalismus?

Simon Rogers‘ Facts Are Sacred nimmt die Herausforderung durch die steigende Zahl öffentlich zugänglicher Datenbanken als Journalist an. Nun könnte der Einwand gemacht werden, Journalisten seien doch seit jeher genau damit betraut. Doch Rogers sieht eine Verschiebung in den journalistischen Aufgaben entstehen: War es früher journalistische Aufgabe, die recherchierten Information durch Fakten und deren Aufbereitung zu belegen, so ist es heute vermehrt der Fall, dass Journalisten in Datenbergen erst die Nachrichten und Stories finden. Rogers evangelisiert für den Datenjournalismus, der in seinen Augen zunehmen müsse, indem Journalisten für die Erhebung von Daten sensibilisiert und auch dazu ausgebildet würden.

Insgesamt ist sein Ansatz dabei ein klein wenig zu niederschwellig. Während in Big Data Now auf kurzem Raum viele Facetten der heutigen Datenerhebung und -verarbeitung angesprochen werden, versteift sich Rogers auf vergleichsweise simple Methoden. An mancher Stelle klingt es – auf das Wesentliche konzentriert – danach, dass er zwei Änderungen fordert: Zum einen die Öffnung von Staats- und Wirtschaftsdatenbanken in maschinenlesbaren Formaten und zum anderen von seinen Kolleginnen und Kollegen eine Auffrischung ihrer Excel-Kenntnisse, um solche Daten zu verarbeiten.

Dennoch bleiben seine Beispiele vielerorts eindrucksvoll. So beschreibt er beispielsweise, wie es dem Guardian möglich war, gerade eben durch die reine Auswertung von CSV-Dateien in Excel, eine tiefergehende Analyse der Krawalle in England zu betreiben – während diese im Gange waren.

1 Ich will die Kritik hieran gar nicht unter den Tisch fallenlassen. Danah Boyd übernimmt diese Aufgabe in Privacy and Publicity in the Context of Big Data aber besser als ich das könnte.

Literatur:

Bildquelle: Idaho National Laboratory CC-BY 2.0

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.