Datenjournalismus braucht Kontext

Die neue Datenjournalismus-Website „The Markup“ ist nach langem Trommelwirbel und einigen Querelen endlich online. Die mit dem Geld von Craig Newmark finanzierte Website verspricht journalistische Hilfestellung dabei, Wahrheit von Meinung, Anekdote, Spin und richtiggehende Propaganda zu unterscheiden. Es ist Tag 2 und ich muss sagen: Nein, da stimmt etwas ganz gehörig nicht.

Heute bringt das Journalismus-Startup eine Geschichte, wie unterschiedlich Google die Kampagnen-E-Mails der unterschiedlichen Präsidentschaftsbewerber behandelt. Das ist eine legitime Fragestellung und eine systematische Untersuchung zum Thema ist sicher einen Blick wert. Auf Twitter zeigt The Markup, wie sexy die Statistik doch ist. Der Artikel wird mit der maximal tendenziösen Frage eingeleitet: „Google the Giant — Swinging the vote?“ – eine Verschwörungstheorie in Frageform.

But there were huge differences. Gmail sent 63 percent of  @PeteButtigieg 's campaign email to the primary inbox.   But it sent none of  @ewarren 's campaign email there. And only 2 percent of  @BernieSanders 's campaign email landed in the primary inbox.

Natürlich verbreitet sich die Story gleich enorm schnell. Google bevorzugt Buttigieg! Und Sanders wird fast komplett ausgefiltert!

Das Problem ist: Die Methodik der Untersuchung ist so fehlerbehaftet, dass jeder, der daraus eine Erkenntnis ziehen will, grob fehlgeleitet wird.

Für den Laien mag die Idee nachvollziehbar klingen: Man sammelt vier Monate lang alle Emails aller Kandidaten und gibt Google keinerlei Anlass E-Mails auszusortieren. Damit keine Daten das Experiment verseuchen könnten, loggt man sich per Tor Browser ein. Also müsste Google doch eigentlich alle eingehenden E-Mails gleich behandeln. Richtig?

Nein, das ist falsch. Denn das Grundkonzept von E-Mail-Filtern wie bei Gmail ist ein anderes. Ein Funktionsprinzip: Wenn 50000 User eine bestimmte E-Mail als Spam markieren, dann wird die Email beim Nutzer mit der Nummer 50001 die E-Mail automatisch in den Spam-Ordner vorsortiert. Man kann dies wie ich als Grund nehmen, Google Mail nicht zu benutzen. Es ist jedoch journalistisch nicht in Ordnung so zu tun, als habe man dieses einfache Prinzip nicht verstanden.

Zudem ignoriert der Text eine grundlegende Wahrheit. Tatsächlich ist politische Werbung per E-Mail spätestens seit dem Obama-Wahlkampf zu einem schieren Ärgernis für viele Nutzer geworden. Seien wir realistisch: Wenn Amy Klobuchar in nur vier Monaten 312 E-Mails verschickt — wer soll all das noch lesen? Und hier kommt dann der Google-Filter ins Spiel. Er sortiert nicht nur Spam aus, sondern sortiert auch „Promotions“ in einer Extra-Box um, die nicht so prominent angezeigt wird. Wenn nun Kampagnen-Emails in der Promotions-Sparte landen, kann man sagen: Der Filter funktioniert. Die befragten Vertreter der Sanders-Kampagne sehen deshalb auch kein Faulspiel von Google. So funktioniert E-Mail-Marketing nunmal.

Natürlich hat Google hier ein kritikwürdiges Eigeninteresse. Wenn nicht jeder gleichberechtigte Sichtbarkeit im Google-Postfach bekommt, dann kann Google Werbeanzeigen verkaufen. Wahr ist aber auch: Wenn jeder gleichberechtigt Sichtbarkeit im Google-Postfach bekommt, dann wird das Postfach für viele Nutzer nicht mehr nutzbar. Es werden viele Witze über Milennials gemacht, die ihre Mailbox nicht mehr abhören und damit wichtige Nachrichten verpassen. Das ist sicher eine Wahrheit. Aber eine andere Wahrheit ist: Im vergangenen Jahr wurden 58,5 Milliarden Robocalls in den USA getätigt. Wer da nicht mehr ans Telefon geht, hat sich schlicht an eine Realität angepasst.

Zurück zu Google: Es ist nicht verkehrt, die Google-Algorithmen unter die Lupe zu nehmen. Doch das wurde hier ja explizit nicht getan. Wenn Pete Buttigieg nicht in den Promotion-Filter abgeschoben wird, hängt das sicher auch damit zusammen, dass er weniger E-Mails als fast alle anderen Kampagnen versandt hat. Wenn die Post von Bernie Sanders komplett in dem Promotions-Ordner landet, hat es damit zu tun, dass er schon seit über fünf Jahren Wahlkampf macht und Google-Nutzer sehr viel Zeit hatten, seine Kampagnen-Emails als Promotion einzustufen. Ohne diese Kontexte sind die Daten ziemlich wertlos. Die Präsidentschafts-Kampagnen sind schließlich nicht vor vier Monaten vom Himmel gefallen.

Wenn man wirklich über den Einfluss von Google schreiben will, müsste man schon ein paar Gegentests einbauen: Zum Beispiel: Arbeiten Outlook, Yahoo und andere Webmail-Provider wirklich anders? Und: Warum sagt die Sanders-Kampagne, dass sie keinerlei Problem hat, wo doch alle E-Mails im Promotion-Tab landen? Man könnte sich auch ansehen: Nutzen politische Kampagnen das Angebot, einen ersten Platz in der Promotion-Inbox zu kaufen? Notwendig wäre es auch gewesen, mal in die E-Mails hineinzugucken, die im Spamfilter gelandet sind. Gab es dafür vielleicht offensichtliche Gründe, wie extensive Tracking-Techniken? Bei Kampagnen mit hohen Spam-Anteilen wäre auch zu fragen: Woher beziehen sie die E-Mail-Adressen der Empfänger? Nichts davon ist hier geschehen. Wenn man sich den Input nicht ansieht, kann man nicht entscheiden ob der Output eines Algorithmus korrekt oder inkorrekt ist.

Erst ganz zum Schluss des statistischen Addendums räumt The Markup dann schließlich ein, dass die Mühe, die sie sich gegeben haben, eigentlich zu nichts geführt hat:

We were unable to discern from the data we gathered why Gmail treated emails from different political entities differently.

Ich würde es sogar etwas härter formulieren: Die Untersuchung hat nicht mal ergeben, ob E-Mails der Kandidaten tatsächlich unterschiedlich behandelt werden. Das wird aber leider viele Fans von Kandidaten und Journalisten-Kollegen aber nicht davon abhalten, das absolute Gegenteil zu verbreiten.