Datenjournalismus braucht Kontext

Die neue Datenjournalismus-Website „The Markup“ ist nach langem Trommelwirbel und einigen Querelen endlich online. Die mit dem Geld von Craig Newmark finanzierte Website verspricht journalistische Hilfestellung dabei, Wahrheit von Meinung, Anekdote, Spin und richtiggehende Propaganda zu unterscheiden. Es ist Tag 2 und ich muss sagen: Nein, da stimmt etwas ganz gehörig nicht.

Heute bringt das Journalismus-Startup eine Geschichte, wie unterschiedlich Google die Kampagnen-E-Mails der unterschiedlichen Präsidentschaftsbewerber behandelt. Das ist eine legitime Fragestellung und eine systematische Untersuchung zum Thema ist sicher einen Blick wert. Auf Twitter zeigt The Markup, wie sexy die Statistik doch ist. Der Artikel wird mit der maximal tendenziösen Frage eingeleitet: „Google the Giant — Swinging the vote?“ – eine Verschwörungstheorie in Frageform.

But there were huge differences. Gmail sent 63 percent of  @PeteButtigieg 's campaign email to the primary inbox.   But it sent none of  @ewarren 's campaign email there. And only 2 percent of  @BernieSanders 's campaign email landed in the primary inbox.

Natürlich verbreitet sich die Story gleich enorm schnell. Google bevorzugt Buttigieg! Und Sanders wird fast komplett ausgefiltert!

Das Problem ist: Die Methodik der Untersuchung ist so fehlerbehaftet, dass jeder, der daraus eine Erkenntnis ziehen will, grob fehlgeleitet wird.

Für den Laien mag die Idee nachvollziehbar klingen: Man sammelt vier Monate lang alle Emails aller Kandidaten und gibt Google keinerlei Anlass E-Mails auszusortieren. Damit keine Daten das Experiment verseuchen könnten, loggt man sich per Tor Browser ein. Also müsste Google doch eigentlich alle eingehenden E-Mails gleich behandeln. Richtig?

Nein, das ist falsch. Denn das Grundkonzept von E-Mail-Filtern wie bei Gmail ist ein anderes. Ein Funktionsprinzip: Wenn 50000 User eine bestimmte E-Mail als Spam markieren, dann wird die Email beim Nutzer mit der Nummer 50001 die E-Mail automatisch in den Spam-Ordner vorsortiert. Man kann dies wie ich als Grund nehmen, Google Mail nicht zu benutzen. Es ist jedoch journalistisch nicht in Ordnung so zu tun, als habe man dieses einfache Prinzip nicht verstanden.

Zudem ignoriert der Text eine grundlegende Wahrheit. Tatsächlich ist politische Werbung per E-Mail spätestens seit dem Obama-Wahlkampf zu einem schieren Ärgernis für viele Nutzer geworden. Seien wir realistisch: Wenn Amy Klobuchar in nur vier Monaten 312 E-Mails verschickt — wer soll all das noch lesen? Und hier kommt dann der Google-Filter ins Spiel. Er sortiert nicht nur Spam aus, sondern sortiert auch „Promotions“ in einer Extra-Box um, die nicht so prominent angezeigt wird. Wenn nun Kampagnen-Emails in der Promotions-Sparte landen, kann man sagen: Der Filter funktioniert. Die befragten Vertreter der Sanders-Kampagne sehen deshalb auch kein Faulspiel von Google. So funktioniert E-Mail-Marketing nunmal.

Natürlich hat Google hier ein kritikwürdiges Eigeninteresse. Wenn nicht jeder gleichberechtigte Sichtbarkeit im Google-Postfach bekommt, dann kann Google Werbeanzeigen verkaufen. Wahr ist aber auch: Wenn jeder gleichberechtigt Sichtbarkeit im Google-Postfach bekommt, dann wird das Postfach für viele Nutzer nicht mehr nutzbar. Es werden viele Witze über Milennials gemacht, die ihre Mailbox nicht mehr abhören und damit wichtige Nachrichten verpassen. Das ist sicher eine Wahrheit. Aber eine andere Wahrheit ist: Im vergangenen Jahr wurden 58,5 Milliarden Robocalls in den USA getätigt. Wer da nicht mehr ans Telefon geht, hat sich schlicht an eine Realität angepasst.

Zurück zu Google: Es ist nicht verkehrt, die Google-Algorithmen unter die Lupe zu nehmen. Doch das wurde hier ja explizit nicht getan. Wenn Pete Buttigieg nicht in den Promotion-Filter abgeschoben wird, hängt das sicher auch damit zusammen, dass er weniger E-Mails als fast alle anderen Kampagnen versandt hat. Wenn die Post von Bernie Sanders komplett in dem Promotions-Ordner landet, hat es damit zu tun, dass er schon seit über fünf Jahren Wahlkampf macht und Google-Nutzer sehr viel Zeit hatten, seine Kampagnen-Emails als Promotion einzustufen. Ohne diese Kontexte sind die Daten ziemlich wertlos. Die Präsidentschafts-Kampagnen sind schließlich nicht vor vier Monaten vom Himmel gefallen.

Wenn man wirklich über den Einfluss von Google schreiben will, müsste man schon ein paar Gegentests einbauen: Zum Beispiel: Arbeiten Outlook, Yahoo und andere Webmail-Provider wirklich anders? Und: Warum sagt die Sanders-Kampagne, dass sie keinerlei Problem hat, wo doch alle E-Mails im Promotion-Tab landen? Man könnte sich auch ansehen: Nutzen politische Kampagnen das Angebot, einen ersten Platz in der Promotion-Inbox zu kaufen? Notwendig wäre es auch gewesen, mal in die E-Mails hineinzugucken, die im Spamfilter gelandet sind. Gab es dafür vielleicht offensichtliche Gründe, wie extensive Tracking-Techniken? Bei Kampagnen mit hohen Spam-Anteilen wäre auch zu fragen: Woher beziehen sie die E-Mail-Adressen der Empfänger? Nichts davon ist hier geschehen. Wenn man sich den Input nicht ansieht, kann man nicht entscheiden ob der Output eines Algorithmus korrekt oder inkorrekt ist.

Erst ganz zum Schluss des statistischen Addendums räumt The Markup dann schließlich ein, dass die Mühe, die sie sich gegeben haben, eigentlich zu nichts geführt hat:

We were unable to discern from the data we gathered why Gmail treated emails from different political entities differently.

Ich würde es sogar etwas härter formulieren: Die Untersuchung hat nicht mal ergeben, ob E-Mails der Kandidaten tatsächlich unterschiedlich behandelt werden. Das wird aber leider viele Fans von Kandidaten und Journalisten-Kollegen aber nicht davon abhalten, das absolute Gegenteil zu verbreiten.

Mädchenname der Mutter? König Alfons der Viertelvorzwölfte

Ein Amerikaner ist in zahlreiche Email-Accounts von Prominenten eingestiegen und hat die Inhalte der Nachrichten von dort systematisch verkauft. Wie war ihm das möglich? Ganz einfach:

Zur Schuldanerkennung im März hatte Christopher Chaney zugegeben, mindestens elf Monate lang wiederholt in Mail-Accounts eingebrochen zu sein. Dafür hatte er die Funktion „Kennwort vergessen“ von Webmailern benutzt, deren Sicherheitsfragen er anhand öffentlich bekannter Daten beantwortete.

Die Mail-Anbieter tragen hier in meinen Augen eine deutliche Mitschuld. Denn sie lassen ihre Kunden eine so genannte Sicherheitsfrage ausfüllen, mit denen sie auf ihr Konto zugreifen können, wenn sie — Mal wieder — ihr Kennwort vergessen haben. Dazu bieten die meisten Anbieter nur Fragen an, die entweder leicht nachzurecherchieren oder einfach zu erraten sind. „Wie lautet der Mädchenname ihrer Mutter?“ öffnet das E-Mail-Konto selbst bei unbekannten Personen für Hunderte Verwandte und Bekannte, die diesen simplen Fakt kennen. „Wie hieß ihr erstes Haustier“ oder gar „Was ist ihre Lieblingsfarbe?“ sind so einfach zu erraten, dass man eigentlich das E-Mail-Passwort löschen könnte. Sie wollen alle E-Mails unserer Kunden lesen? Nur zu!

Der einzige Grund dafür: Die Anbieter der Services wollen keinen Support leisten. Wenn der Kunde ein Passwort vergisst, soll er um Gottes Willen nicht anrufen und irgendeine manuelle Aktion verlangen. Oder gar komplizierte Verifikationsprozesse in Gang setzen, die in der Heimat vieler dieser Konzerne sowieso absurd wären, weil die USA nun einmal kein funktionierendes Meldewesen haben.

Die einzige Möglichkeit bei solche Fragen nicht automatisch sein Postfach zu öffnen: Kreative Antworten. Mädchenname der Mutter? König Alfons der Viertelvorzwölfte. Name des Haustiers? Ihr seid solche Sicherheits-Versager!