Bad Data

Es ist eine von vielen Stories, die heute zum Thema big data verbreitet werden. Spotify weiß, welche Musik läuft, wenn Du Sex hast. Ach was? Leute speichern Playlists unter Titeln wie „Sex“ oder „Love“ ab und schon hat der mächtige Cloud-Anbieter einen Blick in unser Schafzimmer geworfen. Denn wie einst Kästner fomulierte: „Wer zu Bett geht, pflanzt sich auch schon fort!“

Sorry, aber das ist kein big data, das ist big bullshit. Als Spotify-User kann ich versichern: Die Cloud hat keinerlei Ahnung, welche Musik ich mag und was ich dabei mache. Ich muss schon mindestens zehn Titel vorgeben, damit Spotify annehmbare Vorschläge auf die Playlist setzt. Das kann auch ein besoffener 20-jähriger, der nicht weiß, auf welcher Party er grade gelandet ist und plötzlich vor dem iTunes-Computer sitzt. Spiel die Titel, die jeder kennt. Wenn sich jemand beschwert, klick weiter. Unterdessen empfiehlt mir Spotify die tolle Schunkel-Karnevals-Playliste. Go figure.

Schubladendenken und Golden Oldies

Ich will nicht leugnen, dass Facebook, Google und Co eine Menge über mich herausfinden können. Simples Beispiel: Ich hab Facebook nie gesagt, dass ich heterosexuell bin. Trotzdem bekam ich lauter Single-Frauen-Dating-Scams angezeigt. Aber das war auch schon die höchste Annäherung, die Facebook an mein persönliches Interessenprofil geschafft hat. Ich musste über ein halbes Jahr jeden einzelnen Anbieter von Dating-Apps mehrfach als unerwünscht wegklicken, damit das endlich aufhörte.

Nach den ersten drei unerwünschten Anbietern hätte die allwissende Facebook-Cloud erkennen können: Der Torsten mag keine Dating-Apps. Doch warum sollte Facebook das machen? Die Dating-Börsen bezahlen gut, dass ihre Werbung angezeigt wird. Und wenn Facebook vermeintliche Interessenten streicht, dann werben die Börsen halt im Fernsehen.

Heute zeigt mir Facebook im wesentlichen Werbung für Produkte an, die ich mir vorher schon auf Amazon angesehen habe. Und für einen Kabel-Anbieter, der meine Wohngegend nicht bedient. Ab und zu eine Werbung für Autos — und ich werde in den kommenden fünf Jahren keinen Neuwagen kaufen — oder für Eigentumswohnungen in Monschau. Damit verdient Facebook ein paar Euro im Jahr. Die Inserenten haben das Geld jedoch rausgeschmissen.

In guten Daten ist kein Geschäft

Google ist nicht wesentlich mehr an mir interessiert. Bei Google+ werden mir die doofsten Verschwörungstheorien und die schmalzigsten HDR-Fotografien in die Timeline gespült. Einer der erste Kategorien der YouTube-Startseite ist „Erneut ansehen“, die mir Videos empfiehlt, die ich schon angesehen habe. Wiederholungen als Erfolgsmodell, Olden Goldies. Der Rest bezieht sich auf eine simple Titelauswertung. Ich habe ein Video mit Jim Fallon gesehen? Hier sind weitere Video im Fallon.

Das Interesse von Google an meiner Person ist weitgehend erschöpft, wenn mein Werbeprofil ausgefüllt ist. Welcher Altersgruppe gehöre ich an? Welche vermarktbare Themengebiete interessieren mich? Welche Sprache spreche ich und in welcher Metropolregion lebe ich? Genauer wird es nicht. Dabei könnte Google dank GPS genau wissen, wo ich tatsächlich einkaufe. Doch wer sollte Google dafür bezahlen?

Es ist ein Paradoxon: Facebook, Google und Co wollen mich mit Daten möglichst genau erfassen. Doch ihr Geld verdienen sie damit, mich möglichst ungenau zu kennen. Sonst könnte man mir ja nichts verkaufen. Über mein Datenprofil wird ein Weichzeichner gelegt, der mich unkenntlich macht. Ob privat-kommerziell oder staatlich: Die Technik mag big data sein, das Geschäftsmodell ist aber bad data.

Big government

Gerade im staatlichen Bereich ist der Umgang mit big data oft noch schlimmer. Denn hier gibt es nicht einmal die Kontrolle durch den Markt der Werbekunden. Bestes Beispiel sind die berühmten No-Fly-Listen und die Einreisekontrollen an Flughäfen. Eine von vielen Anekdoten kam diese Woche an die Öffentlichkeit: Ein Niederländer wird als Verdächtiger eingestuft und gleich zweifach verhört und durchsucht, weil er sein Einreiseformular aus Jordanien bearbeitet habe. Wahrscheinliche Erklärung: die US-Behörden haben die IP-Adresse falsch zugeordnet.

Was diesen Vorfall von Tausenden ähnlicher Vorfälle unterscheidet: Die Behörden ließen sich in die Karten sehen, was denn der Verdachtsmoment gewesen sein mag. Eine formelle Überprüfung, warum die Grenzschützer daneben lagen, wird es wohl nicht geben. Ein Reisender ist als Risiko eingestuft worden, in der Statistik wird ein Niederländer als potenzieller Terrorist auftauchen, sodass der Austausch von Fluggastdaten unbedingt notwendig erscheint. Der Fahndungs-Fehlschlag war aus statistischer Sicht ein Erfolg.

Wer viele Daten hat, so heißt es oft, hat heute die Macht. Doch mächtiger ist, der die Daten auslegen kann, wie es ihm grade in den Kram passt.

Leave a comment

4 Comments.

  1. Sehr schön. Ich vermute, der Sachverhalt ist wasserdicht beschrieben, dass das soganannte Targeting weiterhin nicht hoch entwickelt ist.
    Auf der anderen Seite soll es ja so auch nicht funktionieren. Wer Werbung „schaltet“, bildet aus einem Set von Kriterien eine „Zielgruppe“ – die Betonung liegt hier auf -gruppe. Es handelt sich also immer um Streuung, nicht um Anvisieren der Mitte der Zielscheibe. Für den Werbetreibenden entscheidend ist dabei die relative Wirkung, nicht die absolute gegenüber der einzelnen Nase. Relative Wirkung heißt im Netz: Kosten im Verhältnis zu Anzahl der gewünschten Reaktionen. Man muss daher bei der sogenannten Mediaplanung ein Kompromiss aussteuern zwischen möglichst großer Reichweite und Kosten, weswegen man sich mit der Reichweite in der Zielgruppe zu frieden gibt -einerseits eine große Basis, andererseits eine leicht erhöhte Wahrscheinlichkeit, dass die Einspielung der Werbung nich völlig ineffizient ist. Es geht bei der Messung dann um Bruchteile von sehr kleinen Prozentzahlen, sofern es um eine klar definierte Reaktion geht („Response“) -á la: „Ist es un gelungen durch das verbesserte Targeting die Responsequote um fast 10% zu steigen, nämlich von 0,9 auf 0,98%.“ So wird in Kauf genommen, dass sich von 100 adressierten Menschen 99 im schlimmsten Fall sogar unangenehm belästigt fühlen – die Kampagne war trotzdem erfolgreich.
    Ich habe keine Ahnung, eine wie genaue Aussteuerung der Kampagnen Facebook effektiv ermöglicht. Vermutlich sind die Filter, wie du vermutest, auch deshalb gron, damit die Werbeitreibenden überhaupt noch Millionen Adressen ansprechen müssen, wenn sie auch selbst schon wissen, dass sie mit 10.000 effektiven Reaktionen schon sehr glücklich wären. Ich weiß, dass andere Portal-Vermarktungsanbieter auch sogenannte „Leadgenerierung“ anbieten – dann werden nur die effektiv mit Name und Adresse angeworbenen Interessentenkontakte berechnet. Die kosten dann aber pro Stück richtig Geld ;) Möglich dass Facebook das künftig auch anbietet – bislang haben sie dafür aber vermutlich nicht so tolle Möglichkeiten. Über viele insbesondere „attraktive Zielgruppen“ wissen die herzlich wenig, schon weil die eher diskrete Facebook- und Netzgewohnheiten haben.
    Also sehr gut möglich, dass der praktische Wert von Big Data weniger wert ist, als Big Data Kosten verursacht :))

    • Die Filter von Facebook sind schon potenziell sehr potent – ich konnte für einen Test bei der c’t sogar die Angestellten einer einzelnen Firma adressieren. Doch die Nachfrage nach extrem gezielten Kampagnen ist offenkundig nicht vorhanden. Facebook gibt aber absolut keine Namen raus – sie wollen die Werbetreibenden auf ihrer Plattform einsperren.

  2. big data, bad analysis.
    Vorsicht, Big Data ist genau das. Erst mal ein großer Haufen Daten.

    Dann kommt die Analyse.

    Für Werbung wird die 0815-Analyse drübergejadt mit dem Effekt den du beschreibst. Und es reicht. Facebook verkauft Werbung, ob die dich interessiert ist egal, wenn Facebook Geld bekommt.

    Behörden jagen bei Massenauswertung den falschen und übersehen andere. Ja, weil ihre Analyse noch nichts taugt. Im Gegensatz zu Facebook haben sie ein Interesse daran es zu verbessern.

    ABER, wenn du das Ziel bist, z.B. die NSA sucht einen neuen Whistleblower und hat sich dafür Zugang zu Facebook-, Google-, Amazon-Daten erbeten. Dann sind die Daten da, die Abfragemöglichkeiten auch UND es wird jemand einzelnes gesucht.
    In dem Moment geht ein Mensch hin und filtert, ergänzt Suchkriterien, entfernt welche. Bis er den Whistleblower hat. Und er hat gute Chancen, denn es sind massig Daten.

    Nur „No Data“ ist „Bad Data“, jede andere Form von Daten enthält zumindest eine gewisse Information und irgendwann kommt auch wer und nutzt sie gewinnbringend. Bis dahin wird der Abfall daraus, das „gerade gut genug“, eben an Leute verkauft, die nicht mehr brauchen.

Trackbacks and Pingbacks: