Die Legende von mythischen Datenschätzen

Gestern bin ich auf Twitter in eine interessante Diskussion geraten: Soll man Geschäftsmodelle wie Uber und AirBnB erlauben, wenn diese Unternehmen dafür versprechen, ihre Daten öffentlich freizugeben? Schließlich kann man so vieles mit öffentlichen Daten machen. Denn Daten sind Wissen. Und Wissen ist Macht. Und all die innovativen deutschen Startups, die niemals an Google und Facebook verkauft werden, könnten so die Wertschöpfung vom Silicon Valley zurückholen.

Obwohl ich offene Daten, bzw Open Data prinzipiell sehr unterstütze, muss ich hier sagen: Nein!

Erstens: Man gibt Unternehmen keinen Bonus, wenn sie Transparenzpflichten erfüllen. Man sorgt für vernünftige Regulierungen und dann haben sich die Unternehmen dran zu halten. Punktum.

Regulieren, aber richtig

Neulich habe ich mal die AirBnB-Hilfsseiten durchstöbert, wie denn Gastgeber dabei unterstützt werden, sich an örtliche Regulierungen zu halten. Und das Ergebnis war: fast gar nicht. Es gibt ein paar schwer auffindbare und kaum verständliche Hilfstexte und den ultimativen Hinweis, dass das der Gastgeber doch bitte selbst mit den Behörden zu klären habe.

Nein, AirBnB — wenn ihr Provision kassiert, solltet ihr hier eine aktive Rolle übernehmen. Zumindest eine kostenlose Hotline, wo juristisch gebildete Mitarbeiter Einzelfälle kompetent bewerten können und auch im Zweifelsfall eine Haftung von AirBnB auslösen. Das ist meine persönliche Meinung, die konkrete Umsetzung wäre eine Sache der Politik. Denn mein Anspruch kollidiert natürlich mit solchen Dingen wie dem Rechtsberatungsgesetz.

Der zweite Punkt ist aber: Ich möchte AirBnBs Daten nicht. Ich will auch nicht wirklich dringend die Daten von Uber haben. Denn: Diese Daten mögen höchst praktisch für die Marktaufsicht sein, um eben diese Unternehmen zu überprüfen und nachzufragen, ob auch jeder Teilnehmer seine Steuern brav bezahlt. Ansonsten sind sie weitgehend nutzlos für die Allgemeinheit.

Marketing, nicht Daten!

Denn diese Unternehmen sind nicht so groß geworden, weil sie Datenanalyse auf einen neuen Gipfel gehoben hätten. Uber zum Beispiel hat es geschafft, sich als billige und gastfreundliche Alternative zum Taxi zu etablieren — mit Marketing. (Und mit den verbrannten Milliarden von Investoren, die diese beim baldigen Börsengang zurückhaben wollen.) AirBnB hat auch keinen geheimen Algorithmus, der neue Wohnungen generiert – Leute melden sich freiwillig auf der Plattform an, weil mittlerweile keine US-Sitcom mehr ohne eine Folge über die erstaunlichen Verdienstmöglichkeiten auskommt.

Wenn ihr Ubers Daten haben wollt, um mehr über den Verkehr in Eurer Stadt zu erfahren, kann ich nur sagen: Ihr seid auf dieses Marketing reingefallen. Denn Uber ist nur ein vergleichsweise kleiner Over-the-top-Player, der einen winzigen Ausschnitt des Verkehrsgeschehens wahrnimmt und sich auf Daten von anderen verlässt. Wisst ihr, wer sehr viel mehr Daten über innerstädtischen Verkehr erfasst? Busse. Denn sie müssen fast überall hin und sind nicht bevorzugt unterwegs um Millennials vom Club nach Hause zu bringen.

Die Daten liegen näher als das Silicon Valley

Aber selbst die Busse sind eine unterlegene Datenquelle. Wenn ihr heute zum Beispiel das WDR-Radio einschaltet, werdet ihr alle halbe Stunde die Verkehrsnachrichten überhören. Falls ihr aber mal wirklich zuhört, wird Euch auffallen, dass dort nicht mehr nur die physische Länge eines Staus durchgegeben wird, sondern auch wie lange die Verzögerung voraussichtlich dauern wird. Diese Daten werden aus den Bewegungsdaten errechnet, die notwendigerweise in Mobilfunknetzen anfallen. Denn fast jeder Autofahrer hat ein Handy dabei, das konstant seinen Standpunkt an die umliegenden Funkmasten sendet.

Oder anders formuliert: Alle Daten, die bei Uber anfallen, fallen auch bei Apple, Google und den Mobilfunkherstellern an. Also: Wozu soll Uber zur Verfügung stellen, was sie eh nur nachnutzen? Sicher: Wenn man sie bekommen kann und ihre systematischen Mängel berücksichtigt – warum nicht? Aber: Wollen wir wirklich, das all unsere Bewegungsdaten öffentlich werden? Zwar kann man Daten aggregieren und verschleiern, aber gerade in Randbereichen ist die nachträgliche Identifikation nicht hundertprozentig zu vermeiden.

Unterirdische Datenqualität

Eine weitere These: Die Datenqualität von kommerziellen Unternehmen ist oft unterirdisch. Schaut mal in Eure Werbeprofile bei Facebook und Google. Darunter wird vieles sein, was erstaunlich korrekt sind: Alter, Geschlecht, Interessen. Doch wann immer ich in solche Profile gucke, sind lächerliche Fehlannahmen darunter. Facebook meinte zum Beispiel, ich höre als liebstes Blues-Musik. Was nicht stimmt. Facebook ist das jedoch ziemlich egal. Aufgrund meiner vermeintlichen Vorlieben wird mir Werbung gezeigt. Wenn mir eine Werbung angezeigt wird, die mich nicht wirklich interessiert, muss sie dennoch bezahlt werden. Und selbst wenn nicht: Ab einem gewissen Punkt rechnet sich die Optimierung auf meine tatsächlichen Interessen nicht mehr.

Es ist aber nicht nur das Desinteresse von kommerziellen Entitäten an durchweg korrekten Daten – der profitorientierte Ansatz produziert andere Daten als Entitäten, die das Gemeinwohl im Blick haben. Beispielsweise veröffentlichte Forbes neulich einen Artikel darüber, wie Fodoora entdeckt hat, das Fahrräder das effizientere Verkehrsmittel sind, weil sie im Stadtverkehr Autos und sogar Motorroller hinter sich lassen.

Dabei darf man jedoch nicht vergessen, worum es hier geht. Die Lieferfahrer haben ein sehr spezielles Bewegungsprofil. Zum einen: Sie fahren immer nur wenige Kilometer. Wenn jemand vom anderen Ende der Stadt eine Pizza bestellt, wird sie auch von dort geliefert. Für mich als Radfahrer in Köln sind diese Daten nur beschränkt übertragbar. Denn ich kann mich nicht in die nächste Lieferpizzeria teleportieren lassen, um von dort meinen Weg zu meinem Ziel fortzusetzen.

Gut genug ist nicht genug

Doch die Daten, die ein Unternehmen produziert, sind auch auf andere Weise verzerrt. Wenn ich in den Straßenverkehr schaue, wird recht deutlich, dass sich Lieferfahrer deutlich anders verhalten als andere Verkehrsteilnehmer. So sind sie ökonomisch motiviert, jede Art von Abkürzung zu nehmen, sie wissen besser als andere, wo sie was können. Dadurch werden die Daten sozusagen verseucht: Nur weil ein Lieferfahrer eine Straße langgefahren ist, ist es noch lange kein Beweis dafür, dass es sich um keine Einbahnstraße in anderer Richtung handelt — nicht einmal, wenn es 100 Lieferfahrer machen. Eine Navigation, die auf solchen Daten aufzusetzen versucht, wird notwendigerweise Probleme bekommen.

Kurzum: Für Privatunternehmen ist die Maxime: Es reicht, wenn Daten gut genug für meinen Zweck sind. Öffentliche Daten sollten jedoch einem höheren Anspruch genügen.