Das neue Buchungssystem von BurdaForward ermöglicht, Native Ads und Native Articles schnell und einfach selbst zu erstellen, Kosten zu kontrollieren und Erfolge zu messen.
Im Focus Online-Lab werden Prototypen und neue Funktionen für Marken wie Focus Online, Huffington Post oder Chip getestet, um das Produkterlebnis für Nutzer weiter zu verbessern. Ich habe mich mit Christian Essling, Director Analytics beim Focus Online-Lab, über Big Data und die Auswertung dieser Informationsmassen unterhalten. Warum auch vermeintliche „Mathemuffel“ Spaß an dieser Disziplin finden können, und wie man Ordnung ins Zahlenchaos bringt, erklärt er unter anderem in folgendem Interview.
Wie bist Du zu diesem Beruf gekommen – warst Du schon immer ein Mathe-Nerd?
Ganz im Gegenteil, tatsächlich konnte ich den Großteil meiner Schulzeit überhaupt nichts mit Mathe anfangen, das war mir zu theoretisch und ich habe nicht verstanden, wozu ich das gebrauchen könnte. In meinem VWL-Studium wurde daraus plötzlich die Optimierung des Gewinns eines Unternehmens, was ich gleich viel spannender fand.
Meine Leidenschaft für Daten und Statistik brach dann während meiner Promotion so richtig durch. Ich fand das sehr faszinierend, wie ich mit Algorithmen Muster in Daten aufdecken konnte. Danach stand ich vor der Entscheidung, in welche Richtung ich gehen will: in der Wissenschaft bleiben und Forschungsarbeiten schreiben oder in der Industrie Daten analysieren und spannende Probleme lösen. Entschieden habe ich mich für letzteres.
Big Data ist zunächst eine unstrukturierte Masse, mit der man wenig anfangen kann. Wie bringst Du Ordnung in das Chaos?
Ein Kollege von mir hat das immer mit einer Bar verglichen. Hier haben wir 20 verschiedene Spirituosen, aber wenn wir das alles in einen Eimer kippen und verrühren, taugt das bestenfalls für den Ballermann. Viel smarter wäre es, zu verstehen, was wir tatsächlich haben und in welcher Dosierung und Mischung wir daraus einen leckeren Cocktail mixen können.
Ähnlich verhält es sich mit den Daten. Die leider immer noch weitverbreitete Meinung, wonach man nur genug Daten sammeln muss, einen supersmarten Algorithmus die Arbeit machen lässt und hinten die 500€-Noten rauskommen, ist Schwachsinn. Es ist ein integraler Bestandteil jedes Datenprojekts zu verstehen, welche Daten man vor sich hat.
Hast Du dafür ein Praxisbeispiel?
Ich hatte mal ein Projekt, in dem es darum ging, Motorausfälle anhand von Einträgen im Steuergerät vorherzusagen, also Predictive Maintenance. Wir wussten von den Fahrzeugen, wann das Bauteil in der Werkstatt getauscht wurde und wir wussten, welche Einträge im jeweiligen Motorsteuergerät zu dem Zeitpunkt enthalten waren. Im Prinzip alles, was man braucht. Die Performance unseres Algorithmus war mit 75% Prognosegenauigkeit allerdings überschaubar.
Als wir dann tiefer bohrten, merkten wir, dass wir hinterfragen mussten, welche Selektion an Fahrzeugen uns hier gegenüberstand: Die Fahrzeuge bekamen zwar das Bauteil getauscht, jedoch stellte sich heraus, dass bei etwa der Hälfte das Bauteil eigentlich noch intakt war und lediglich auf Verdacht getauscht wurde. Nachdem wir diese Fälle ausgeschlossen hatten, schoss die Prognosegenauigkeit auf über 95% und wir hatten gelernt, dass man auch Punkte hinterfragen muss, die man gar nicht sieht.
Wo kommen eigentlich die vielen Daten her?
Es gibt natürlich Unmengen an Datenquellen. Logfiles aus Maschinen, Abrechnungsdaten aus dem Controlling oder Wetterdaten der Wetterstationen. Bei BurdaForward konzentrieren wir uns aktuell in erster Linie auf Nutzungsdaten, also Daten darüber, wie unsere User das Produkt nutzen. Wir arbeiten zusätzlich daran, zu verstehen, worum es thematisch in den jeweiligen Artikeln ging, die der Nutzer gelesen hat, damit wir eine Aussage über inhaltliche Präferenzen machen können. Ein Beispiel: Interessiert sich ein Nutzer für Münchner Regionalnachrichten? Das nächste Mal, wenn der User wiederkommt und wir eine Neuigkeit aus dem Münchner Raum haben, würden wir ihm das direkt anbieten.
Und wie steht es um den Datenschutz?
Datenschutz ist bei allem, was wir tun, ein wichtiges Thema. Auf der einen Seite merken wir, dass Nutzer vorsichtiger bzw. skeptischer werden und verstehen wollen, was mit ihren Daten passiert. Dem wollen wir mit mehr Transparenz entgegenwirken und klarstellen, dass wir ihre Daten nur nutzen, um ihr Erlebnis auf der Seite angenehmer zu machen.
Auf der anderen Seite werden im kommenden Jahr mit der Datenschutzgrundverordnung und der ePrivacy-Verordnung nochmal deutlich strengere Maßnahmen in Bezug auf Datenschutz erlassen werden. Für diese Änderungen leiten wir jetzt schon entsprechende Maßnahmen ein, um perfekt darauf vorbereitet zu sein.
Wie schließt Du aus, dass Informationen falsch interpretiert und ausgewertet werden?
Falsche Interpretation von Analysen ist leider immer wieder ein Problem. Es hilft, wenn man sich die Frage stellt, ob man alle Variablen, die einen Effekt haben könnten, im Modell berücksichtig hat. Einflussgrößen wegzulassen kann teilweise schwerwiegende Effekte auf die Validität der Ergebnisse haben. Noch schwerwiegender und gleichzeitig deutlich weniger offensichtlich zu erkennen ist es aber, wenn das Modell auf Basis nicht repräsentativer Daten entwickelt wurde, der Datensatz also eine nicht-zufällige Selektion ist.
Ich will das mal an einem Beispiel deutlich machen. Es gab während des zweiten Weltkrieges eine Initiative des Militärs, die sich mit der Frage beschäftigte, an welchen Teilen der Kampfflugzeuge die Panzerung verstärkt werden sollte. Dafür holte man aus dem Gefecht zurückgekehrte Flieger und zählte die Einschüsse. Auf der vorderen Hälfte des Flugzeugs zählte man im Schnitt 1.7 Einschusslöcher und auf der hinteren Hälfte 2.2. Wenn man nun aber davon ausgeht, den hinteren Rumpf stärker panzern zu müssen, liegt man falsch. Tatsächlich muss dort gepanzert werden, wo die wenigsten Einschüsse zu finden sind. Denn: Die Flugzeuge, die nach einem Treffer auf den Motor abgestürzt sind, hatten nämlich keine Chance mehr, an der Initiative teilzunehmen. Das wären aber die deutlich interessanteren Untersuchungsobjekte gewesen.
Wo siehst Du die größten Anwendungsgebiete für Data Science in der Zukunft?
Ich glaube, Data Science wird auf absehbare Zeit unser aller Leben verändern. Schau Dir mal an, was heute schon alles auf Daten beruht: Du bestellst ein Taxi über Alexa und bezahlst es vermutlich auch noch bargeldlos über eine App. Dein Auto weiß, wann es in die Werkstatt muss, um einen kritischen Ausfall zu vermeiden. Deine Heizung merkt, wann Du das Haus verlässt und fährt automatisch runter, um Kosten zu sparen. Dein Streamingdienst lernt Deinen Musikgeschmack und spielt mehr Musik, die Du wirklich magst.
Bei BurdaForward denken wir ebenfalls intensiv darüber nach, wie wir das Leben unserer User angenehmer machen können. Eine Ausprägung könnte beispielsweise. sein, dass wenn unser Algorithmus lernt, dass Du Fan des FC Bayern bist, Dir ab sofort samstagnachmittags das Ergebnis des Bayernspiels oben auf der Startseite anzeigt wird. Ideen haben wir eine ganze Menge und die wollen wir in unserem Focus Online-Lab über die kommenden Monate testen.
Über das Focus Online-Lab
Im Focus Online-Lab werden Prototypen und neue Funktionen getestet, um das Produkterlebnis für jeden einzelnen Nutzer von Focus Online, Huffington Post oder Chip weiter zu verbessern. Experimentiert wird hier zum Beispiel mit Chatbots, Augmented Reality oder auch mit digitalen Produkten für das Zuhause. Ziel ist es, durch die im User-Lab gewonnenen Daten deutlich bessere Nutzungserlebnisse zu schaffen. Das Testen findet in der gewohnten Nutzungsumgebung statt, also mobil oder am stationären Rechner.