Data Science: wenn Digitalisierung aus den Kinderschuhen herauswächst

Ein Interview mit unserem digitalen Goldschmied Simon Klima. Wir unterhalten uns über Datenhandwerk und Wahrheitsfindung, Mehrwert und Entscheidungsgrundlagen, Wahrscheinlichkeiten und Bauchgefühl. Darüber, was nach der Digitalisierung der Unternehmensprozesse kommt und wie Data Science auf der Suche nach Innovationsideen unterstützen kann. Und wie man Data Science in den Alltag integrieren kann – im Unternehmen und in der Familie.

 

Lieber Simon, als Mathematiker beschäftigst du dich mit Data Science. Kurz und knackig für den Laien erklärt: Was kann man sich darunter vorstellen?

Für mich ist Data Science die Kunst, aus Daten einen Mehrwert zu generieren und damit Nutzen zu schaffen. Dies kann natürlich vielfältig passieren und dahinter steckt viel kreatives Problemlösen, Wissensdurst aber auch einfaches „Daten“-Handwerk. Basis sind wissenschaftliche Methoden, die auf Daten angewendet werden.

Worin liegt für dich der besondere Reiz an Data Science?

Der Reiz liegt für mich in der Vielfältigkeit der Aufgaben. Ich kann mich für viele verschiedene Dinge interessieren und lerne ungemein gern Neues kennen. Insbesondere gilt es eine Vielzahl an Problemen in verschiedensten Domänen und Branchen zu lösen und zu tüfteln, was mir sehr liegt. Egal ob Sensorik, Business-Daten oder Medizin – man kann sich überall mit Hilfe der Experten in der jeweiligen Domäne einarbeiten und einen Beitrag leisten. Darüber hinaus denke ich auch sehr gerne visionär, was denn nicht alles möglich wäre.

Wenn ich „Data Science“ höre, denke ich an Google Analytics, die Amazon-Einkaufsvorschläge oder selbstlernende und sich selbst optimierende Systeme: Ist das eine prototypische Anwendung?

Der Amazon Recommender ist sicher das prototypische Beispiel für eine populäre Data Science-Anwendung. An sich gibt es Data Science ja schon sehr lange, ist nur nicht unter dieser Bezeichnung bekannt. Früher sagte man zum Beispiel auch Data Mining dazu. Das Grundprinzip von Data Science ähnelt dem der klassischen wissenschaftlichen Methodik: Ich stelle eine Hypothese auf, generierte und analysiere zugehörige Daten und suche nach Hinweisen, die die Hypothese bestätigen oder widerlegen.

Wo liegen die Einsatzmöglichkeiten und Grenzen von Data Science?

Die Anwendungsfelder sind, wie schon erwähnt, vielfältig und auch mittlerweile immer breiter gefächert. Der Mehrwert besteht von der Messung und Beurteilung von Kennzahlen und Leistungsparametern, bis hin zu Recommender-Systemen wie bei Amazon, die in der Lage sind, eigenständig personalisierte Vorschläge zu machen. Es beginnt bei Datenaufbereitung und einfachen Analysen und Visualisierungen und geht bis zu „better-than-human“ neuronalen Netzen wie zum Beispiel Google Alpha Go. Einen großen Mehrwert kann man aber oft schon mit ganz einfachen Analysen schaffen.

Welche besonders spannenden Anwendungen von Data Science kommen dir in den Sinn?

Kürzlich war ein Bericht in den Medien über die erste KI, die langfristig besser Poker spielen kann als Menschen. Interessant finde ich auch die gerade stattfindende Obstacle Tower Challenge von Unity, ein interaktives Computerspiel, das die Möglichkeiten von KI eindrucksvoll an seine Grenzen bringt. Beeindruckend sind auch Services wie Spotify, wo ich schon von vielen Menschen gehört habe, wie zufrieden sie mit der Auswahl von Musik sind. Zentral ist hier die Möglichkeit, Kunden bzw. User individualisiert ansprechen zu können. Ein wichtiges Thema im CRM. Eindrucksvolle und gut erprobte Felder sind aber auch Optimierungen in der Warenwirtschaft, Churn Predicion, Image Processing und Fraud Detection.

Hast du selbst auch schon interessante Erlebnisse mit der Amazon Recommender-Funktion gehabt?

Natürlich, ich überlege dann immer wie es zu diesen Vorschlägen kommt. Ich kenne viele Menschen, die sagen: „Wow, ich liebe diese Funktion!“, und andere, die sie gefährlich finden, weil sie dann mehr konsumieren. Wieder andere sagen: „Das funktioniert ja überhaupt nicht!“ – und da denke ich, die Crux ist oft die Erwartungshaltung: Für mich als Mathematiker ist klar, dass das System nicht perfekt sein kann, weil es nur einen wahrscheinlichen Fall vorschlägt. Das geht es um nüchternes Kalkulieren von Wahrscheinlichkeiten, das oft nicht mit dem menschlichen Schwarz-Weiß-Denken harmoniert. Es ist auch eine Frage der Erwartungshaltung, ob ich es wertschätzen kann, dass ich mithilfe von Daten meine Vorhersagen zweifellos verlässlicher treffen kann als ohne. Wenn Amazon dank Recommender auch nur 0,5 % mehr Umsatz generiert, ist das gewaltig. Und dafür braucht es keine zu 100 % zutreffenden Vorhersagen.

Das ist wie mit dem Wetterbericht, oder? Besser als das Bauchgefühl ist er allemal, auch wenn immer gejammert wird.

Genau. Als Mathematiker kann man das nüchtern sehen, vor dem Hintergrund von Wahrscheinlichkeiten, auch wenn es manchmal schwerfällt. Auch mit den Wahlprognosen ist das eine ähnliche Geschichte, man muss hier immer die angegebenen Schwankungsbreiten mitberücksichtigen.

Data Science, KI, maschinelles Lernen: Wie grenzt man diese Bereiche voneinander ab?

Dies ist eine sehr spannende Frage, die in Zeiten von Hypecycles naturgemäß nicht immer ganz eindeutig zu beantworten ist. Teilweise sind die Themen auch so neu, dass sich eine gültige Definition erst herauskristallisieren muss. Für mich ist Data Science ein relativ breiter Begriff, der vor allem im Lösen von Problemen mittels Daten verankert ist. Dazu bedient man sich vieler Methoden, muss aber auch viel Verständnis für die Fragestellung an sich mitbringen. Dies ist sehr oft auch einer der wichtigsten Punkte: Was ist denn genau das Problem, das es zu lösen gilt?

Eine der Methoden, der sich ein Data Scientist bedienen kann, ist das Maschinelle Lernen. Das bedeutet, dass ein Algorithmus aus Daten lernt, ein konkretes Problem zu lösen. Zu Beispiel wird aus Sprache ein digitales Audiosignal, und daraus lernt ein Algorithmus den Inhalt als Text wiederzugeben. Das kann man sich ein bisschen so vorstellen wie Schulkinder beim Diktat. Und Computer können heutzutage SEHR viele Diktate in kurzer Zeit machen.

Eine Art von Algorithmen für Maschinelles Lernen sind die sogenannten neuronalen Netze oder auch in speziellerer Form die Deep-Learning-Algorithmen. Sie haben unter anderem eine besondere Eigenschaft: Sie lassen sich sehr gut skalieren. Dazu gehört, dass sie mit mehr Daten auch besser werden, was aber nicht notwendigerweise sein muss. Darin steckt ein ungemeines Potenzial, und dafür wurde auch der Begriff „KI“ geprägt. Zum einen wird also KI pseudonym für diese Klasse an Algorithmen verwendet, aber durchaus auch im wörtlichen Sinne. Also eine Maschine, die intelligent ist.

Daten – das „Gold“ der heutigen Zeit – abgedroschen und/oder wahr?

Im englischsprachigen Raum spricht man gerne von „data is the new oil“. Aber der Sinn bleibt ähnlich. Wichtig ist es jedenfalls, den Schatz heben zu können, was mit viel Arbeit verbunden ist, und dazu kann ich mit Data Science einen Beitrag leisten. Das Potenzial sehe ich aber in jedem Fall als gewaltig an, aber man muss etwas daraus machen.

Es braucht also den engagierten und kreativen Goldschmied, der etwas aus dem Gold macht.

Genau. Die Ölmetapher gefällt mir eigentlich ein bisschen besser, weil die Zeit des großen Öl-Förderns auch ein gewisser Boom war. Das ursprünglich wertlose Erdöl wurde erst durch die daraus gewonnen Produkte wertvoll, und diese mussten auch erst entwickelt werden. Den Goldrush gab es zwar auch, aber Gold war an sich schon immer sehr wertvoll.

Angeblich soll Winston Churchill einmal gesagt haben: „Ich traue keiner Statistik, die ich nicht selbst gefälscht habe.“ Wie sieht es mit Data Science aus: Handelt es sich um eine exakte Wissenschaft oder kann man jede Analyse letztendlich so steuern, dass sie zum gewünschten Ergebnis führt?

Dies ist natürlich machbar, aber nicht Sinn der Sache. Aus meiner Sicht hat Data Science sehr wohl einem wissenschaftlichen Anspruch zu genügen, und damit hat dieses Tätigkeitsfeld auch viel gemeinsam. Das Wort Wissenschaft bzw. Science ist ja schon im Namen vorhanden, und auch das Prinzip ist gültig: Man generiert Daten und trifft auf dieser Basis Entscheidungen über Hypothesen. Bei Data Science geht es immer um Wahrheitsfindung, auch wenn man als Data Scientist oft mit Kompromissen umgehen und Lösungen finden muss, die nahe an der Wahrheit liegen und Kriterien wie ein optimales Kosten-Nutzen-Verhältnis erfüllen.

Wie kann Data Science Softwareprojekte bereichern?

Im Bereich Data Science arbeitet man natürlich auch mit Code und Programmiersprachen, und deshalb gibt es hier viele Bereiche, die sich überschneiden.

Zum einen professionalisiert sich die Arbeitsweise von Data Science zunehmend, und hier kommen vor allem viele Konzepte aus der Softwareentwicklung zum Zug.

Zum anderen wird die Nutzung von Daten innerhalb von Softwareanwendungen immer stärker und auch die Art und Weise, wie bzw. welche Teile programmiert werden müssen. Ganz plakativ hat Andrej Karpathy vor zwei Jahren maschinelles Lernern als „Software 2.0“ bezeichnet. In ketzerischer Weise postuliert er damit, dass Maschinen schneller besseren und komplexeren Code schreiben als Menschen.

Data Scientists entwickeln innovative Konzepte in den Bereichen Datenbanktechnologie und Informationswissenschaft, wenden u.a. Methoden der Informationsvisualisierung, Datenanalyse und Wissensentdeckung in Datenbanken an. Ist das auch deine Rolle bei Axtesys?

Ja, ich denke, dass ich mich da stark einbringen kann dabei, dass wir unsere Kunden dabei unterstützen, ein Mehr aus ihren Daten herauszuholen und sie nutzbar zu machen. Dabei geht es insbesondere darum, die relevanten Daten zu identifizieren und damit bessere Entscheidungen zu ermöglichen, zum Beispiel durch Visualisierungen und Benchmarking von KPIs. Data Science kann die bekannten Stärken von Axtesys bei der Digitalisierung durch Individualsoftware unterstützen und erweitern, was für Unternehmen große Kostenersparnisse bringt. Es handelt sich sozusagen um den nächsten Schritt bei der Digitalisierung, über die Digitalisierung von Prozessen hinaus. Es geht um das Überwachen von Daten, das Beobachten von Entwicklungen und, im Idealfall, sogar um die Entwicklung neuer Produktideen. Das kann man recht gut aus der Reifegrad-Grafik ablesen.

Im einfachsten Fall geht es um eine beschreibende Analyse, man schaut zurück und sieht sich an, was passiert ist – vielleicht ist eine Maschine kaputt geworden. Im nächsten Schritt analysiert man, warum es dazu gekommen ist. Danach kann ich mich mit dem Blick in die Zukunft auseinandersetzen, wann die Maschine das nächste Mal kaputt werden wird. Im vierten und letzten Schritt wird aus den möglichen Szenarien das wahrscheinlichste identifiziert. Das könnte man auch mit Geschäftsfeldern tun – man erstellt Forecasts und anhand der Daten identifiziert man das wahrscheinlichste Szenario und trifft auf dieser Grundlage eine fundierte strategische Entscheidung.

Ein anderes Bespiel für einen präskriptiven Fall wäre ein Schachcomputer. Es ist nicht möglich, alle Szenarien einer gegebenen Stellung durchzuprobieren und den damit zum Sieg führenden Zug zu finden. Alternativ werden verschiedene Züge daraufhin überprüft, welche Stellung sie herbeiführen könnten (prädiktiv). Die Auswahl des optimalen Zuges wird dann zusammen mit einer Bewertung der vorhergesagten Stellung getroffen (präskriptiv). Wie wir wissen, funktioniert dies bei Schach schon sehr gut.

Welche Vorteile kann Data Science mittelständischen Unternehmen bieten?

Sehr viele, denke ich. Gerade hier ist oft viel Potenzial aus Daten zu heben und es gibt viele Quick Wins. Man muss nicht gleich mit KI arbeiten, es reichen oft schon einfache Datenanalysen, um großen Nutzen zu erzielen. Andererseits bietet Data Science auch viel Potenzial für Unternehmen, um die lebenswichtige Innovation zu erzielen. Oft liegt der Mehrwert darin, die Methodik des datengetriebenen Arbeitens in den Unternehmensalltag einzubringen, in den Prozessen zu verankern und in die Arbeitshaltung zu integrieren. „Data-driven companies“ sind nicht von ungefähr ein großer Trend.

In Finnland wurde zum Beispiel letztes Jahr das „Elements of AI“-Projekt gestartet, mit dem Ziel, möglichst vielen Finnen den Umgang mit maschinellem Lernen und KI-Methoden näherzubringen. Als Start wird ein kostenloser Online-Kurs angeboten und Firmen wie Elisa und Nokia haben angekündigt, alle Ihrer Mitarbeiter auszubilden. Bisher haben 170.000 Personen für den Kurs angemeldet, 40 % davon Frauen.

Eine scherzhafte Frage: Du bist ein Familienmensch. Welche Data-Science-Anwendung könnte deine Familie gut brauchen?

[lacht] Mit kleinen Kindern hat man ja immer das Thema „hungrig und müde“, daher hätte ich gerne eine Voraussage darüber, wie der Unterzuckerungsgrad, der Blasenfüllstand und der Müdigkeitsgrad der Kinder sein wird. Das frühzeitig zu erkennen, könnte das Familienleben oft deutlich erleichern und viele Probleme ersparen [lacht].

Die wesentlichen Kennwerte für Familienharmonie… [lacht]

Aber im Ernst ‒ ich mache immer wieder Analysen über unseren Haushalt und denke oft über Lösungen mittels Daten nach. Natürlich analysiere ich auch meinen Trainingszustand und die Kilometer, die ich mit dem Fahrrad zurückgelegt habe.

Deine Ziele bei den Kilometeranalysen? Dass du rechtzeitig umdrehen kannst, bevor die Familien-Kennwerte in Gefahr sind?

Genau, die allerwichtigste Vorhersage ist die Antwort auf die Frage: Wann bist du denn vom Radfahren wieder zurück? [lacht]

Du bist wirklich Data Scientist mit Leib und Seele triffst du deine Entscheidungen rationaler als ein Nicht-Mathematiker?

Ich für mich möchte gute und nachhaltige Entscheidungen treffen. Dies ist aus meiner Sicht sicher kein Privileg als Mathematiker.

Zur Person:

Simon Klima studierte Mathematik und Statistik an der TU Graz und an der TU Wien.

Seit 2019 ist er bei Axtesys als Data Scientist tätig. Seine Tätigkeitsschwerpunkt ist die Arbeit mit Methoden der Data Science, um aus Daten Mehrwert zu generieren und die nächsthöhere Entwicklungsebene von Digitalisierung zu erreichen.