Ein Interview mit unserem digitalen Goldschmied Simon Klima. Wir unterhalten uns über Datenhandwerk und Wahrheitsfindung, Mehrwert und Entscheidungsgrundlagen, Wahrscheinlichkeiten und Bauchgefühl. Darüber, was nach der Digitalisierung der Unternehmensprozesse kommt und wie Data Science auf der Suche nach Innovationsideen unterstützen kann. Und wie man Data Science in den Alltag integrieren kann – im Unternehmen und in der Familie.
Lieber Simon, als Mathematiker beschäftigst du dich mit Data Science.
Kurz und knackig für den Laien erklärt: Was kann man sich darunter vorstellen?
Für mich ist Data Science die Kunst, aus Daten einen Mehrwert zu generieren und
damit Nutzen zu schaffen. Dies kann natürlich vielfältig passieren und dahinter
steckt viel kreatives Problemlösen, Wissensdurst aber auch einfaches
„Daten“-Handwerk. Basis sind wissenschaftliche Methoden, die auf Daten
angewendet werden.
Worin liegt für dich der besondere Reiz an Data Science?
Der Reiz liegt für mich in der Vielfältigkeit der Aufgaben. Ich kann mich für
viele verschiedene Dinge interessieren und lerne ungemein gern Neues kennen.
Insbesondere gilt es eine Vielzahl an Problemen in verschiedensten Domänen und
Branchen zu lösen und zu tüfteln, was mir sehr liegt. Egal ob Sensorik,
Business-Daten oder Medizin – man kann sich überall mit Hilfe der Experten in
der jeweiligen Domäne einarbeiten und einen Beitrag leisten. Darüber hinaus
denke ich auch sehr gerne visionär, was denn nicht alles möglich wäre.
Wenn ich „Data Science“ höre, denke ich an Google Analytics, die
Amazon-Einkaufsvorschläge oder selbstlernende und sich selbst optimierende
Systeme: Ist das eine prototypische Anwendung?
Der Amazon Recommender ist sicher das prototypische Beispiel für eine populäre
Data Science-Anwendung. An sich gibt es Data Science ja schon sehr lange, ist
nur nicht unter dieser Bezeichnung bekannt. Früher sagte man zum Beispiel auch
Data Mining dazu. Das Grundprinzip von Data Science ähnelt dem der klassischen
wissenschaftlichen Methodik: Ich stelle eine Hypothese auf, generierte und
analysiere zugehörige Daten und suche nach Hinweisen, die die Hypothese
bestätigen oder widerlegen.
Wo liegen die Einsatzmöglichkeiten und Grenzen von Data Science?
Die Anwendungsfelder sind, wie schon erwähnt, vielfältig und auch mittlerweile
immer breiter gefächert. Der Mehrwert besteht von der Messung und Beurteilung
von Kennzahlen und Leistungsparametern, bis hin zu Recommender-Systemen wie bei
Amazon, die in der Lage sind, eigenständig personalisierte Vorschläge zu
machen. Es beginnt bei Datenaufbereitung und einfachen Analysen und
Visualisierungen und geht bis zu „better-than-human“ neuronalen Netzen wie zum
Beispiel Google Alpha Go. Einen großen Mehrwert kann man aber oft schon mit
ganz einfachen Analysen schaffen.
Welche besonders spannenden Anwendungen von Data Science kommen dir in
den Sinn?
Kürzlich war ein Bericht in den Medien über die erste KI, die langfristig
besser Poker spielen kann als Menschen. Interessant finde ich auch die gerade
stattfindende Obstacle Tower Challenge von Unity, ein interaktives
Computerspiel, das die Möglichkeiten von KI eindrucksvoll an seine Grenzen
bringt. Beeindruckend sind auch Services wie Spotify, wo ich schon von vielen
Menschen gehört habe, wie zufrieden sie mit der Auswahl von Musik sind. Zentral
ist hier die Möglichkeit, Kunden bzw. User individualisiert ansprechen zu
können. Ein wichtiges Thema im CRM. Eindrucksvolle und gut erprobte Felder sind
aber auch Optimierungen in der Warenwirtschaft, Churn Predicion, Image
Processing und Fraud Detection.
Hast du selbst auch schon interessante Erlebnisse mit der Amazon Recommender-Funktion
gehabt?
Natürlich, ich überlege dann immer wie es zu diesen Vorschlägen kommt. Ich
kenne viele Menschen, die sagen: „Wow, ich liebe diese Funktion!“, und andere,
die sie gefährlich finden, weil sie dann mehr konsumieren. Wieder andere sagen:
„Das funktioniert ja überhaupt nicht!“ – und da denke ich, die Crux ist oft die
Erwartungshaltung: Für mich als Mathematiker ist klar, dass das System nicht
perfekt sein kann, weil es nur einen wahrscheinlichen Fall
vorschlägt. Das geht es um nüchternes Kalkulieren von Wahrscheinlichkeiten, das
oft nicht mit dem menschlichen Schwarz-Weiß-Denken harmoniert. Es ist auch eine
Frage der Erwartungshaltung, ob ich es wertschätzen kann, dass ich mithilfe von
Daten meine Vorhersagen zweifellos verlässlicher treffen kann als ohne. Wenn
Amazon dank Recommender auch nur 0,5 % mehr Umsatz generiert, ist das gewaltig.
Und dafür braucht es keine zu 100 % zutreffenden Vorhersagen.
Das ist wie mit dem Wetterbericht, oder? Besser als das Bauchgefühl ist
er allemal, auch wenn immer gejammert wird.
Genau. Als Mathematiker kann man das nüchtern sehen, vor dem Hintergrund von
Wahrscheinlichkeiten, auch wenn es manchmal schwerfällt. Auch mit den
Wahlprognosen ist das eine ähnliche Geschichte, man muss hier immer die
angegebenen Schwankungsbreiten mitberücksichtigen.
Data Science, KI, maschinelles Lernen: Wie grenzt man diese Bereiche
voneinander ab?
Dies ist eine sehr spannende Frage, die in Zeiten von Hypecycles naturgemäß
nicht immer ganz eindeutig zu beantworten ist. Teilweise sind die Themen auch
so neu, dass sich eine gültige Definition erst herauskristallisieren muss. Für
mich ist Data Science ein relativ breiter Begriff, der vor allem im Lösen von
Problemen mittels Daten verankert ist. Dazu bedient man sich vieler Methoden,
muss aber auch viel Verständnis für die Fragestellung an sich mitbringen. Dies
ist sehr oft auch einer der wichtigsten Punkte: Was ist denn genau das Problem,
das es zu lösen gilt?
Eine der Methoden, der sich ein Data Scientist bedienen kann, ist das Maschinelle Lernen. Das bedeutet, dass ein Algorithmus aus Daten lernt, ein konkretes Problem zu lösen. Zu Beispiel wird aus Sprache ein digitales Audiosignal, und daraus lernt ein Algorithmus den Inhalt als Text wiederzugeben. Das kann man sich ein bisschen so vorstellen wie Schulkinder beim Diktat. Und Computer können heutzutage SEHR viele Diktate in kurzer Zeit machen.
Eine Art von Algorithmen für Maschinelles Lernen sind die sogenannten neuronalen Netze oder auch in speziellerer Form die Deep-Learning-Algorithmen. Sie haben unter anderem eine besondere Eigenschaft: Sie lassen sich sehr gut skalieren. Dazu gehört, dass sie mit mehr Daten auch besser werden, was aber nicht notwendigerweise sein muss. Darin steckt ein ungemeines Potenzial, und dafür wurde auch der Begriff „KI“ geprägt. Zum einen wird also KI pseudonym für diese Klasse an Algorithmen verwendet, aber durchaus auch im wörtlichen Sinne. Also eine Maschine, die intelligent ist.
Daten – das „Gold“ der heutigen Zeit – abgedroschen und/oder wahr?
Im englischsprachigen Raum spricht man gerne von „data is the new oil“. Aber
der Sinn bleibt ähnlich. Wichtig ist es jedenfalls, den Schatz heben zu können,
was mit viel Arbeit verbunden ist, und dazu kann ich mit Data Science einen
Beitrag leisten. Das Potenzial sehe ich aber in jedem Fall als gewaltig an,
aber man muss etwas daraus machen.
Es braucht also den engagierten und kreativen Goldschmied, der etwas aus
dem Gold macht.
Genau. Die Ölmetapher gefällt mir eigentlich ein bisschen besser, weil die Zeit
des großen Öl-Förderns auch ein gewisser Boom war. Das ursprünglich wertlose
Erdöl wurde erst durch die daraus gewonnen Produkte wertvoll, und diese mussten
auch erst entwickelt werden. Den Goldrush gab es zwar auch, aber Gold war an
sich schon immer sehr wertvoll.
Angeblich soll Winston Churchill einmal gesagt haben: „Ich traue keiner
Statistik, die ich nicht selbst gefälscht habe.“ Wie sieht es mit Data Science
aus: Handelt es sich um eine exakte Wissenschaft oder kann man jede Analyse
letztendlich so steuern, dass sie zum gewünschten Ergebnis führt?
Dies ist natürlich machbar, aber nicht Sinn der Sache. Aus meiner Sicht hat
Data Science sehr wohl einem wissenschaftlichen Anspruch zu genügen, und damit
hat dieses Tätigkeitsfeld auch viel gemeinsam. Das Wort Wissenschaft bzw.
Science ist ja schon im Namen vorhanden, und auch das Prinzip ist gültig: Man
generiert Daten und trifft auf dieser Basis Entscheidungen über Hypothesen. Bei
Data Science geht es immer um Wahrheitsfindung, auch wenn man als Data Scientist
oft mit Kompromissen umgehen und Lösungen finden muss, die nahe an der Wahrheit
liegen und Kriterien wie ein optimales Kosten-Nutzen-Verhältnis erfüllen.
Wie kann Data Science Softwareprojekte bereichern?
Im Bereich Data Science arbeitet man
natürlich auch mit Code und Programmiersprachen, und deshalb gibt es hier viele
Bereiche, die sich überschneiden.
Zum einen professionalisiert sich die Arbeitsweise von Data Science zunehmend, und hier kommen vor allem viele Konzepte aus der Softwareentwicklung zum Zug.
Zum anderen wird die Nutzung von Daten innerhalb von Softwareanwendungen immer stärker und auch die Art und Weise, wie bzw. welche Teile programmiert werden müssen. Ganz plakativ hat Andrej Karpathy vor zwei Jahren maschinelles Lernern als „Software 2.0“ bezeichnet. In ketzerischer Weise postuliert er damit, dass Maschinen schneller besseren und komplexeren Code schreiben als Menschen.
Data Scientists entwickeln innovative Konzepte in den Bereichen
Datenbanktechnologie und Informationswissenschaft, wenden u.a. Methoden
der Informationsvisualisierung, Datenanalyse und Wissensentdeckung in
Datenbanken an. Ist das auch deine Rolle bei Axtesys?
Ja, ich denke, dass ich mich da stark einbringen kann dabei, dass wir unsere
Kunden dabei unterstützen, ein Mehr aus ihren Daten herauszuholen und sie
nutzbar zu machen. Dabei geht es insbesondere darum, die relevanten Daten zu
identifizieren und damit bessere Entscheidungen zu ermöglichen, zum Beispiel
durch Visualisierungen und Benchmarking von KPIs. Data
Science kann die bekannten Stärken von
Axtesys bei der Digitalisierung durch Individualsoftware unterstützen und erweitern, was für Unternehmen große
Kostenersparnisse bringt. Es handelt sich sozusagen um den nächsten Schritt bei
der Digitalisierung, über die Digitalisierung von Prozessen hinaus. Es geht um
das Überwachen von Daten, das Beobachten von Entwicklungen und, im Idealfall,
sogar um die Entwicklung neuer Produktideen. Das kann man recht gut aus der
Reifegrad-Grafik ablesen.
Im einfachsten Fall geht es um eine beschreibende Analyse, man schaut zurück und sieht sich an, was passiert ist – vielleicht ist eine Maschine kaputt geworden. Im nächsten Schritt analysiert man, warum es dazu gekommen ist. Danach kann ich mich mit dem Blick in die Zukunft auseinandersetzen, wann die Maschine das nächste Mal kaputt werden wird. Im vierten und letzten Schritt wird aus den möglichen Szenarien das wahrscheinlichste identifiziert. Das könnte man auch mit Geschäftsfeldern tun – man erstellt Forecasts und anhand der Daten identifiziert man das wahrscheinlichste Szenario und trifft auf dieser Grundlage eine fundierte strategische Entscheidung.
Ein anderes Bespiel für einen präskriptiven Fall wäre ein Schachcomputer. Es ist nicht möglich, alle Szenarien einer gegebenen Stellung durchzuprobieren und den damit zum Sieg führenden Zug zu finden. Alternativ werden verschiedene Züge daraufhin überprüft, welche Stellung sie herbeiführen könnten (prädiktiv). Die Auswahl des optimalen Zuges wird dann zusammen mit einer Bewertung der vorhergesagten Stellung getroffen (präskriptiv). Wie wir wissen, funktioniert dies bei Schach schon sehr gut.
Welche Vorteile kann Data Science mittelständischen Unternehmen bieten?
Sehr viele, denke ich. Gerade hier ist oft viel Potenzial aus Daten zu heben
und es gibt viele Quick Wins. Man muss nicht gleich mit KI arbeiten, es reichen
oft schon einfache Datenanalysen, um großen Nutzen zu erzielen. Andererseits
bietet Data Science auch viel Potenzial für Unternehmen, um die lebenswichtige
Innovation zu erzielen. Oft liegt der Mehrwert darin, die Methodik des
datengetriebenen Arbeitens in den Unternehmensalltag einzubringen, in den
Prozessen zu verankern und in die Arbeitshaltung zu integrieren. „Data-driven
companies“ sind nicht von ungefähr ein großer Trend.
In Finnland wurde zum Beispiel letztes Jahr das „Elements of AI“-Projekt gestartet, mit dem Ziel, möglichst vielen Finnen den Umgang mit maschinellem Lernen und KI-Methoden näherzubringen. Als Start wird ein kostenloser Online-Kurs angeboten und Firmen wie Elisa und Nokia haben angekündigt, alle Ihrer Mitarbeiter auszubilden. Bisher haben 170.000 Personen für den Kurs angemeldet, 40 % davon Frauen.
Eine scherzhafte Frage: Du bist ein Familienmensch. Welche Data-Science-Anwendung könnte deine Familie gut brauchen?
[lacht] Mit kleinen Kindern hat man ja immer das Thema „hungrig und müde“, daher hätte ich gerne eine Voraussage darüber, wie der Unterzuckerungsgrad, der Blasenfüllstand und der Müdigkeitsgrad der Kinder sein wird. Das frühzeitig zu erkennen, könnte das Familienleben oft deutlich erleichern und viele Probleme ersparen [lacht].
Die wesentlichen Kennwerte für Familienharmonie… [lacht]
Aber im Ernst ‒ ich mache immer wieder Analysen über unseren Haushalt und denke
oft über Lösungen mittels Daten nach. Natürlich analysiere ich auch meinen
Trainingszustand und die Kilometer, die ich mit dem Fahrrad zurückgelegt habe.
Deine Ziele bei den Kilometeranalysen? Dass du rechtzeitig umdrehen
kannst, bevor die Familien-Kennwerte in Gefahr sind?
Genau, die allerwichtigste Vorhersage ist die Antwort auf die Frage: Wann bist
du denn vom Radfahren wieder zurück? [lacht]
Du bist wirklich Data Scientist mit Leib und Seele ‒ triffst
du deine Entscheidungen rationaler als ein Nicht-Mathematiker?
Ich für mich möchte gute und nachhaltige Entscheidungen treffen. Dies ist aus
meiner Sicht sicher kein Privileg als Mathematiker.
Zur Person:
Simon Klima studierte Mathematik und Statistik an der TU Graz und an der TU Wien.
Seit 2019 ist er bei Axtesys als Data Scientist tätig. Seine Tätigkeitsschwerpunkt ist die Arbeit mit Methoden der Data Science, um aus Daten Mehrwert zu generieren und die nächsthöhere Entwicklungsebene von Digitalisierung zu erreichen.