Data Scientists sind heiß begehrt: Experten erläutern eine Rolle, die zwischen Big Data, Analytics und Business Intelligence angesiedelt ist. [...]
89 Euro. So viel verlangen IT-Freiberufler laut der Vermittlung Gulp aktuell für eine Arbeitsstunde, wenn sie sich auf Big Data spezialisiert haben. Werden alle Stundensätze der IT-Freien zusammengezählt, ergibt sich mit 83 Euro ein niedrigerer Wert. Diese Zahlen alleine verrät, dass Spezialisten in diesem Bereich gesucht sind – Data Scientists zum Beispiel. Das Gehalt bei Festangestellten sollte dementsprechend angesetzt werden.
Laut einer aktuellen Studie des US-amerikanischen Beraters Winter Wyman unter rund 620 IT-Positionen beziehen Big-Data-Engineers bis zu 15.000 US-Dollar Jahresgehalt mehr als Spezialisten für das User Interface und bis zu 27.000 US-Dollar mehr als Software-Engineers.
Was soll ein Data Scientist können?
Das Problem vieler Unternehmen: Sie wissen zwar, dass sie Datenkönner benötigen; aber nicht unbedingt ist ihnen klar, was genau die Könner können sollten und wie man sie findet. Immerhin gibt es derzeit eine Reihe grundlegender Antworten auf diese drängenden Fragen, zum Beispiel den BI-Experten Wolfgang Martin und Peter Lehmann, Professor an der Hochschule der Medien (HdM) in Stuttgart.
Die Nöte der Unternehmen gründen offenbar darin, dass dem Jobprofil etwas Unwirkliches anhaftet. Man kreuze ein Schaf, ein Huhn und eine Kuh, und schon hat man immer Wolle, Eier und Milch. Klappt halt nicht.
Die analytischen Fertigkeiten eines Wissenschaftlers und die Kreativität eines Künstlers kombiniert die Idealbesetzung am besten noch mit IT-Knowhow. Einstein, Michelangelo und Bill Gates in einem, das wär’s. Aber gibt’s diesen Superhelden? Anders betrachtet spricht selbstverständlich nichts dagegen, dass Informatiker analytische Begabung mitbringen. Und kaum etwas, dass viele von ihnen auch kreativ Probleme lösen können. Die benötigten Fertigkeiten in ihrem Zusammenspiel müssen gleichwohl ausgebildet werden.
Data Scientists kommen oft aus dem Business
So bietet die Hochschule der Medien in Stuttgart eine berufsbegleitende Weiterbildung „Data Science and Business Analytics“ an. Dazu Professor Peter Lehmann: „Die Bewerber kommen zu achtzig Prozent aus dem Business und nicht aus der IT! Das haben wir so nicht erwartet, aber ich freue mich darüber sehr.“ Wie stark der Bedarf an solchen Spezialisten ist, zeigt sich an der Liste der Unterstützer: der Pharmakonzern Roche hat am Inhalt der Weiterbildung mitgearbeitet, abgestimmt wurde das Ganze auch mit so unterschiedlichen Firmen wie Daimler, Bosch, Lufthansa, Otto und der Swiss Re.
Außerdem bietet in Deutschland beispielsweise das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) in Sankt Augustin bei Bonn entsprechende Schulungen an. Und die potenziellen Anwender von Big Data müssen wissen, wohin sie mit der Datenanalyse eigentlich wollen.
BI-Spezialist Wolfgang Martin umreißt die Rolle eines Data Scientists so:
- Er verantwortet die aus dem CTF abgeleitete Methodologie von Big-Data-Analytik im Unternehmen.
- Er arbeitet gemäß Donohos „Greater Data Science (GDS)“, das beinhaltet Datenexploration und Datenvorbereitung, Datenpräsentation und Transformation, Durchführung der notwendigen Rechenoperationen und Anwendung der entsprechenden Algorithmen, Datenmodellierung (im Rahmen der Data-Scientist-Projekte) und Datenvisualisierung.
- „Der Data Scientist kommuniziert die Projektergebnisse in einfacher, klar verständlicher Sprache vor allem auch mit Hilfe von Anekdoten und liefert einfach verständliche und nachvollziehbare Sachverhalte, die auf Fakten basierende Unternehmensentscheidungen erlauben“, erklärt Martin. Und weiter: „Er oder sie ist maßgeblich beteiligt bei der Auswahl von Technologien für Big-Data-Analytik, die möglichst bimodal einsetzbar sein sollen.“
- Außerdem haben Data Scientists eine Schnittstelle zum Datenschutzbeauftragten, der über die Einhaltung der gesetzlichen Regelungen bei der Datenbeschaffung und Analyse wacht. Gemeinsam sollten sie sich als „Anwälte von Big-Data-Ethik“ verstehen, fordert Martin.
Fünf wichtige Punkte
Der Berater Jonathan Hassell erklärt auf unserer Schwesterpublikation cio.com: „Der perfekte Kandidat ist ein Zahlengenie und ein Gelehrter in Firmenpolitik, der mit statistischen Computersprachen umgeht wie ein Konzertpianist“. Aber es sei schwierig, dieses Ideal in eine praktische Jobbeschreibung und die dazu passenden Suchkriterien zu übersetzen. Der Experte empfhielt für die Rekrutierung eine enge Zusammenarbeit zwischen IT und Personalabteilung. Er nennt fünf Punkte, auf die es zu achten gilt:
1. Statistisches Verständnis: Ein Data Scientist muss aus einer Fülle von Daten die nützlichen Informationen filtern und dabei mit Zahlenbergen so versiert sein, dass Trends frühzeitig erkannt werden. Ein Hochschulabschluss in Mathematik wäre wünschenswert, meint Hassell. Es sei aber davon auszugehen, dass die meisten Kandidaten praktischere Bildungswege eingeschlagen hätten – Informatik oder Ingenieurswissenschaften in aller Regel.
„Lassen sie sich nicht abschrecken, wenn Bewerbern fortgeschrittene Mathematikkenntnisse fehlen“, rät Hassell. „Ein Augenmerk auf Statistik in der akademischen Karriere sollte für die Rolle ausreichen – egal ob auf Bachelor-Niveau oder höher.“
2. Neugierde ist essenziell: Hassell lobpreist die Wissbegierde potenzieller Data Scientists; er meint damit das, was gemeinhin als Kreativität bezeichnet wird. Um der Aufgabe gerecht werden zu können, müssen Datenbankabfragen nämlich nicht nur umgesetzt werden. Der Datenspezialist sollte weiterdenken, selbst die richtigen Fragen konzipieren, auf die sonst im Unternehmen niemand kommt und die Gewinnchancen eröffnen.
Hassell empfiehlt, diese Fähigkeit anhand hypothetischer Szenarien im Vorstellungsgespräch zu testen. „Man sollte den Bewerbern dabei sagen, dass Denken abseits ausgetrampelter Pfade erwünscht ist und Antworten nicht auf die Problemstellung verengt werden sollten“, so der Berater.
3. Fachwissen über Datenbanken: Ein guter Data Scientist kennt sich mit dem Design und der Implementierung von Datenbanken aus – auch wenn das nicht zur oberflächlichen Betrachtung von Big Data passt. „Auch wenn unter diesem Begriff insbesondere unstrukturierte Daten subsummiert werden, hilft ein grundlegendes Verständnis sowohl relationaler als auch säulenartiger Datenbanken weiter“, so Hassell.
Big Data möge sexy sein, aber viele nützliche Informationen und Trends könnten aus traditionellen Datenbanken destilliert werden. Kenntnisse in diesem Bereich seien auch sinnvoll, um neue, anspruchsvollere Systeme aufsetzen zu können.
Hinzu komme, dass viele Entwickler von Big Data-Software bewusst SQL-ähnliche Sprachen verwenden. Klassische Administratoren sollen nämlich nicht verschreckt werden, wenn sie sich nicht auf MapReduce einlassen wollen. „Traditionelles SQL-Wissen wird weiter Dividenden abwerfen“, meint Hassell.
4. Basisfertigkeiten in Skriptsprachen: Die besten Bewerber beherrschen nach Einschätzung von 82 Ventures auf alle Fälle die im Big Data-Umfeld angesagte Skriptsprache Python. „Python ist eine Open Source-Sprache, die als leicht verständlich und praktisch in der Anwendung gilt“, erläutert Hassell. „Sie sollte keine allzu hohe Hürde darstellen.“ Professor Lehmann nennt auch R, da diese Sprache in der BI-Software von SAP, Microsoft und Co sehr gut integriert ist.
Testen könne man außerdem grundsätzlich, wie Bewerber mit Pseudo-Codes umgehen oder ob sie Algorithmen und Abfragen in normaler Sprache erklären können, fügt Hassell an. Können sie das, sollte die Aneignung von Sprachkenntnissen kein Problem sein. Auch Martin und Lehmann betonen, dass es nicht auf die Sprache allein ankommt – sondern auf die Integration in die Tools.
5. Kein Lohndumping: „Man sollte nicht versuchen, unter marktüblichem Tarif zu bezahlen“, schreibt Hassell. „Sogar Startups entlohnen Data Scientists erklecklich und ermöglichen ihnen die Arbeit an spannenden Produkten.“
Professor Lehmann von der HdM resümmiert: „Data Science ist nichts für Ungeduldige. Ein Data Scientist braucht einen langen Atem und viel Gespür für Zusammenhänge. Data Science ist leider eine Sysyphus-Arbeit.“ Die aber „lohnt sich ungemein“, verspricht er.
5 Typen von Data Scientists
Die Aufgaben des Business Developer: Business Developer blicken tief in die Geschäftsprozesse und können Unternehmensziele mit Datenanalysen in Verbindung bringen. Sie entwickeln eine erste Fragestellung oder decken ein Problem auf, das anhand der erhobenen Daten gelöst werden soll. Als Schnittstelle zwischen Geschäftswelt und Technik kann er den Nutzen der Analyseergebnisse am besten einschätzen und arbeitet daher eng mit dem Data Analyst zusammen.
Die Aufgaben des Data Analyst: Der Data Analyst besitzt profunde Kenntnis über datengetriebene analytische Methoden, Data Mining-Verfahren und Techniken der Datenvisualisierung. Mit ihnen können Datensätze automatisch klassifiziert oder hinsichtlich ihrer Ähnlichkeit gruppiert werden. So kann der Data Analyst die Aussagekraft der Daten bewerten und relevante Muster und Auffälligkeiten in den Datenströmen erkennen.
Die Aufgaben des Data Manager: Der Data Manager sorgt dafür, dass die Qualität der Daten optimiert wird und sie durch Metadaten ausreichend beschrieben werden. Dazu zählt, dass sich der Data Manager einen Überblick über die Nutzungsrechte verschafft und bei sensiblen Daten weiß, wofür diese verwendet werden dürfen.
Die Aufgaben des Application Developer: Der Application Developer setzt die Plattform auf, auf der die Daten integriert und die Anwendungen entwickelt und installiert werden. Er beherrscht verschiedene Werkzeuge zur Parallelisierung und Echtzeitverarbeitung, so dass die statistischen Modelle des Data Analysten auch auf großen Datenmengen genutzt werden können.
Die Aufgaben des Security Manager: Der Security Manager sorgt dafür, dass die Zusammenführung, Anreicherung und Analyse von Daten keine Rückschlüsse auf Einzelpersonen zulässt und damit die Persönlichkeitsrechte verletzen könnte. Der Security Manager muss also den Datenschutz organisatorisch und technisch umsetzen.
* Werner Kurzlechner und Christiane Pütter schreiben für CIO.de.
Be the first to comment