Data Lake: Big Data für alle Mitarbeiter

Ein neuer Trend greift um sich: Das neue Self-Serve-Portal der deutschen Versicherungsgesellschaft Munich Re ermöglicht seinen Mitarbeitern den Zugriff auf einen Datensee, in der Hoffnung, auf diese Weise neue Geschäftsmodelle entdecken zu können. [...]

Zentralisiertes Repository für alle strukturierten und unstrukturierten Daten (c) pixabay.com
Zentralisiertes Repository für alle strukturierten und unstrukturierten Daten (c) pixabay.com

Auf dem Dataworks Summit in Berlin gab Andreas Kohlmaier, Leiter der Datentechnik bei Munich Re, bekannt: „Das Spiel hat sich in den letzten Jahren verändert. Es geht nicht mehr länger darum, wer die besten Experten oder das beste Wissen im Unternehmen hat, sondern vielmehr darum, wer den Zugang zu den richtigen Datenquellen besitzt – und wer die richtige Technologie zur Analyse und Verarbeitung dieser Daten hat.“

Das Unternehmen hat es sich im letzten Jahr zur Aufgabe gemacht, ihren Experten die Möglichkeit zu geben, Daten und Technologien selbstständiger nutzen zu können, „um das zu tun, was wir schon seit mehr als hundert Jahren tun, nur besser. Damit wir schnelle Antworten auf neue Risiken finden und vielleicht sogar ein paar großartige und innovative Geschäftsmodelle entdecken.“, fügte er hinzu.

Munich Re beschäftigt mehr als 40.000 Mitarbeiter und versichert Versicherungsunternehmen effektiv gegen komplexe und größere Risiken wie Naturkatastrophen, weitläufige Infrastrukturprojekte und neuste Risiken im Bereich der Cybersecurity. Das bedeutet, dass es spezialisierte Underwriter beschäftigt, die zunehmend auf einen ständigen Datenfluss angewiesen sind, um anderen Unternehmen bei der Entscheidungsfindung helfen zu können. „Die Hurricane-Saison im letzten Jahr war eine der verheerendsten und teuersten aller Zeiten. Wir haben Experten in unserem Unternehmen, die das Wetter wirklich verstehen und die Auswirkungen des Klimawandels genau kennen“, so Kohlmaier.

Man muss sich erst beweisen

Im Jahr 2015 leitete Kohlmaier den ersten Proof-of-Concept mit dem Reservierungsteam von Munich Re, das sich um die für eventuelle Schadenszahlungen vorgesehenen Geldpools kümmert. Ziel war es, einen Teil des Geldes zu erschließen, der am wenigsten genutzt wurde, und ihn an anderer Stelle im Unternehmen wieder einzusetzen.

Kohlmaier erklärte: „Immer, wenn sie ihr Geschäftsmodell testen und optimieren wollten, dauerte es eine halbe Ewigkeit: Zuerst mussten sie einige Beispieldaten entnehmen, anhand derer sie schließlich die Iteration des Modells durchführten. Dann musste das Modell in die Produktion implementiert und anschließend auf den ganzen Datensatz ausgerichtet ausgeführt werden. Eine Iteration dauerte also ganze 5 bis 7 Tage.“

Indem sie die Daten in eine In-MemoryDatenbank luden, konnten die Mitarbeiter des Reservierungsteams die Modelle direkt auf dem gesamten Datensatz trainieren und ausführen. Die weitere Arbeit mit dem Datensatz erwirtschaftete Millionen von Euro für das Unternehmen. Natürlich erregte ein solcher Erfolg Aufsehen, auch in den richtigen Positionen der Firma. Dort fragte man sich bald: „Was passiert wohl, wenn wir jedem Mitarbeiter der Firma Zugang zu Daten und Technologien geben?“

Andreas Kohlmaier auf der Dataworks Summit 2018 in Berlin (c) computerworlduk.com

Die Antwort auf die Frage war schon bald ein gemeinsamer Data Lake, der allen Mitarbeitern von Munich Re gleichermaßen zugänglich sein sollte: „Also haben wir in unsere Infrastruktur investiert, die notwendigen Tools für die Datenplattform ausgewählt, erste Datenquellen in den Katalog aufgenommen und die notwendigen Berechtigungen vorbereitet“, sagte Kohlmaier.

Die daraus entstandene Plattform – die übrigens auf den Open-SourceBig-Data-Technologien des Herstellers Hortonworks basiert – wurde im Januar 2017 mit einer knappen Ankündigung im Intranet des Unternehmens lanciert.

Kohlmaier ging davon aus, dass nur rund 50 Personen im gesamten Unternehmen Zugang zum Datensee beantragen würden. Doch nach nur einem Tag hatten sich bereits 200 Personen registriert und erstmals auf der Plattform eingeloggt. Dies führte zu einiger Verwirrung – schließlich war man sich gar nicht richtig bewusst, wie viele Mitarbeiter tatsächlich Interesse an einer Partizipation am Data Lake haben würden. Nach nur einer Woche hatten sie bereits 500 registrierte Nutzer zu verzeichnen, was zu diesem Zeitpunkt „eine ganze Reihe neuer Herausforderungen“ hervorbrachte“, wie Kohlmaier formulierte.

Nun galt es, sich auf eine ganz neue Basis an Nutzern auszurichten, die allesamt eine ausgefeilte Point-and-Click-Analyseplattform erwarteten. Im Laufe es nächsten Jahres arbeitete man bei Munich Re daran, die Plattform zugänglicher zu machen, indem man die Technologie des Self-Service-Analyse-Spezialisten SAS mit einbrachte und die Plattform so umbaute, dass sie insgesamt benutzerfreundlicher wurde. Im Oktober 2017 wurde der Data Lake 2.0 schließlich offiziell eröffnet.

Einsatz der Datenjäger

Um die neuen Nutzer ausreichend zu unterstützen, hat Munich Re ein zugehöriges Datenerfassungsteam eingerichtet, das ermitteln soll, welche Datenquellen in den Datensee gelangen und auf welchem Qualitätsniveau dies geschieht. Das Unternehmen setzte auch ein Team von sogenannten „Data Hunters“ (Datenjägern) ein, um „nach interessanten Datenquellen für Ihren Anwendungsfall innerhalb und außerhalb des Unternehmens zu suchen“, wie Kohlmaier erklärte.

„Wenn Sie also eine gute Idee haben und wissen, was Sie tun möchten, ein bestimmtes Datenelement dazu aber nicht finden können, werden die Data Hunters darauf angesetzt. Sie helfen Ihnen dabei, die fehlenden Daten zu finden, sie zu erfassen, zu bereinigen, vorzubereiten und in den Datensee einzufügen, um sie nutzbar zu machen.“, fügte er hinzu.

Die Data Hunters sind darauf ausgerichtet, die fehlende Daten aufzuspüren, zu verarbeiten und dem Datensee hinzuzufügen (c) pixabay.com

All dies hat dazu geführt, dass es nun ein spezielles, umfassendes Trainingsprogramm zum Verständnis des Data Lake bei Munich Re geben wird. „Sie werden auf jeden Fall ein spezielles Ausbildungsprogramm für Data Engineering und Data Science brauchen“, riet Kohlmaier. Das Unternehmen will in diesem Jahr rund 2000 Mitarbeiter in den Bereichen Data Engineering, Data Modelling und Analyse ausbilden.

„Ich persönlich habe keine Ahnung, was im nächsten Jahr passieren wird, wenn 10.000 Menschen mit dem Data Lake arbeiten, aber ich bin mir ziemlich sicher, dass es äußerst interessant werden wird“, schloss er.

*Scott Carey ist Redakteur bei Computerworld UK.


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*