Consol führt beim internationalen Mobile-Health- und Fitness-Unternehmen Runtastic eine neue Big-Data-Plattform auf Basis von Apache Hadoop ein. [...]
Das Linzer Vorzeige-Startup Runtastic, heute Teil der Adidas-Gruppe, bietet Produkte und Dienstleistungen rund um die Erfassung und Verwaltung von Sportdaten an. Die Daten werden auf Runtastic.com geladen, wo sich die Nutzer ihr Trainingstagebuch ansehen können, Zugang zu detaillierten Analysen haben und sich mit der Community beispielsweise via Facebook-Synchronisierung austauschen können. Bei weltweit rund 80 Millionen registrierten Nutzern entstehen dabei täglich rund 10 GB an Rohdaten.
Die von Runtastic generierten Daten wurden bislang in einem MS SQL Server basierten Data Warehouse (DWH) abgelegt und analysiert. Mit steigender Nutzerzahl und dem rasanten Wachstum der Datenmenge stieß diese Lösung jedoch an ihre Grenzen. Anstatt die vorhandene DWH-Lösung auszubauen, hat sich Runtastic entschieden, Teile der Funktionalität des DWH in einem Hadoop-Cluster zu realisieren. Dieser speichert die Rohdaten und bereitet sie so auf, dass sie weiterverarbeitet werden können. Auf diese Weise kann das bestehende DWH-System weiter genutzt werden – eine teure Erweiterung oder Neu-Installation wird vermieden.
Rohdaten, welche vor allem aus Sportdaten der Nutzer sowie Event-Daten bestehen, werden instantan im Cluster gespeichert. Ebenso lädt Runtastic bereits bestehende Daten aus dem DWH sowie aus Azure in das Cluster. Liegen dort alle Daten im Rohformat vor, ist es einfach, Analysen zu fahren und zukünftig neue Funktionalitäten auf dem Hadoop-Cluster zu implementieren, wie komplexe Algorithmen, etwa um Sportprofile einzelner Nutzergruppen erstellen zu können.
INVESTITIONEN SCHÜTZEN
„Drei Dinge bei diesem Projekt waren uns wichtig“, erläutert Christoph Reininger, Head of Business Intelligence bei Runtastic. „Erstens, dass wir die steigenden Datenmengen unserer Nutzer besser und auch kostengünstig speichern können. Zweitens, dass wir dazu unser bestehendes Data Warehouse weiterhin benutzen und somit unsere Investition schützen können. Und Drittens, dass wir zukünftig sehr schnell auch komplexe Analysen parallel fahren können. Alle drei Kriterien erfüllt das Konzept von Consol. Wir sind bei der Dienstleisterauswahl einer Empfehlung von Cloudera gefolgt und überzeugt, mit Consol den richtigen Partner gefunden zu haben.“
Die Plattform basiert auf Apache Hadoop in einem Cluster aus acht Nodes mit insgesamt bis zu 200 Terabyte nutzbarem Storage. Zum Einsatz kommt Cloudera Enterprise 5.5. Geplant ist der Ausbau der Plattform als „Data Lake“, auf dessen Basis die Data Scientists von Runtastic zukünftig arbeiten werden.
Bei dem Big-Data-Projekt hat Consol sowohl bei der Software-Architektur als auch dem Design beraten und unterstützt bei der Implementierung, dem Deployment sowie dem Betrieb. Dabei kann bei Bedarf sogar per Remote-Lösung von der Düsseldorfer Consol-Niederlassung aus unterstützt werden. Die Entscheidung für Consol fiel aufgrund der Erfahrung und des Know-how im Bereich Apache Hadoop und bei umfangreichen Big-Data-Projekten. Projektstart war im November 2015, der Go-Live soll sukzessive im ersten Halbjahr 2016 erfolgen.
Be the first to comment