Rasant wachsende Datenmengen stellen Unternehmen vor neue Herausforderungen und vor allem vor die Frage: Mit welchem System soll die Datenflut gebändigt werden, um einen größtmöglichen Nutzen herauszuholen? [...]
Das Trendthema Big Data sorgt derzeit für Begeisterung, aber auch Verwirrung in manchen Anwenderunternehmen: Für IT-Entscheider lautet die wesentliche Frage: Kann der Nutzen, den Big Data verspricht, auch mit den bereits vorhandenen, einfacheren Mitteln – sprich einem Data Warehouse – erreicht werden? Data-Warehouse-Systeme enthalten Datenbestände, die periodisch aus Transaktionssystemen entnommen, gefiltert und zu Analysezwecken aggregiert werden. Häufig wird ein Data Warehouse in täglichen Ladevorgängen mit Daten befüllt und hat deshalb eine Latenzzeit, was die Aktualität der Daten betrifft, von einem Tag.
Die Pivottabelle ist das am meisten benutzte Analyseinstrument im Umfeld von Data Warehousing. Auch der Einsatz anderer statistischer Verfahren – Stichwort Data Mining – ist im Data Warehouse möglich, jedoch nicht so verbreitet wie Pivottabellen. Der Hauptgrund dafür sind die aggregierten, grobkörnigen Daten, die statistisch lohnende Eigenschaften ausblenden und darauf basierende statistische Analysen so ausschließen. Ein weiterer wichtiger Grund ist die Komplexität der Data-Mining-Verfahren.
BIG DATA UND BIG DATA ANALYTICS
Die Definitionskriterien von Big Data sind je nach Quelle unterschiedlich. In einem sind sich jedoch alle einig: Bei Big Data handelt es sich um Datenmengen, die mit herkömmlichen Mitteln nicht mehr effizient zu verwalten sind. Dazu gehören nicht aggregierte, in Echtzeit ermittelte Daten, die beispielsweise aus Transaktionssystemen, wissenschaftlichen Versuchen, Simulationen oder Sensoren stammen.
Neben Big Data hat sich der Begriff Big Data Analytics etabliert. Letztere umfassen analytische Verfahren, um Erkenntnisse aus großen Datenmengen zu gewinnen. Wann ist ein Data Warehouse einem Big-Data-System ebenbürtig oder sogar vorzuziehen? Die nachfolgenden Einsatzszenarien geben eine Antwort.
1. Big-Data-Systeme setzen Mustererkennung ein, um Trends und Muster rechtzeitig zu identifizieren sowie bislang unbekannte oder vermutete Beziehungen zwischen einzelnen Parametern zu entdecken. Systeme, mit denen sich Zeitreihen auf Anomalien prüfen lassen, werden beispielsweise dazu verwendet, potenziellen Kreditkartenbetrug in Echtzeit aufzudecken. Im Gegensatz zu herkömmlichen Data Warehouses sind Real Time Data Warehouses aber anspruchsvoll und stellen daher in der Praxis eher die Ausnahme dar.
2. Die Feinkörnigkeit und die kurzen Latenzzeiten der Datenbestände von Big Data bilden wichtige Voraussetzungen zur Segmentierung in Echtzeit, wie zum Beispiel bei Online-Einkäufen. Verbreitet ist die Bildung von Kundensegmenten, etwa um individuelle Angebote für komplexe Produkte zu erstellen – zum Beispiel Lebensversicherungen. Data Warehouses bieten ebenfalls die Möglichkeit zur Bildung von Segmenten. Diese sind allerdings grobkörniger und haben eine längere Latenzzeit als die Segmente von Big-Data-Systemen.
3. Monitoring stellt aufgrund der enormen Datenmengen eine der Hauptanwendungen von Big Data dar. Mit Real Time Monitoring können Probleme mit komplexen Anlagen und Transportmitteln schon frühzeitig erkannt und Gegenmaßnahmen ergriffen werden. Darüber hinaus lassen sich durch die Kombination von Monitoring und Mustererkennung Frühwarnsysteme realisieren.
4. Empfehlungssysteme haben das Ziel, Größen wie den Umsatz gezielt zu beeinflussen. Dazu werden aus bestehenden Daten in Echtzeit Empfehlungen abgeleitet. Unternehmen wie Amazon und Facebook empfehlen ihren Nutzern gezielt weitere Bücher beziehungsweise Freunde.
AUFWAND UND NUTZEN
Diese Beispiele zeigen, dass große Datenmengen, Feinkörnigkeit sowie kurze Latenzzeiten für Big-Data-Verfahren sprechen. Andererseits lassen sich Anwendungen, die auf den ersten Blick Big Data vorbehalten sind, sehr wohl auch mit einem Data Warehouse erfüllen. Nachteile sind hier jedoch die eingeschränkte Datenmenge, die Grobkörnigkeit und die längere Latenzzeit. Auch die Komplexität der statistischen Verfahren, die den Kern der Anwendungen ausmachen, ist von entscheidender Bedeutung. So lassen sich Analysen mit Pivottabellen im Data Warehouse unkompliziert via Drag and Drop vornehmen. Statistische Vorkenntnisse sind in der Regel nicht erforderlich. Verfahren wie Mustererkennung, Segmentierung, Monitoring und Empfehlungssysteme setzen hingegen Statistikkenntnisse voraus.
IT-Entscheider müssen Aufwand und Nutzen beider Lösungen gegenüberstellen. Der Ertrag zeigt sich oft in Form von erhöhtem Umsatz, geringeren Betriebskosten oder gesteigerter Produkt- und Servicequalität. Doch die Kosten sollten nicht außer Acht gelassen werden. Dazu zählen Investitionen für Hard- und Software, Schulungs- und Einarbeitungskosten sowie Einführungs- und Betriebsausgaben. (idg/aw)
Be the first to comment