Big-Data-System oder Data Warehouse?

Rasant wachsende Datenmengen stellen Unternehmen vor neue Herausforderungen und vor allem vor die Frage: Mit welchem System soll die Datenflut gebändigt werden, um einen größtmöglichen Nutzen herauszuholen? [...]

Das Trendthema Big Data sorgt derzeit für Begeisterung, aber auch Verwirrung in manchen Anwenderunternehmen: Für IT-Entscheider lautet die wesentliche Frage: Kann der Nutzen, den Big Data verspricht, auch mit den bereits vorhandenen, einfacheren Mitteln – sprich einem Data Warehouse – erreicht werden? Data-Warehouse-Systeme enthalten Daten­bestände, die periodisch aus Transaktionssystemen entnommen, gefiltert und zu Analysezwecken aggregiert werden. Häufig wird ein Data Warehouse in täglichen Ladevorgängen mit Daten befüllt und hat deshalb eine Latenzzeit, was die Aktualität der Daten betrifft, von einem Tag.

Die Pivottabelle ist das am meisten benutzte Analyseinstrument im Umfeld von Data Warehousing. Auch der Einsatz anderer statistischer Verfahren – Stichwort Data Mining – ist im Data Warehouse möglich, jedoch nicht so verbreitet wie Pivottabellen. Der Hauptgrund dafür sind die aggregierten, grobkörnigen Daten, die statistisch lohnende Eigenschaften ausblenden und darauf basierende statistische Analysen so ausschließen. Ein weiterer wichtiger Grund ist die Komplexität der Data-Mining-Verfahren.

BIG DATA UND BIG DATA ANALYTICS
Die Definitionskriterien von Big Data sind je nach Quelle unterschiedlich. In einem sind sich jedoch alle einig: Bei Big Data handelt es sich um Datenmengen, die mit herkömmlichen Mitteln nicht mehr effizient zu verwalten sind. Dazu gehören nicht aggregierte, in Echtzeit ermittelte Daten, die beispielsweise aus Transaktionssystemen, wissenschaftlichen Versuchen, Simulationen oder Sensoren stammen.

Neben Big Data hat sich der Begriff Big Data Analytics etabliert. Letztere umfassen analytische Verfahren, um Erkenntnisse aus großen Datenmengen zu gewinnen. Wann ist ein Data Warehouse einem Big-Data-System ebenbürtig oder sogar vorzuziehen? Die nachfolgenden Einsatzszenarien geben eine Antwort.

1. Big-Data-Systeme setzen Mustererkennung ein, um Trends und Muster recht­zeitig zu identifizieren sowie bislang un­bekannte oder vermutete Beziehungen zwischen einzelnen Parametern zu entdecken. Systeme, mit denen sich Zeitreihen auf Anomalien prüfen lassen, werden beispielsweise dazu verwendet, potenziellen Kreditkartenbetrug in Echtzeit aufzu­decken. Im Gegensatz zu herkömmlichen Data Warehouses sind Real Time Data Warehouses aber anspruchsvoll und stellen daher in der Praxis eher die Ausnahme dar.
2. Die Feinkörnigkeit und die kurzen Latenzzeiten der Datenbestände von Big Data bilden wichtige Voraussetzungen zur Segmentierung in Echtzeit, wie zum Beispiel bei Online-Einkäufen. Verbreitet ist die Bildung von Kundensegmenten, etwa um individuelle Angebote für komplexe Produkte zu erstellen – zum Beispiel Lebensversicherungen. Data Warehouses bieten ebenfalls die Möglichkeit zur Bildung von Segmenten. Diese sind allerdings grobkörniger und haben eine längere Latenzzeit als die Segmente von Big-Data-Systemen.
3. Monitoring stellt aufgrund der enormen Datenmengen eine der Hauptanwendungen von Big Data dar. Mit Real Time Monitoring können Probleme mit komplexen Anlagen und Transportmitteln schon frühzeitig erkannt und Gegenmaßnahmen ergriffen werden. Darüber hinaus lassen sich durch die Kombination von Monitoring und Mustererkennung Frühwarnsysteme realisieren.
4. Empfehlungssysteme haben das Ziel, Größen wie den Umsatz gezielt zu beeinflussen. Dazu werden aus bestehenden Daten in Echtzeit Empfehlungen abgeleitet. Unternehmen wie Amazon und Facebook empfehlen ihren Nutzern gezielt weitere Bücher beziehungsweise Freunde.

AUFWAND UND NUTZEN
Diese Beispiele zeigen, dass große Datenmengen, Feinkörnigkeit sowie kurze ­Latenzzeiten für Big-Data-Verfahren sprechen. Andererseits lassen sich Anwendungen, die auf den ersten Blick Big Data vorbehalten sind, sehr wohl auch mit einem Data Warehouse erfüllen. Nachteile sind hier jedoch die eingeschränkte Datenmenge, die Grobkörnigkeit und die längere Latenzzeit. Auch die Komplexität der statistischen Verfahren, die den Kern der Anwendungen ausmachen, ist von entscheidender Bedeutung. So lassen sich Analysen mit Pivottabellen im Data Warehouse unkompliziert via Drag and Drop vornehmen. Statistische Vorkenntnisse sind in der Regel nicht erforderlich. Verfahren wie Mustererkennung, Segmentierung, Monitoring und Empfehlungssysteme setzen hingegen Statistikkenntnisse voraus.

IT-Entscheider müssen Aufwand und Nutzen beider Lösungen gegenüberstellen. Der Ertrag zeigt sich oft in Form von erhöhtem Umsatz, geringeren Betriebskosten oder gesteigerter Produkt- und Servicequalität. Doch die Kosten sollten nicht außer Acht gelassen werden. Dazu zählen Investitionen für Hard- und Software, Schulungs- und Einarbeitungskosten sowie Einführungs- und Betriebsausgaben. (idg/aw)


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*