Big Data Tools – Evolution oder Revolution?

Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Die Hersteller dieser Systeme wie Oracle, IBM und Microsoft sehen sich in eine Grundsatz-Diskussion verwickelt. [...]

Haben die Datenbanken, wie wir sie seit Jahrzehnten kennen und nutzen, eine Zukunft? Oder müssen sie abgelöst werden? Lange Zeit waren die Verhältnisse im Datenbank-Sektor klar. Seit Jahrzehnten dominieren relationale Datenbank-Management-Systeme den Markt. Den haben sich hauptsächlich die großen Database-Hersteller Oracle, Microsoft und IBM aufgeteilt. Doch mit Big Data kommt nun zunehmend Unruhe auf. Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Damit nehmen auch die Diskussionen über deren Zukunft zu. Nicht selten enden sie damit, dass der Tod der relationalen Datenbanken als sicher gilt.

Einer der bekanntesten Vertreter dieser These ist Oliver Bussmann, CIO von SAP. „Relationale Datenbanken spielen in zehn Jahren im Enterprise-Umfeld keine große Rolle mehr“, hatte Bussmann im CIO-Jahrbuch 2012 gewettet. Er beruft sich in seiner Argumentation auf technische Entwicklungen, „die relationale Datenbanken überflüssig machen werden“. Dazu gehören etwa hochgradig parallel arbeitende Prozessorkerne mit einer Arbeitsgeschwindigkeit, „die vor kurzer Zeit noch unmöglich erschien“.

Bussmann und andere Verfechter vom Tod der relationalen Datenbanken präferieren für Big Data spezielle Techniken wie NoSQL, In Memory oder Hadoop. Mit der wachsenden Menge nicht oder wenig strukturierter Daten steigt beispielsweise das Interesse an NoSQL enorm an. Das Akronym steht für „Not only SQL“ und soll ausdrücken, dass solche Datenbanken nicht auf Tabellen und Relationen aufbauen wie die herkömmlichen Systeme, sondern auf andere Datenmodelle, die Texte und andere unstrukturierte Daten besser handhaben können.

SPEZIELLE BIG-DATA-TECHNOLOGIEN
Diese NoSQL-Datenbanksysteme lassen sich ergänzend zu den klassischen Datenbanken einsetzen. Sie können dann wieder in strukturierte Datensysteme überführt und als Kennzahlen beispielsweise in ein Data Warehouse eingespeichert werden.

Von NoSQL gibt es viele verschiedene Varianten, die bekannteste ist Hadoop. Das in Java geschriebene Open-Source-Framework parallelisiert Rechenprozesse zur Auswertung großer Datenmengen in einem Cluster. Im Zentrum steht der von Google populär gemachte Map-Reduce-Ansatz, der eine Aufgabe in kleinste Teile zerlegt, diese zur parallelen Verarbeitung auf möglichst viele Rechenknoten verteilt (mapping) und anschließend das Ergebnis wieder zusammenführt (reduce). Damit wird die Bearbeitung großer Datenmengen deutlich beschleunigt. Hadoop scheint sich derzeit mehr und mehr durchzusetzen. Anbieter wie Cloudera, Intel und IBM bieten eigene Distributionen an. Intel beispielsweise vertreibt eine Hadoop-Distribution, die optimiert ist auf die Hardware des Chip-Herstellers. IBM hat mit der Appliance „PureData Systems for Hadoop“ – einer Kombination aus Hardware plus Software – ein besonders nutzerfreundliches Hadoop-System auf den Markt gebracht, das den Umgang mit dem Big-Data-Werkzeug vereinfachen soll. Anders als gängige Open-Source-Hadoop-Varianten enthält IBMs Hadoop zusätzliche Funktionalitäten zu Administration, Verfügbarkeit, Workflow und Monitoring.

Eine weitere Big-Data-Technologie, die die Datenbankszene derzeit umtreibt, sind In-Memory-Computing und spaltenorientierte Datenbanken wie sie in SAP Hana kombiniert werden. Ihren Geschwindigkeitsvorsprung gegenüber herkömmlichen Datenbank-Techniken gewinnen In-Memory-Lösungen dadurch, dass Daten im Arbeitsspeicher statt auf externen Speichermedien abgelegt werden. Damit lassen sie sich deutlich schneller verarbeiten. Ist das System zusätzlich spaltenorientiert aufgebaut, können die Daten schneller gelesen werden und eignen sich damit besonders gut für riesige Data Warehouses.

ERWEITERUNG KLASSISCHER DATENBANK-SYSTEME
Doch verdrängen diese Big Data Techniken die klassischen Datenbanken? „Da würde ich mich schon wundern“, sagt Andreas Bitterer, Research Vice President bei Gartner und Datenbankexperte. Die Ankündigung eines Paradigmenwechsels streife regelmäßig durch die Branche, argumentiert der Analyst in einem CIO-Beitrag – „erst wurde angeblich alles in Objekten gespeichert, dann in XML-Dokumenten“.

Relationale Datenbanken seien aber trotz der neuen Entwicklungen nicht verschwunden, im Gegenteil: „Sie haben die neuen technischen Möglichkeiten einfach aufgesogen, wurden funktional erweitert und sind dadurch immer noch modern.“ Das wird auch mit Techniken wie In Memory Computing und Massive Parallel Processing passieren, über die heute gesprochen wird. Genau auf diese Möglichkeit setzen viele der klassischen Datenbank-Anbieter. Sie erweitern ihre historisch gewachsenen Systeme um Big-Data-Technologien und versuchen, die neuen Techniken in ihre Produkte zu assimilieren.

In der neuen Version des Datenbankservers DB2 10.5 setzt IBM beispielsweise auf eine Technologie namens BLU, um auf Daten von analytischen Systemen In-Memory und damit sehr performant zuzugreifen. BLU, das auf ein Projekt des IBM-Forschungszentrums in Almaden zurückgeht, kombiniert gleich mehrere Big-Data-Technologien: In Memory Computing, spaltenorientierte Tabellen, Data Skipping, SIMD (Single Instruction Multiple Data) und das aus dem Supercomputing stammende Vektorrechnen.

Mit diesem wahren Feuerwerk an neuen Methoden werden zu verarbeitende Datenmengen im Bereich von mehreren Terabytes auf eine sehr kleine Größe komprimiert – und die Datenverarbeitung und -analyse damit deutlich beschleunigt. Eine zehn Terabyte große Tabelle lässt sich beispielsweise mit BLU auf eine Größe von acht MB zusammenlegen.

Reduziert werden die Daten dabei nicht, sondern lediglich sortiert und komprimiert. „Die eigentliche Datenmenge bleibt auf dem ursprünglichen Speichersystem erhalten“, sagt Holm Landrock von der Experton Group in einem Review des neuen IBM-Systems. „Der Clou ist die mehrfache Datenkomprimierung auf dem Weg zum SQL-Befehl. Die Datenkomprimierung findet im Speicher und in der Analyse statt.“

Für den Analysten Bittner steht jedenfalls fest, dass Unternehmen auch in zehn Jahren noch relationale Datenbanken benötigen werden: „Es wird sie natürlich weiter geben, schließlich sind sie allgegenwärtig.“ Doch sie werden Bittner zufolge mit ziemlicher Sicherheit anders aussehen – und sinnvoll um neue Technologien ergänzt werden.

* Klaus Manhart ist freier IT-Journalist in Deutschland.


Mehr Artikel

Gregor Schmid, Projektcenterleiter bei Kumavision, über die Digitalisierung im Mittelstand und die Chancen durch Künstliche Intelligenz. (c) timeline/Rudi Handl
Interview

„Die Zukunft ist modular, flexibel und KI-gestützt“

Im Gespräch mit der ITWELT.at verdeutlicht Gregor Schmid, Projektcenterleiter bei Kumavision, wie sehr sich die Anforderungen an ERP-Systeme und die digitale Transformation in den letzten Jahren verändert haben und verweist dabei auf den Trend zu modularen Lösungen, die Bedeutung der Cloud und die Rolle von Künstlicher Intelligenz (KI) in der Unternehmenspraxis. […]

News

Richtlinien für sichere KI-Entwicklung

Die „Guidelines for Secure Development and Deployment of AI Systems“ von Kaspersky behandeln zentrale Aspekte der Entwicklung, Bereitstellung und des Betriebs von KI-Systemen, einschließlich Design, bewährter Sicherheitspraktiken und Integration, ohne sich auf die Entwicklung grundlegender Modelle zu fokussieren. […]

News

Datensilos blockieren Abwehrkräfte von generativer KI

Damit KI eine Rolle in der Cyberabwehr spielen kann, ist sie auf leicht zugängliche Echtzeitdaten angewiesen. Das heißt, die zunehmende Leistungsfähigkeit von GenAI kann nur dann wirksam werden, wenn die KI Zugriff auf einwandfreie, validierte, standardisierte und vor allem hochverfügbare Daten in allen Anwendungen und Systemen sowie für alle Nutzer hat. Dies setzt allerdings voraus, dass Unternehmen in der Lage sind, ihre Datensilos aufzulösen. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*