Big Data Tools – Evolution oder Revolution?

Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Die Hersteller dieser Systeme wie Oracle, IBM und Microsoft sehen sich in eine Grundsatz-Diskussion verwickelt. [...]

Haben die Datenbanken, wie wir sie seit Jahrzehnten kennen und nutzen, eine Zukunft? Oder müssen sie abgelöst werden? Lange Zeit waren die Verhältnisse im Datenbank-Sektor klar. Seit Jahrzehnten dominieren relationale Datenbank-Management-Systeme den Markt. Den haben sich hauptsächlich die großen Database-Hersteller Oracle, Microsoft und IBM aufgeteilt. Doch mit Big Data kommt nun zunehmend Unruhe auf. Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Damit nehmen auch die Diskussionen über deren Zukunft zu. Nicht selten enden sie damit, dass der Tod der relationalen Datenbanken als sicher gilt.

Einer der bekanntesten Vertreter dieser These ist Oliver Bussmann, CIO von SAP. „Relationale Datenbanken spielen in zehn Jahren im Enterprise-Umfeld keine große Rolle mehr“, hatte Bussmann im CIO-Jahrbuch 2012 gewettet. Er beruft sich in seiner Argumentation auf technische Entwicklungen, „die relationale Datenbanken überflüssig machen werden“. Dazu gehören etwa hochgradig parallel arbeitende Prozessorkerne mit einer Arbeitsgeschwindigkeit, „die vor kurzer Zeit noch unmöglich erschien“.

Bussmann und andere Verfechter vom Tod der relationalen Datenbanken präferieren für Big Data spezielle Techniken wie NoSQL, In Memory oder Hadoop. Mit der wachsenden Menge nicht oder wenig strukturierter Daten steigt beispielsweise das Interesse an NoSQL enorm an. Das Akronym steht für „Not only SQL“ und soll ausdrücken, dass solche Datenbanken nicht auf Tabellen und Relationen aufbauen wie die herkömmlichen Systeme, sondern auf andere Datenmodelle, die Texte und andere unstrukturierte Daten besser handhaben können.

SPEZIELLE BIG-DATA-TECHNOLOGIEN
Diese NoSQL-Datenbanksysteme lassen sich ergänzend zu den klassischen Datenbanken einsetzen. Sie können dann wieder in strukturierte Datensysteme überführt und als Kennzahlen beispielsweise in ein Data Warehouse eingespeichert werden.

Von NoSQL gibt es viele verschiedene Varianten, die bekannteste ist Hadoop. Das in Java geschriebene Open-Source-Framework parallelisiert Rechenprozesse zur Auswertung großer Datenmengen in einem Cluster. Im Zentrum steht der von Google populär gemachte Map-Reduce-Ansatz, der eine Aufgabe in kleinste Teile zerlegt, diese zur parallelen Verarbeitung auf möglichst viele Rechenknoten verteilt (mapping) und anschließend das Ergebnis wieder zusammenführt (reduce). Damit wird die Bearbeitung großer Datenmengen deutlich beschleunigt. Hadoop scheint sich derzeit mehr und mehr durchzusetzen. Anbieter wie Cloudera, Intel und IBM bieten eigene Distributionen an. Intel beispielsweise vertreibt eine Hadoop-Distribution, die optimiert ist auf die Hardware des Chip-Herstellers. IBM hat mit der Appliance „PureData Systems for Hadoop“ – einer Kombination aus Hardware plus Software – ein besonders nutzerfreundliches Hadoop-System auf den Markt gebracht, das den Umgang mit dem Big-Data-Werkzeug vereinfachen soll. Anders als gängige Open-Source-Hadoop-Varianten enthält IBMs Hadoop zusätzliche Funktionalitäten zu Administration, Verfügbarkeit, Workflow und Monitoring.

Eine weitere Big-Data-Technologie, die die Datenbankszene derzeit umtreibt, sind In-Memory-Computing und spaltenorientierte Datenbanken wie sie in SAP Hana kombiniert werden. Ihren Geschwindigkeitsvorsprung gegenüber herkömmlichen Datenbank-Techniken gewinnen In-Memory-Lösungen dadurch, dass Daten im Arbeitsspeicher statt auf externen Speichermedien abgelegt werden. Damit lassen sie sich deutlich schneller verarbeiten. Ist das System zusätzlich spaltenorientiert aufgebaut, können die Daten schneller gelesen werden und eignen sich damit besonders gut für riesige Data Warehouses.

ERWEITERUNG KLASSISCHER DATENBANK-SYSTEME
Doch verdrängen diese Big Data Techniken die klassischen Datenbanken? „Da würde ich mich schon wundern“, sagt Andreas Bitterer, Research Vice President bei Gartner und Datenbankexperte. Die Ankündigung eines Paradigmenwechsels streife regelmäßig durch die Branche, argumentiert der Analyst in einem CIO-Beitrag – „erst wurde angeblich alles in Objekten gespeichert, dann in XML-Dokumenten“.

Relationale Datenbanken seien aber trotz der neuen Entwicklungen nicht verschwunden, im Gegenteil: „Sie haben die neuen technischen Möglichkeiten einfach aufgesogen, wurden funktional erweitert und sind dadurch immer noch modern.“ Das wird auch mit Techniken wie In Memory Computing und Massive Parallel Processing passieren, über die heute gesprochen wird. Genau auf diese Möglichkeit setzen viele der klassischen Datenbank-Anbieter. Sie erweitern ihre historisch gewachsenen Systeme um Big-Data-Technologien und versuchen, die neuen Techniken in ihre Produkte zu assimilieren.

In der neuen Version des Datenbankservers DB2 10.5 setzt IBM beispielsweise auf eine Technologie namens BLU, um auf Daten von analytischen Systemen In-Memory und damit sehr performant zuzugreifen. BLU, das auf ein Projekt des IBM-Forschungszentrums in Almaden zurückgeht, kombiniert gleich mehrere Big-Data-Technologien: In Memory Computing, spaltenorientierte Tabellen, Data Skipping, SIMD (Single Instruction Multiple Data) und das aus dem Supercomputing stammende Vektorrechnen.

Mit diesem wahren Feuerwerk an neuen Methoden werden zu verarbeitende Datenmengen im Bereich von mehreren Terabytes auf eine sehr kleine Größe komprimiert – und die Datenverarbeitung und -analyse damit deutlich beschleunigt. Eine zehn Terabyte große Tabelle lässt sich beispielsweise mit BLU auf eine Größe von acht MB zusammenlegen.

Reduziert werden die Daten dabei nicht, sondern lediglich sortiert und komprimiert. „Die eigentliche Datenmenge bleibt auf dem ursprünglichen Speichersystem erhalten“, sagt Holm Landrock von der Experton Group in einem Review des neuen IBM-Systems. „Der Clou ist die mehrfache Datenkomprimierung auf dem Weg zum SQL-Befehl. Die Datenkomprimierung findet im Speicher und in der Analyse statt.“

Für den Analysten Bittner steht jedenfalls fest, dass Unternehmen auch in zehn Jahren noch relationale Datenbanken benötigen werden: „Es wird sie natürlich weiter geben, schließlich sind sie allgegenwärtig.“ Doch sie werden Bittner zufolge mit ziemlicher Sicherheit anders aussehen – und sinnvoll um neue Technologien ergänzt werden.

* Klaus Manhart ist freier IT-Journalist in Deutschland.


Mehr Artikel

News

Bad Bots werden immer menschenähnlicher

Bei Bad Bots handelt es sich um automatisierte Softwareprogramme, die für die Durchführung von Online-Aktivitäten im großen Maßstab entwickelt werden. Bad Bots sind für entsprechend schädliche Online-Aktivitäten konzipiert und können gegen viele verschiedene Ziele eingesetzt werden, darunter Websites, Server, APIs und andere Endpunkte. […]

Frauen berichten vielfach, dass ihre Schmerzen manchmal jahrelang nicht ernst genommen oder belächelt wurden. Künftig sollen Schmerzen gendersensibel in 3D visualisiert werden (c) mit KI generiert/DALL-E
News

Schmerzforschung und Gendermedizin

Im Projekt „Embodied Perceptions“ unter Leitung des AIT Center for Technology Experience wird das Thema Schmerzen ganzheitlich und gendersensibel betrachtet: Das Projektteam forscht zu Möglichkeiten, subjektives Schmerzempfinden über 3D-Avatare zu visualisieren. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*