Big Data Tools – Evolution oder Revolution?

Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Die Hersteller dieser Systeme wie Oracle, IBM und Microsoft sehen sich in eine Grundsatz-Diskussion verwickelt. [...]

Haben die Datenbanken, wie wir sie seit Jahrzehnten kennen und nutzen, eine Zukunft? Oder müssen sie abgelöst werden? Lange Zeit waren die Verhältnisse im Datenbank-Sektor klar. Seit Jahrzehnten dominieren relationale Datenbank-Management-Systeme den Markt. Den haben sich hauptsächlich die großen Database-Hersteller Oracle, Microsoft und IBM aufgeteilt. Doch mit Big Data kommt nun zunehmend Unruhe auf. Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Damit nehmen auch die Diskussionen über deren Zukunft zu. Nicht selten enden sie damit, dass der Tod der relationalen Datenbanken als sicher gilt.

Einer der bekanntesten Vertreter dieser These ist Oliver Bussmann, CIO von SAP. „Relationale Datenbanken spielen in zehn Jahren im Enterprise-Umfeld keine große Rolle mehr“, hatte Bussmann im CIO-Jahrbuch 2012 gewettet. Er beruft sich in seiner Argumentation auf technische Entwicklungen, „die relationale Datenbanken überflüssig machen werden“. Dazu gehören etwa hochgradig parallel arbeitende Prozessorkerne mit einer Arbeitsgeschwindigkeit, „die vor kurzer Zeit noch unmöglich erschien“.

Bussmann und andere Verfechter vom Tod der relationalen Datenbanken präferieren für Big Data spezielle Techniken wie NoSQL, In Memory oder Hadoop. Mit der wachsenden Menge nicht oder wenig strukturierter Daten steigt beispielsweise das Interesse an NoSQL enorm an. Das Akronym steht für „Not only SQL“ und soll ausdrücken, dass solche Datenbanken nicht auf Tabellen und Relationen aufbauen wie die herkömmlichen Systeme, sondern auf andere Datenmodelle, die Texte und andere unstrukturierte Daten besser handhaben können.

SPEZIELLE BIG-DATA-TECHNOLOGIEN
Diese NoSQL-Datenbanksysteme lassen sich ergänzend zu den klassischen Datenbanken einsetzen. Sie können dann wieder in strukturierte Datensysteme überführt und als Kennzahlen beispielsweise in ein Data Warehouse eingespeichert werden.

Von NoSQL gibt es viele verschiedene Varianten, die bekannteste ist Hadoop. Das in Java geschriebene Open-Source-Framework parallelisiert Rechenprozesse zur Auswertung großer Datenmengen in einem Cluster. Im Zentrum steht der von Google populär gemachte Map-Reduce-Ansatz, der eine Aufgabe in kleinste Teile zerlegt, diese zur parallelen Verarbeitung auf möglichst viele Rechenknoten verteilt (mapping) und anschließend das Ergebnis wieder zusammenführt (reduce). Damit wird die Bearbeitung großer Datenmengen deutlich beschleunigt. Hadoop scheint sich derzeit mehr und mehr durchzusetzen. Anbieter wie Cloudera, Intel und IBM bieten eigene Distributionen an. Intel beispielsweise vertreibt eine Hadoop-Distribution, die optimiert ist auf die Hardware des Chip-Herstellers. IBM hat mit der Appliance „PureData Systems for Hadoop“ – einer Kombination aus Hardware plus Software – ein besonders nutzerfreundliches Hadoop-System auf den Markt gebracht, das den Umgang mit dem Big-Data-Werkzeug vereinfachen soll. Anders als gängige Open-Source-Hadoop-Varianten enthält IBMs Hadoop zusätzliche Funktionalitäten zu Administration, Verfügbarkeit, Workflow und Monitoring.

Eine weitere Big-Data-Technologie, die die Datenbankszene derzeit umtreibt, sind In-Memory-Computing und spaltenorientierte Datenbanken wie sie in SAP Hana kombiniert werden. Ihren Geschwindigkeitsvorsprung gegenüber herkömmlichen Datenbank-Techniken gewinnen In-Memory-Lösungen dadurch, dass Daten im Arbeitsspeicher statt auf externen Speichermedien abgelegt werden. Damit lassen sie sich deutlich schneller verarbeiten. Ist das System zusätzlich spaltenorientiert aufgebaut, können die Daten schneller gelesen werden und eignen sich damit besonders gut für riesige Data Warehouses.

ERWEITERUNG KLASSISCHER DATENBANK-SYSTEME
Doch verdrängen diese Big Data Techniken die klassischen Datenbanken? „Da würde ich mich schon wundern“, sagt Andreas Bitterer, Research Vice President bei Gartner und Datenbankexperte. Die Ankündigung eines Paradigmenwechsels streife regelmäßig durch die Branche, argumentiert der Analyst in einem CIO-Beitrag – „erst wurde angeblich alles in Objekten gespeichert, dann in XML-Dokumenten“.

Relationale Datenbanken seien aber trotz der neuen Entwicklungen nicht verschwunden, im Gegenteil: „Sie haben die neuen technischen Möglichkeiten einfach aufgesogen, wurden funktional erweitert und sind dadurch immer noch modern.“ Das wird auch mit Techniken wie In Memory Computing und Massive Parallel Processing passieren, über die heute gesprochen wird. Genau auf diese Möglichkeit setzen viele der klassischen Datenbank-Anbieter. Sie erweitern ihre historisch gewachsenen Systeme um Big-Data-Technologien und versuchen, die neuen Techniken in ihre Produkte zu assimilieren.

In der neuen Version des Datenbankservers DB2 10.5 setzt IBM beispielsweise auf eine Technologie namens BLU, um auf Daten von analytischen Systemen In-Memory und damit sehr performant zuzugreifen. BLU, das auf ein Projekt des IBM-Forschungszentrums in Almaden zurückgeht, kombiniert gleich mehrere Big-Data-Technologien: In Memory Computing, spaltenorientierte Tabellen, Data Skipping, SIMD (Single Instruction Multiple Data) und das aus dem Supercomputing stammende Vektorrechnen.

Mit diesem wahren Feuerwerk an neuen Methoden werden zu verarbeitende Datenmengen im Bereich von mehreren Terabytes auf eine sehr kleine Größe komprimiert – und die Datenverarbeitung und -analyse damit deutlich beschleunigt. Eine zehn Terabyte große Tabelle lässt sich beispielsweise mit BLU auf eine Größe von acht MB zusammenlegen.

Reduziert werden die Daten dabei nicht, sondern lediglich sortiert und komprimiert. „Die eigentliche Datenmenge bleibt auf dem ursprünglichen Speichersystem erhalten“, sagt Holm Landrock von der Experton Group in einem Review des neuen IBM-Systems. „Der Clou ist die mehrfache Datenkomprimierung auf dem Weg zum SQL-Befehl. Die Datenkomprimierung findet im Speicher und in der Analyse statt.“

Für den Analysten Bittner steht jedenfalls fest, dass Unternehmen auch in zehn Jahren noch relationale Datenbanken benötigen werden: „Es wird sie natürlich weiter geben, schließlich sind sie allgegenwärtig.“ Doch sie werden Bittner zufolge mit ziemlicher Sicherheit anders aussehen – und sinnvoll um neue Technologien ergänzt werden.

* Klaus Manhart ist freier IT-Journalist in Deutschland.


Mehr Artikel

News

Fünf Mythen über Managed Services 

Managed Services sind ein Erfolgsmodell. Trotzdem existieren nach wie vor einige Vorbehalte gegenüber externen IT-Services. Der IT-Dienstleister CGI beschreibt die fünf hartnäckigsten Mythen und erklärt, warum diese längst überholt sind. […]

News

ESET: MDR-Lösungen für Managed Service Provider

ESET erweitert sein Angebot für seine Managed Service Provider (MSP) und Channel-Partner, um sie angesichts der zunehmend komplexen Bedrohungslandschaft gezielt zu unterstützen. Die neuesten Ergänzungen umfassen den Service „ESET MDR für MSPs“, eine erweiterte KI-gestützte Bedrohungsanalyse durch den ESET AI Advisor sowie flexible Preismodelle für MSP. […]

News

Geniale Handy-Tricks

Smartphones haben etliche Funktionen, die kaum jemand nutzt, aber Ihren digitalen Alltag bereichern können. Wir stellen Ihnen eine Auswahl der besten Geheimtipps vor – sowohl für Android-Smartphones als auch für Apples iPhones. […]

Die Kombination aus interner Mobilität und Ressourcenbeschränkungen führt schnell zu einem Wildwuchs bei den vergebenen Privilegien. (c) Unsplash
Kommentar

6 Wege, wie Privilege Management die Sicherheitslage verbessert

Identitäten, Konten, Computer, Gruppen und andere Objekte benötigen gleichermaßen Zugang zu Ressourcen – limitiert auf die jeweilige Rolle und nur solange der Zugriff tatsächlich gebraucht wird. Dies ist ein grundlegender Bestandteil eines Zero Trust Least Privilege-Modelles und als solcher von AD-Administratoren, IT-Leitern, dem höheren Management und CISOs anerkannt. […]

David Blum, Defense & Security Lead bei Accenture, im Gespräch mit der ITWELT.at. (c) timeline / Rudi Handl
Interview

„Ein resilientes Unternehmen zeichnet sich durch größtmögliche Transparenz aus“

Transparenz, soweit im Sicherheitskontext möglich, ist für David Blum, Defense & Security Lead bei Accenture, ein wichtiger Bestandteil von Unternehmensresilienz. Das fördere die aus dem Verständnis folgende Unterstützung der Mitarbeitenden. Die unternehmerische Resilienz müsse nicht nur technisch, sondern auch kulturell verankert werden: „Denn Resilienz beginnt im Kopf jedes Einzelnen“, sagt Blum im Gespräch mit der ITWELT.at. […]

News

Klassifizierung von KI-Systemen gemäß EU AI Act

Unternehmen, die KI nutzen, sollten die rechtlichen Rahmenbedingungen kennen, um teure Bußgelder zu vermeiden. Der EU AI Act stellt den ersten umfassenden Rechtsrahmen zur Regulierung von KI dar und zielt darauf ab, die Grundrechte der Bürger innerhalb der Europäischen Union zu schützen. Da der EU AI Act KI-Systeme nach Risikostufen klassifiziert und damit spezifische rechtliche Verpflichtungen beinhaltet, ist es für Unternehmen unerlässlich, ihre Systeme korrekt zu kategorisieren. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*