8. April 2025

Big Data Tools – Evolution oder Revolution?

Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Die Hersteller dieser Systeme wie Oracle, IBM und Microsoft sehen sich in eine Grundsatz-Diskussion verwickelt. [...]

Haben die Datenbanken, wie wir sie seit Jahrzehnten kennen und nutzen, eine Zukunft? Oder müssen sie abgelöst werden? Lange Zeit waren die Verhältnisse im Datenbank-Sektor klar. Seit Jahrzehnten dominieren relationale Datenbank-Management-Systeme den Markt. Den haben sich hauptsächlich die großen Database-Hersteller Oracle, Microsoft und IBM aufgeteilt. Doch mit Big Data kommt nun zunehmend Unruhe auf. Immer offensichtlicher wird, dass relationale Systeme mit ihren starren Tabellenstrukturen bei großen oder unstrukturierten Datenmengen langsam aber sicher an ihre Grenzen stoßen. Damit nehmen auch die Diskussionen über deren Zukunft zu. Nicht selten enden sie damit, dass der Tod der relationalen Datenbanken als sicher gilt.

Einer der bekanntesten Vertreter dieser These ist Oliver Bussmann, CIO von SAP. „Relationale Datenbanken spielen in zehn Jahren im Enterprise-Umfeld keine große Rolle mehr“, hatte Bussmann im CIO-Jahrbuch 2012 gewettet. Er beruft sich in seiner Argumentation auf technische Entwicklungen, „die relationale Datenbanken überflüssig machen werden“. Dazu gehören etwa hochgradig parallel arbeitende Prozessorkerne mit einer Arbeitsgeschwindigkeit, „die vor kurzer Zeit noch unmöglich erschien“.

Bussmann und andere Verfechter vom Tod der relationalen Datenbanken präferieren für Big Data spezielle Techniken wie NoSQL, In Memory oder Hadoop. Mit der wachsenden Menge nicht oder wenig strukturierter Daten steigt beispielsweise das Interesse an NoSQL enorm an. Das Akronym steht für „Not only SQL“ und soll ausdrücken, dass solche Datenbanken nicht auf Tabellen und Relationen aufbauen wie die herkömmlichen Systeme, sondern auf andere Datenmodelle, die Texte und andere unstrukturierte Daten besser handhaben können.

SPEZIELLE BIG-DATA-TECHNOLOGIEN
Diese NoSQL-Datenbanksysteme lassen sich ergänzend zu den klassischen Datenbanken einsetzen. Sie können dann wieder in strukturierte Datensysteme überführt und als Kennzahlen beispielsweise in ein Data Warehouse eingespeichert werden.

Von NoSQL gibt es viele verschiedene Varianten, die bekannteste ist Hadoop. Das in Java geschriebene Open-Source-Framework parallelisiert Rechenprozesse zur Auswertung großer Datenmengen in einem Cluster. Im Zentrum steht der von Google populär gemachte Map-Reduce-Ansatz, der eine Aufgabe in kleinste Teile zerlegt, diese zur parallelen Verarbeitung auf möglichst viele Rechenknoten verteilt (mapping) und anschließend das Ergebnis wieder zusammenführt (reduce). Damit wird die Bearbeitung großer Datenmengen deutlich beschleunigt. Hadoop scheint sich derzeit mehr und mehr durchzusetzen. Anbieter wie Cloudera, Intel und IBM bieten eigene Distributionen an. Intel beispielsweise vertreibt eine Hadoop-Distribution, die optimiert ist auf die Hardware des Chip-Herstellers. IBM hat mit der Appliance „PureData Systems for Hadoop“ – einer Kombination aus Hardware plus Software – ein besonders nutzerfreundliches Hadoop-System auf den Markt gebracht, das den Umgang mit dem Big-Data-Werkzeug vereinfachen soll. Anders als gängige Open-Source-Hadoop-Varianten enthält IBMs Hadoop zusätzliche Funktionalitäten zu Administration, Verfügbarkeit, Workflow und Monitoring.

Eine weitere Big-Data-Technologie, die die Datenbankszene derzeit umtreibt, sind In-Memory-Computing und spaltenorientierte Datenbanken wie sie in SAP Hana kombiniert werden. Ihren Geschwindigkeitsvorsprung gegenüber herkömmlichen Datenbank-Techniken gewinnen In-Memory-Lösungen dadurch, dass Daten im Arbeitsspeicher statt auf externen Speichermedien abgelegt werden. Damit lassen sie sich deutlich schneller verarbeiten. Ist das System zusätzlich spaltenorientiert aufgebaut, können die Daten schneller gelesen werden und eignen sich damit besonders gut für riesige Data Warehouses.

ERWEITERUNG KLASSISCHER DATENBANK-SYSTEME
Doch verdrängen diese Big Data Techniken die klassischen Datenbanken? „Da würde ich mich schon wundern“, sagt Andreas Bitterer, Research Vice President bei Gartner und Datenbankexperte. Die Ankündigung eines Paradigmenwechsels streife regelmäßig durch die Branche, argumentiert der Analyst in einem CIO-Beitrag – „erst wurde angeblich alles in Objekten gespeichert, dann in XML-Dokumenten“.

Relationale Datenbanken seien aber trotz der neuen Entwicklungen nicht verschwunden, im Gegenteil: „Sie haben die neuen technischen Möglichkeiten einfach aufgesogen, wurden funktional erweitert und sind dadurch immer noch modern.“ Das wird auch mit Techniken wie In Memory Computing und Massive Parallel Processing passieren, über die heute gesprochen wird. Genau auf diese Möglichkeit setzen viele der klassischen Datenbank-Anbieter. Sie erweitern ihre historisch gewachsenen Systeme um Big-Data-Technologien und versuchen, die neuen Techniken in ihre Produkte zu assimilieren.

In der neuen Version des Datenbankservers DB2 10.5 setzt IBM beispielsweise auf eine Technologie namens BLU, um auf Daten von analytischen Systemen In-Memory und damit sehr performant zuzugreifen. BLU, das auf ein Projekt des IBM-Forschungszentrums in Almaden zurückgeht, kombiniert gleich mehrere Big-Data-Technologien: In Memory Computing, spaltenorientierte Tabellen, Data Skipping, SIMD (Single Instruction Multiple Data) und das aus dem Supercomputing stammende Vektorrechnen.

Mit diesem wahren Feuerwerk an neuen Methoden werden zu verarbeitende Datenmengen im Bereich von mehreren Terabytes auf eine sehr kleine Größe komprimiert – und die Datenverarbeitung und -analyse damit deutlich beschleunigt. Eine zehn Terabyte große Tabelle lässt sich beispielsweise mit BLU auf eine Größe von acht MB zusammenlegen.

Reduziert werden die Daten dabei nicht, sondern lediglich sortiert und komprimiert. „Die eigentliche Datenmenge bleibt auf dem ursprünglichen Speichersystem erhalten“, sagt Holm Landrock von der Experton Group in einem Review des neuen IBM-Systems. „Der Clou ist die mehrfache Datenkomprimierung auf dem Weg zum SQL-Befehl. Die Datenkomprimierung findet im Speicher und in der Analyse statt.“

Für den Analysten Bittner steht jedenfalls fest, dass Unternehmen auch in zehn Jahren noch relationale Datenbanken benötigen werden: „Es wird sie natürlich weiter geben, schließlich sind sie allgegenwärtig.“ Doch sie werden Bittner zufolge mit ziemlicher Sicherheit anders aussehen – und sinnvoll um neue Technologien ergänzt werden.

* Klaus Manhart ist freier IT-Journalist in Deutschland.

So werden Unternehmen autonom und resilient

8. April 2025

Ein Unternehmen, in dem viele Prozesse automatisiert ablaufen, ohne menschliche Aufsicht, und das sich dabei kontinuierlich selbst optimiert? Fortgeschrittene KI und Automatisierungswerkzeuge liefern die dafür notwendige technische Grundlage, doch die Umsetzung ist in der Regel mit einigen Herausforderungen verbunden. […]

Grundlegende Metriken der Datenwiederherstellung: RPO und RTO verständlich gemacht

8. April 2025 Angela Heindl-Schober *

Wenn es um die Geschäftskontinuität geht, stechen zwei Schlüsselmetriken hervor: Recovery Point Objective (RPO) und Recovery Time Objective (RTO). Oft werden diese verwechselt oder die Diskussion dreht sich um RPO versus RTO. Beide Metriken sind jedoch für die Entwicklung effektiver Datenschutzstrategien und die Minimierung von Unterbrechungen und Datenverlusten unerlässlich. […]

Demystify hilft bei der API-Dokumentation

8. April 2025 Patrick Hediger *

Mit dem Open-Source-Projekt Demystify können Entwickler API-Dokumentationen in Echtzeit automatisiert erstellen. Das Tool verspricht eine einfache Bedienung und hohe Genauigkeit. […]

Nadine Riederer, CEO von Avision. (c) Avision

So vergeigt man die Übernahme einer Alt-Software

8. April 2025 Nadine Riederer*

Wenn ein IT-Dienstleister die Betreuung einer Legacy-Software übernimmt, kann er so einiges falsch machen. Avision zeigt auf, wie er die Übernahme zuverlässig in den Sand setzt. […]

Drohnen, die autonom und ohne GPS navigieren können, wären in der Lage kritische Infrastruktur wie Brücken oder Strommasten selbstständig zu inspizieren. (c) Fikri Rasyid / unsplash

Wie Drohnen autonom fliegen lernen

7. April 2025 pi/kdl

Von wirklich selbstständigen Robotern, die durch eine komplexe und sich verändernde Umwelt navigieren können, sind wir noch weit entfernt. Neue Ansätze mit KI bieten eine Chance, diese Vorstellung ein Stück weit Realität werden zu lassen. Jan Steinbrener experimentiert an der Universität Klagenfurt mit Drohnen, die genau das versuchen. […]

Andrew O’Dower, Vice President, Product Management für Voice und Voice AI bei Twilio (c) Twilio

Klein, spezialisiert, effizient: Small Language Modelle gewinnen an Bedeutung

7. April 2025 Andrew O'Dower*

Neben den Large Language Models (LLM), die einen regelrechten KI-Boom ausgelöst haben, rücken nun vermehrt Small Language Models (SLM) vor allem für Unternehmen in den Fokus. Andrew O’Dower, Leiter des Bereichs Product Management für Voice und Voice AI bei Twilio, erklärt was es damit auf sich hat. […]

Christina Decker, Director Strategic Channels Europe bei Trend Micro (c) Trend Micro

Wie der Channel die tickende Zeitbombe „Compliance-Risiko“ entschärfen kann

7. April 2025 Christina Decker*

Cybersicherheitsregulatoren hatten ein geschäftiges Jahr 2024. Zuerst kam die NIS2-Richtlinie, deren Umsetzungsfrist Mitte Oktober ablief. Nur wenige Monate später trat in der gesamten EU der lang erwartete Digital Operational Resilience Act (DORA) in Kraft. Beide Regelwerke wurden dringend benötigt, haben aber auch enormen Druck auf Unternehmen in der Region ausgeübt. Besonders KMU spüren diesen Druck. […]

6 von 10 Österreichern sehen kaum Auswirkungen durch KI – aber jeder 25. Arbeitnehmer erwartet Jobverlust

7. April 2025 pi/kdl

Laut EU AI-Act müssen seit 2. Februar 2025 alle Mitarbeitenden, die Künstliche Intelligenz (KI) nutzen, entwickeln oder betreiben, über ausreichende KI-Kompetenzen verfügen. Das hat die „Employer Brand Research 2025“ des internationalen Personaldienstleisters Randstad als Schwerpunktthema untersucht. […]

Cyber Dominance: Digitale Abhängigkeit ist das neue Geschäftsrisiko

7. April 2025

Bei Cyber Dominance geht es um die Fähigkeit von Herstellern digitaler Produkte, auch nach dem Kauf dauerhaft Zugriff auf Systeme und Informationen ihrer Kunden zu behalten. Eine Form der Kontrolle, die tief in technische Infrastrukturen eingreift – oft unbemerkt und ungefragt. Diese Art der digitalen Abhängigkeit ist längst Realität – und sie ist eines der größten unterschätzten Geschäftsrisiken unserer Zeit. […]