Über Datenwachstum im Quettabyte-Zeitalter und die Folgen

Weltweit steigen die Datenmengen. Was bedeutet das für Unternehmen und Konsumenten? Lassen sich die Datenberge kappen, strukturieren, konsolidieren und intelligenter nutzen? Mark Molyneux, EMEA-CTO von Cohesity, erklärt im Interview mit IT Welt.at die aktuelle Datenexplosion und ihre Folgen. [...]

Mark Molyneux, EMEA CTO bei Cohesity. (c) Cohesity

Kürzlich hat das Bureau International des Poids et Mesures (BIPM) in Paris zum ersten Mal seit 1991 die Maßeinheiten für Daten erweitert. Warum wurde das nötig und wofür steht die neu hinzugekommene Einheit Quettabyte?

Im Pariser Büro des BIPM werden messbare Einheiten definiert. 1875 waren das Meter, Kilo und Kelvin. Heute geht es beispielsweise um die Maßeinheit für Daten. In einer Generalkonferenz wurde diese erweitert, um Quetta und Ronna, das bedeutet nur sehr schwer vorstellbare Datenkolonnen mit 30 und 27 Nullen. Ein Quettabyte sind eine Quintillion oder 1.000.000.000.000.000.000.000.000.000.000 Bites. Die bisherige höchste Datenmenge Yotta ist damit nicht mehr an der Einheitenspitze.

Die Gründe sind klar: Wir alle erzeugen und teilen immer mehr Daten, ob privat oder beruflich – unter anderem durch Internet, Gaming, Streaming und Social Media. Zu den größten Downstream-Datenerzeugern zählen Netflix und YouTube. KI-Lösungen boomen und haben ebenfalls einen großen Datenhunger. Das genutzte Datenvolumen über Mobiltelefone pro Monat hat sich von 2018 auf 2022 von 4,7 GByte monatlich auf 10,4 GByte verdoppelt.

Als Folge dieser Entwicklung wird die gesamte Datenmenge in Europa (OECD-Staaten) von 86 Exabyte im Jahr 2022 bis 2030 auf 225 Exabyte wachsen (Quelle: Gone with the clouds: Estimating the electricity and water footprint of digital data services in Europe Javier Farfan a,* , Alena Lohrmann).

Warum sollte man die Frage nach der Zunahme der Datenmenge nicht isoliert betrachten, sondern auch ihre Auswirkungen auf weitere Ressourcen berücksichtigen? Welche Konsequenzen sind es im Einzelnen?

Die Datenmengen in Rechenzentren haben sich von 2015 bis 2021 laut der internationalen Energieagentur mehr als verdreifacht. Weil Rechenzentren immer effizienter arbeiten und sich zu Hyperscale-Rechenzentren wandeln, ist der Energiebedarf bisher trotz des Datenanstiegs fast konstant geblieben. Die Rechenzentren wurden aber mittlerweile so stark optimiert, dass es jetzt nur noch marginale Effizienzgewinne gibt. Laut Schätzungen werden im Jahr 2030 durch Rechenzentren voraussichtlich 496 Millionen Tonnen Kohlendioxid erzeugt werden, wenn nicht ein radikaler Umstieg auf erneuerbare Energien erfolgt. Das wäre dann ein größerer CO₂-Ausstoß als Frankreich 2021 insgesamt verursacht hat. Schon heute benötigen Rechenzentren 4 bis 5 Prozent des weltweiten Gesamtenergieverbrauchs. Dieser Footprint wird weiter steigen.

Welche Herausforderungen ergeben sich aus der Verarbeitung und Speicherung von so großen Datenmengen und inwieweit sind Unternehmen und Organisationen darauf vorbereitet, mit dieser ständig wachsenden Datenflut umzugehen?

Unternehmen halten in ihren Altsystemen und neuen IT-Tools riesige Datenmengen vor. Veraltete oder irrelevante Daten beeinträchtigen Geschäftsentscheidungen und führen zu Zeitverlust. Viele Informationen brauchen Firmen gar nicht mehr, löschen sie aber trotzdem nicht. Denn es mangelt an einer einheitlichen Datensicht, Schnittstellen und Priorisierungen. Das liegt auch an der fehlenden Klassifikation von Daten. Unternehmen wissen meist nicht, welche Daten wo auf ihren Servern liegen. Gleichzeitig kommen sekündlich neue Daten hinzu, die einfach abgespeichert werden und oft nur in einer Applikation oder wenigen Stack-Ebenen nützlich sind.

Können und wollen wir uns diese Folgen der Datenexplosion wirklich leisten?

Unternehmen können sich kein unkontrolliertes, exponentielles Datenwachstum leisten. Das beeinträchtigt ihre Prozesse, verärgert Mitarbeitende und Kunden und führt direkt in den dichten Datenwald – bei hohen Kosten. Denn es müssen immer mehr Datenspeicherplätze und Rechenzentren aufgebaut und gebucht werden.

Gesellschaftlich und ökologisch ist ein aus dem Ruder laufender digitaler Fußabdruck ebenfalls katastrophal. Selbst wenn wir neue Technologien entwickeln, etwa zum Erzeugen von grünem Strom, verschwenden wir Ressourcen für unsinnige Datenberge. Ich meine damit auch Beton, Flächen, Kühlaggregate und vieles mehr für Rechenzentren.

Ist diese Entwicklung ein Automatismus oder gibt es Alternativen – und wie können solche Lösungsansätze für Privatanwender und Unternehmen aussehen?

Es gibt für Unternehmen strategische Datenmanagement-Möglichkeiten und pragmatische, operative Lösungsansätze. Ein wichtiger Schritt ist beispielsweise, das hohe Kapital der Informationen aus unstrukturierten Daten zu heben. Unstrukturierte Daten sind Informationen, die nicht nach einem vorgegebenen Datenmodell oder -schema gespeichert werden, wie etwa ein System für relationales Datenbankmanagement oder auch nicht relationale Datenbanken wie NoSQL.

Die überwiegende Mehrheit der Daten weltweit ist unstrukturiert. Dazu gehören etwa Texte, interaktive Medien, Videos, Bilder, Audios und Sensordaten von mit dem Internet der Dinge verbundenen Geräten (Internet of Things, IoT). Unstrukturierte Daten können von Menschen oder von Maschinen erstellt werden. Sie machen einen sehr hohen Anteil aller Daten aus, die die Unternehmen generieren oder anderweitig im Zuge ihrer Geschäftstätigkeit sammeln.

Mit den richtigen Tools können Unternehmen aus unstrukturierten Daten enormen Wert schöpfen. Sie könnten zum Beispiel Posts in sozialen Medien bezüglich Daten auswerten, welche die Zufriedenheit mit ihren Marken widerspiegeln. Oder Wissenschaftler in Krankenhäusern oder Pharmazeuten könnten ein gemeinsames, riesiges Archiv von Hautdaten, Krebsformen oder aus anderen Forschungsbereichen nutzen. Unternehmen können Daten außerdem automatisiert komprimieren und Deduplizierungsalgorithmen einsetzen, um nach redundanten Datenstrukturen zu suchen, die sie mit kleinen Platzhaltern ersetzen können. Die Enterprise Strategic Group hat Ende 2022 bei mehr als 3.000 Cohesity-Kunden ermittelt, dass 89 Prozent von ihnen auf Basis eines solchen Verfahrens eine Datenreduktion von 96x oder höher erreichte.

Aber auch Enduser können ihre Datenberge, beispielsweise alte Fotos und Filme, manuell oder mit Tools sortieren und Dubletten löschen. Sehr einfach kann man auch die Bildschirmzeit reduzieren oder einfach von Zeit zu Zeit Handy-Fasten. Oder mal einen Urlaub analog, also zumindest tageweise ohne digitale Tools verbringen.

Welche Rolle spielt KI bei der Datenexplosion? Ist sie nur Teil des Problems oder kann sie auch zur Lösung beitragen?

Bei Technologien geht es immer darum, wie wir sie nutzen. Und ja, KI hat einen großen Datenhunger. Sie muss trainiert werden. Das ist stromintensiv, ebenso wie der KI-Betrieb und wie im Übrigen auch jede klassische Suchanfrage im Web.

KI kann aber auch in Zusammenarbeit mit anderen Lösungen die Datenberge automatisiert klassifizieren, konsolidieren oder löschen. Dazu gehören etwa Daten, die seit definierten Zeiträumen nicht mehr aufgerufen wurden. Das bietet großes Potential für eine signifikante Reduzierung von Datenmüll.

Wir haben eine hohe Expertise beim Datenmanagement sowie versierte Entwickler, IT-Architekten und Berater. Dabei hilft KI mit – von der Cloud bis zum Datacenter und vom Schutz der Daten vor Bedrohungen bis zum zuverlässigen Plattform-Datenmanagement.