IT-Wissen: Big Data – Vermessung der Realität

Lange galten unstrukturierte Datenberge als "das weiße Rauschen" der Informationstechnologie. "Big Data" ist der Versuch, riesige Datenmengen zu organisieren und nützliche Informationen aus den Gigabyte-Bergen zu fördern. [...]

Die bisher größte von Menschen gebaute Maschine steht hundert Meter tief unter der Erde in der Nähe von Genf: Der LHC (Large Hadron Collider) ist ein 27 Kilometer langer Teilchenbeschleuniger, der mit dem Nachweis des Higgs-Bosons Einblicke in die Entstehungsgeschichte des Universums verspricht. Nicht nur die Anlage selbst, sondern auch die erfassten Messdaten haben einen Umfang der Superlative. Der rohe Datenstrom der De tektoren beträgt während des Betriebs bis zu 300 Gigabyte pro Sekunde. An Daten, die auf ihre Auswertung warten, produziert der LHC im angeschlossenen, auf 35 Länder verteilten Computernetzwerk fast 15 Petabyte pro Jahr. Auch für ein Großexperiment eine erhebliche Datenmenge, für die rund 15 000 handelsübliche Festplatten zu je einem Terabyte Kapazität nötig wären. Trotz dieser Größenordnung haben Datenmengen mit so einem Umfang einen handlichen kurzen Namen: „Big Data“. Der Begriff steht für Informationsmengen, die sich nicht sinnvoll in herkömmlichen Datenbanken speichern lassen und zur Auswertung statistische Ansätze erfordern. Die Zähmung der Datenfluten verspricht nicht weniger als eine neue Vermessung der Realität.
1.) NEUE ERKENNTNISSE AUS ROHEN DATEN
Die Experimente der Teilchenphysik sind ein Beispiel dafür, wie Big Data unter kollosalem Aufwand unser Verständnis der Welt ändern könnten. Einen deutlich kostengünstigeren Ansatz, aus Big Data neue Erkenntnisse zu gewinnen, verfolgen die Ingenieure John Guttag und Collin Stultz. Ihre Datenquelle besteht aus entsorgten Enzephalo-Elektrogrammen (EEG), welche von Herzpatienten stammen. Mithilfe von Data-Mining-Technik sowie lernfähigen Auswertungssystemen werden diese enormen Datenmengen, die zuvor als wertloser Datenmüll betrachtet wurden, nach Auffälligkeiten untersucht. Die Ergebnisse zeigen bereits, dass drei vormals unbekannte Abnormalitäten im EEG mit dem Risiko eines Herzinfarktes korrelieren. Die Forscher sind sich sicher, dass ihre Auswertung bald die Diagnose von wiederkehrenden Infarkten deutlich verbessert.
2.) INFORMATIONSFLUT AUS OZEANEN
Meeresbiologen der Australischen Macquarie University setzen ebenfalls auf Big Data, um den Ozean als Lebensraum besser zu verstehen. Seit 2007 werden das Meer und seine Fauna rund um den australischen Kontinent mit dem Integrated Marine Observing System überwacht. Schwimmende Sensoren, Tauchroboter, Messstationen, Markierungen an Wassertieren und Satelliten tragen Terabyte an Informationen zusammen. Für deren Auswertung wird der Datenstrom kontinuierlich in einer gigantischen Datenbank erfasst. Big Data erlauben die Aufzeichnung von Tierwanderungen und Meeresströmungen sowie Was sertemperatur und Salzgehalt.
3.) BIG DATA ALS KOLLEKTIVES GEDÄCHTNIS
Während die Wissenschaft gezielt Informationen sammelt, sind das Internet und seine Nutzer eine unerschöpfliche Quelle spontaner Daten. Wir produzieren jedes Jahr ein Vielfaches der Informationen des Vor jahres und diese Kurve steigt exponentiell: Seit der Dämmerung des Homo Sapiens bis zum Jahr 2003 produzierte die Menschheit 5 Exabyte (5 Milliarden Gigabyte) an Daten. 2011 wurde diese Menge in zwei Tagen produziert. Während bisher Forschungseinrichtungen, Behörden, Versicherungen und Regierungen Zugriff auf personenbezogene Datenmassen hatten, sind mit Google, Facebook und Twitter inzwischen auch Unternehmen im Besitz von benutzergenerierten Big Data. Und sie versuchen, diese Daten gewinnbringend auszuwerten. Google geht es um die Präsentation treffender Suchergebnisse und dabei um den perfekten Algorithmus für Werbeeinblendungen. Facebook und Twitter werden zu gigantischen sozialen Versuchslaboren, und die Anbieter suchen nach Wegen, Big Data zu monetarisieren. Die Auswertungsmethoden stehen erst am Anfang, und gespeicherte Daten bleiben größtenteils noch ungenutzt.
4.) SPEICHERN IST BILLIGER ALS LÖSCHEN
Auf dem eigenen PC oder im Maileingangsordner kann jeder mit ein wenig Geduld und Konzentration selbst bei großen Datenmengen noch aufräumen und die Informationen klassifizieren, aufheben oder auch löschen. Den Wert von Informationen können wir anhand ihrer Aktualität, Nützlichkeit und Priorität gut selbst einschätzen. Was nicht mehr benötigt wird, landet im Papierkorb.
Bei Unternehmen, die Informationen über ihre Dienste sammeln, ist eine manuelle Klassifizierung nicht mehr möglich. Dienstanbieter sammeln nicht nur stetig neue Daten ihrer Anwender und Kunden. Es stellt sich den Unternehmen zudem die Frage, ob die von Nutzern gelöschten Daten einen Wert haben könnten, wenn bessere Analysemöglichkeiten zur Verfügung stünden. Oft ist es ungeklärt, wem die Daten aus rechtlicher Sicht gehören. Bruce Schneier, bekannter Computersicherheits und Verschlüsselungsexperte, wies zur Konferenz „IT-Defense 2012“ darauf hin, dass es für die Betreiber von CloudSpeichern und Netzwerken einfach billiger sei, Daten zu speichern, als sie zu löschen.
5.) AUSLAUFMODELLE: DAS ENDE VON THEORIEN
„Alle Modelle sind falsch, aber einige sind nützlich“, stellte vor rund 30 Jahren der britische Statistiker George E. P. Box fest. Nur Modelle konnten Daten erklären und Sachverhalte verständlich machen, von kosmologischen Gleichungen bis zur Verhaltensforschung. Wissenschaftler sind darauf trainiert, zwischen korrelierenden Daten keine voreiligen Kausalketten zu konstruieren. Denn es könnte sich bei der beobachteten Wechselwirkung schlicht um Zufall oder Messfehler handeln.
Es geht stattdessen darum, den Mechanismus zu verstehen, der X und Y verbindet, und daraus ein Modell zu konstruieren. Daten ohne Modell waren bisher ohne wissenschaftlichen Wert. Petabyte an Daten erlauben es aber, allein durch Korrelation nach Zusammenhängen zu suchen. Big Data erlauben die Auswertung ohne vorherige Hypothesen, an deren Stelle treten Rechenleistung und statistische Algorithmen.
Bisher ist dieses Potenzial von Big Data reine Science Fiction. An der IT-Infrastruktur zur wissenschaftlichen Auswertung von Petabyte wird schon gearbeitet: Im Projekt „Cluster Exploratory“ von IBM und Google wurde zusammen mit sechs Universitäten in den USA ein verteilter Supercomputer aufgebaut. Die ersten Experimente auf dem System untersuchen Zusammenhänge in Messdaten aus der Hirnforschung. In der Pilotphase des Projekts geht es um die Verfeinerung der Technologie. Ein Erfolg dieses Projekts verspricht nicht weniger als eine Revolution wissenschaftlicher Analysemöglichkeiten.
EGO-TRACHUNG – DER DIGITALE FINGERABDRUCK
Im Jahr 2013 wird der Datenverkehr im Internet 667 Exabyte ausmachen und nur wahre Medienasketen hinterlassen im Internet keine Spuren. Denn die populären Möglichkeiten zur Korrespondenz, zum Datenaustausch und für soziale Vernetzung nutzen nicht mehr den eigenen PC, sondern den schier unbegrenzten Speicherplatz in der Cloud. Bei sozialen Netzwerken, Maildiensten sowie Smartphone-Apps liegen der physikalische Speicherplatz und damit die Herrschaft über die Daten beim Anbieter. Verbraucherschutzorganisationen warnen seit langem davor, zu viel Persönliches in den Netzen preiszugeben. Verwendet werden die Dienste trotzdem. Denn der Nutzen und das soziale Leben stehen im Vordergrund.
Die eigene Datensammelwut und deren unüberlegte Veröffentlichung kann ganz reale Implikationen haben: Das Nike+ Fuelband ist ein Armband, das die Körperaktivität des Trägers protokolliert, um seinen Kalorienverbrauch zu messen und damit Trainingsprogramme zu überwachen. Eine Informationsquelle, die Nike nahesteht, hat den Fall eines sportlichen Technik-Freaks publik gemacht, der die Daten von Nike+ mit seiner ebenfalls sportbegeisterten Partnerin teilte und besonders gründlich bei der Aufzeichnung seines Kalorienverbrauches war. Die Partnerin wurde gehörig misstrauisch, als der Energieverbrauch ihres Freundes regelmäßig zwischen ein und zwei Uhr nachts besonders hoch war. Immer dann, wenn der Freund behauptete, alleine zu Hause zu sein. Die unerklärlichen Aktivitäten stellten sich als Seitensprung heraus. Der Wahrheitsgehalt der Anekdote lässt sich nicht nachprüfen – plausibel ist sie allemal. Und eine Warnung, dass Datenschutz wenig bringt, wenn jemand im Rausch der Technik oder im Rausch der Hormone selbst zu viele Informationen über sich preisgibt.
* Marcel Buchbinder ist Redakteur der deutschen PC-Welt.