IT-Wissen: Big Data – Vermessung der Realität

Lange galten unstruk­turierte Datenberge als "das weiße Rauschen" der Informationstechnologie. "Big Data" ist der Versuch, riesige Daten­mengen zu organisieren und nützliche Informati­onen aus den Gigabyte­-Bergen zu fördern. [...]

Die bisher größte von Menschen gebaute Maschine steht hundert Meter tief un­ter der Erde in der Nähe von Genf: Der LHC (Large Hadron Collider) ist ein 27 Ki­lometer langer Teilchenbeschleuniger, der mit dem Nachweis des Higgs-­Bosons Einblicke in die Entstehungsgeschichte des Universums verspricht. Nicht nur die Anlage selbst, son­dern auch die erfassten Messdaten haben ei­nen Umfang der Superlative. Der rohe Da­tenstrom der De  tektoren beträgt während des Betriebs bis zu 300 Gigabyte pro Sekun­de. An Daten, die auf ihre Auswertung war­ten, produziert der LHC im angeschlossenen, auf 35 Länder verteilten Computernetzwerk fast 15 Petabyte pro Jahr. Auch für ein Groß­experiment eine erhebliche Datenmenge, für die rund 15 000 handelsübliche Festplatten zu je einem Terabyte Kapazität nötig wären. Trotz dieser Größenordnung haben Daten­mengen mit so einem Umfang einen hand­lichen kurzen Namen: „Big Data“. Der Be­griff steht für Informationsmengen, die sich nicht sinnvoll in herkömmlichen Datenban­ken speichern lassen und zur Auswertung statistische Ansätze erfordern. Die Zähmung der Datenfluten verspricht nicht weniger als eine neue Vermessung der Realität.
1.) NEUE ERKENNTNISSE AUS ROHEN DATEN
Die Experimente der Teilchenphysik sind ein Beispiel dafür, wie Big Data unter kollosalem Aufwand unser Verständnis der Welt ändern könnten. Einen deutlich kostengünstigeren Ansatz, aus Big Data neue Erkenntnisse zu gewinnen, verfolgen die Ingenieure John Guttag und Collin Stultz. Ihre Datenquelle besteht aus entsorgten Enzephalo­-Elektro­grammen (EEG), welche von Herzpatienten stammen. Mithilfe von Data­-Mining­-Tech­nik sowie lernfähigen Auswertungssystemen werden diese enormen Datenmengen, die zu­vor als wertloser Datenmüll betrachtet wur­den, nach Auffälligkeiten untersucht. Die Er­gebnisse zeigen bereits, dass drei vormals unbekannte Abnormalitäten im EEG mit dem Risiko eines Herzinfarktes korrelieren. Die Forscher sind sich sicher, dass ihre Aus­wertung bald die Diagnose von wiederkeh­renden Infarkten deutlich verbessert.
2.) INFORMATIONSFLUT AUS OZEANEN
Meeresbiologen der Australischen Macqua­rie University setzen ebenfalls auf Big Data, um den Ozean als Lebensraum besser zu ver­stehen. Seit 2007 werden das Meer und seine Fauna rund um den australischen Kontinent mit dem Integrated Marine Observing Sys­tem überwacht. Schwimmende Sensoren, Tauchroboter, Messstationen, Markierungen an Wassertieren und Satelliten tragen Tera­byte an Informationen zusammen. Für deren Auswertung wird der Datenstrom kontinu­ierlich in einer gigantischen Datenbank er­fasst. Big Data erlauben die Aufzeichnung von Tierwanderungen und Meeresströmun­gen sowie Was  sertemperatur und Salzgehalt.
3.) BIG DATA ALS KOLLEKTIVES GEDÄCHTNIS
Während die Wissenschaft gezielt Informati­onen sammelt, sind das Internet und seine Nutzer eine unerschöpfliche Quelle sponta­ner Daten. Wir produzieren jedes Jahr ein Vielfaches der Informationen des Vor  jahres und diese Kurve steigt exponentiell: Seit der Dämmerung des Homo Sapiens bis zum Jahr 2003 produzierte die Menschheit 5 Exabyte (5 Milliarden Gigabyte) an Daten. 2011 wur­de diese Menge in zwei Tagen produziert. Während bisher Forschungseinrichtungen, Behörden, Versicherungen und Regierungen Zugriff auf personenbezogene Datenmassen hatten, sind mit Google, Facebook und Twit­ter inzwischen auch Unternehmen im Besitz von benutzergenerierten Big Data. Und sie versuchen, diese Daten gewinnbringend aus­zuwerten. Google geht es um die Präsentati­on treffender Suchergebnisse und dabei um den perfekten Algorithmus für Werbeeinblen­dungen. Facebook und Twitter werden zu gigantischen sozialen Versuchslaboren, und die Anbieter suchen nach Wegen, Big Data zu monetarisieren. Die Auswertungsmethoden stehen erst am Anfang, und gespeicherte Da­ten bleiben größtenteils noch ungenutzt.
4.) SPEICHERN IST BILLIGER ALS LÖSCHEN
Auf dem eigenen PC oder im Maileingangsordner kann jeder mit ein wenig Geduld und Konzentration selbst bei großen Datenmengen noch aufräumen und die Informationen klassifizieren, aufheben oder auch löschen. Den Wert von Informationen können wir anhand ihrer Aktualität, Nützlichkeit und Priorität gut selbst einschätzen. Was nicht mehr benötigt wird, landet im Papierkorb.
Bei Unternehmen, die Informationen über ihre Dienste sammeln, ist eine manuelle Klassifizierung nicht mehr möglich. Dienstanbieter sammeln nicht nur stetig neue Daten ihrer Anwender und Kunden. Es stellt sich den Unternehmen zudem die Frage, ob die von Nutzern gelöschten Daten einen Wert haben könnten, wenn bessere Analysemöglichkeiten zur Verfügung stünden. Oft ist es ungeklärt, wem die Daten aus rechtlicher Sicht gehören. Bruce Schneier, bekannter Computersicherheits­ und Verschlüsselungsexperte, wies zur Konferenz  „IT­-Defense 2012“ da­rauf hin, dass es für die Betreiber von Cloud­Speichern und Netzwerken einfach billiger sei, Daten zu speichern, als sie zu löschen.
5.) AUSLAUFMODELLE: DAS ENDE VON THEORIEN
„Alle Modelle sind falsch, aber einige sind nützlich“, stellte vor rund 30 Jahren der britische Statistiker George E. P. Box fest. Nur Modelle konnten Daten erklären und Sachverhalte verständlich machen, von kosmologischen Gleichungen bis zur Verhaltensforschung. Wissenschaftler sind darauf trainiert, zwischen korrelierenden Daten keine voreiligen Kausalketten zu konstruieren. Denn es könnte sich bei der beobachteten Wechselwirkung schlicht um Zufall oder Messfehler handeln.
Es geht stattdessen darum, den Mechanismus zu verstehen, der X und Y verbindet, und daraus ein Modell zu konstruieren. Daten ohne Modell waren bisher ohne wissenschaftlichen Wert. Petabyte an Daten erlauben es aber, allein durch Korrelation nach Zusammenhängen zu suchen. Big Data erlauben die Auswertung ohne vorherige Hypothesen, an deren Stelle treten Rechenleistung und statistische Algorithmen.
Bisher ist dieses Potenzial von Big Data reine Science Fiction. An der IT­-Infrastruktur zur wissenschaftlichen Auswertung von Petabyte wird schon gearbeitet: Im Projekt „Cluster Exploratory“ von IBM und Google wurde zusammen mit sechs Universitäten in den USA ein verteilter Supercomputer aufgebaut. Die ersten Experimente auf dem System untersuchen Zusammenhänge in Messdaten aus der Hirnforschung. In der Pilotphase des Projekts geht es um die Verfeinerung der Technologie. Ein Erfolg dieses Projekts verspricht nicht weniger als eine Revolution wissenschaftlicher Analysemöglichkeiten.
EGO-TRACHUNG – DER DIGITALE FINGERABDRUCK
Im Jahr 2013 wird der Datenverkehr im Internet 667 Exabyte ausmachen und nur wahre Medienasketen hinterlassen im Internet keine Spuren. Denn die populären Möglichkeiten zur Korrespondenz, zum Datenaustausch und für soziale Vernetzung nutzen nicht mehr den eigenen PC, sondern den schier unbe­grenzten Speicherplatz in der Cloud. Bei sozialen Netzwerken, Maildiensten sowie Smartphone­-Apps liegen der physikalische Speicherplatz und damit die Herrschaft über die Daten beim Anbieter. Verbrau­cherschutzorganisationen warnen seit lan­gem davor, zu viel Persönliches in den Net­zen preiszugeben. Verwendet werden die Dienste trotzdem. Denn der Nutzen und das soziale Leben stehen im Vordergrund.
Die eigene Datensammelwut und deren unüberlegte Veröffentlichung kann ganz reale Implikationen haben: Das Nike+ Fuelband ist ein Armband, das die Körper­aktivität des Trägers protokolliert, um seinen Kalorienverbrauch zu messen und damit Trainingsprogramme zu überwachen. Eine Informationsquelle, die Nike nahesteht, hat den Fall eines sportlichen Technik­-Freaks pu­blik gemacht, der die Daten von Nike+ mit seiner ebenfalls sportbegeisterten Partnerin teilte und besonders gründlich bei der Auf­zeichnung seines Kalorienverbrauches war. Die Partnerin wurde gehörig misstrauisch, als der Energieverbrauch ihres Freundes regelmä­ßig zwischen ein und zwei Uhr nachts beson­ders hoch war. Immer dann, wenn der Freund behauptete, alleine zu Hause zu sein. Die unerklärlichen Aktivitäten stellten sich als Seitensprung heraus. Der Wahr­heitsgehalt der Anekdote lässt sich nicht nachprüfen – plausibel ist sie allemal. Und eine Warnung, dass Datenschutz wenig bringt, wenn jemand im Rausch der Tech­nik oder im Rausch der Hormone selbst zu viele Informationen über sich preisgibt.
* Marcel Buchbinder ist Redakteur der deutschen PC-Welt.


Mehr Artikel

Be the first to comment

Leave a Reply

Your email address will not be published.


*