Was ist was bei Big Data?

Big Data, was ist das eigentlich? Was gehört dazu, welche Techniken werden eingesetzt - und wozu das Ganze? Unser Glossar hilft weiter. [...]

Big Data, was ist das eigentlich? Was gehört dazu, welche Techniken werden eingesetzt – und wozu das Ganze? Der Begriff Big Data wurde schon im Jahr 2001 von Douglas Laney, dem damaligen Analysten der Meta Group – heute Gartner – eingeführt. Er beschrieb damit, was damals überall auf der Welt in den Unternehmen passierte: Die Erzeugung von immer größeren Unternehmens- und Kundendaten aus immer unterschiedlicheren Quellen. Laney definierte „Big Data“ als „Daten mit großem Volumen („Volume“), großer Vielfalt an Datenformaten („Variety“) und großer Geschwindigkeit („Velocity“) mit der neue Daten entstehen“.

Im Prinzip geht es heute bei Big Data darum, aus den Daten keine aggregierten Summentabellen zu erzeugen wie früher, sondern den einzelnen Vorgang bis auf Belegebene einzubeziehen und so Muster zu erkennen, die dann „den Weg nach vorne in die Zukunft weisen“. Eine Reihe von Fachbegriffen säumen das Wesen, die Verarbeitung und den Einsatz von Big Data. Hier erklären wir die wichtigsten:

AD TARGETING
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch „passgenaue“ Werbung.

ALGORITHMUS
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.

ANALYTICS
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.

AUTOMATIC IDENTIFICATION AND CAPTURE (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.

BEHAVIORAL ANALYTICS
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.

BUSINESS INTELLIGENCE (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.

CALL DETAIL RECORD (CDR) ANALYSE
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.

CASSANDRA
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).

CLICKSTREAM ANALYTICS
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.

COMPETITIVE MONITORING
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.

COMPLEX EVENT PROCESSING (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.

DATA AGGREGATION
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.

DATA ANALYTICS
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.

DATA ARCHITECTURE AND DESIGN
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.

DATA EXHAUST
Die Daten, die eine Person bei ihrer Internet-Aktivität „nebenbei“ erzeugt.

DATA VIRTUALIZATION
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.

DISTRIBUTED OBJECT
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.

DE-IDENTIFICATION
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.

DISTRIBUTED PROCESSING
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.

DRILL
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.


Mehr Artikel

News

KI ist das neue Lernfach für uns alle

Die Mystifizierung künstlicher Intelligenz treibt mitunter seltsame Blüten. Dabei ist sie weder der Motor einer schönen neuen Welt, noch eine apokalyptische Gefahr. Sie ist schlicht und einfach eine neue, wenn auch höchst anspruchsvolle Technologie, mit der wir alle lernen müssen, sinnvoll umzugehen. Und dafür sind wir selbst verantwortlich. […]

Case-Study

Erfolgreiche Migration auf SAP S/4HANA

Energieschub für die IT-Infrastruktur von Burgenland Energie: Der Energieversorger hat zusammen mit Tietoevry Austria die erste Phase des Umstieges auf SAP S/4HANA abgeschlossen. Das burgenländische Green-Tech-Unternehmen profitiert nun von optimierten Finanz-, Logistik- und HR-Prozessen und schafft damit die Basis für die zukünftige Entflechtung von Energiebereitstellung und Netzbetrieb. […]

FH-Hon.Prof. Ing. Dipl.-Ing. (FH) Dipl.-Ing. Dr. techn. Michael Georg Grasser, MBA MPA CMC, Leiter FA IT-Infrastruktur der Steiermärkischen Krankenanstaltengesellschaft m.b.H. (KAGes). (c) © FH CAMPUS 02
Interview

Krankenanstalten im Jahr 2030

Um sich schon heute auf die Herausforderungen in fünf Jahren vorbereiten zu können, hat die Steiermärkische Krankenanstaltengesellschaft (KAGes) die Strategie 2030 formuliert. transform! sprach mit Michael Georg Grasser, Leiter der Fachabteilung IT-Infrastruktur. […]

News

Risiken beim Einsatz von GenAI in vier Schritten senken

Die Themen Datenschutz und Modellverwaltung sind in der Datenwissenschaft zwar nicht neu, doch GenAI hat ihnen eine neue Dimension der Komplexität verliehen, die Datenschutzbeauftragte vor neue Herausforderungen stellt. Die Data-Science-Spezialisten von KNIME haben die Potenziale und Risiken der KI-Nutzung beim Einsatz bei der Datenarbeit zusammengefasst und empfehlen vier Schritte zur Risikominimierung. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*