Big Data, was ist das eigentlich? Was gehört dazu, welche Techniken werden eingesetzt - und wozu das Ganze? Unser Glossar hilft weiter. [...]
Big Data, was ist das eigentlich? Was gehört dazu, welche Techniken werden eingesetzt – und wozu das Ganze? Der Begriff Big Data wurde schon im Jahr 2001 von Douglas Laney, dem damaligen Analysten der Meta Group – heute Gartner – eingeführt. Er beschrieb damit, was damals überall auf der Welt in den Unternehmen passierte: Die Erzeugung von immer größeren Unternehmens- und Kundendaten aus immer unterschiedlicheren Quellen. Laney definierte „Big Data“ als „Daten mit großem Volumen („Volume“), großer Vielfalt an Datenformaten („Variety“) und großer Geschwindigkeit („Velocity“) mit der neue Daten entstehen“.
Im Prinzip geht es heute bei Big Data darum, aus den Daten keine aggregierten Summentabellen zu erzeugen wie früher, sondern den einzelnen Vorgang bis auf Belegebene einzubeziehen und so Muster zu erkennen, die dann „den Weg nach vorne in die Zukunft weisen“. Eine Reihe von Fachbegriffen säumen das Wesen, die Verarbeitung und den Einsatz von Big Data. Hier erklären wir die wichtigsten:
AD TARGETING
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch „passgenaue“ Werbung.
ALGORITHMUS
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.
ANALYTICS
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.
AUTOMATIC IDENTIFICATION AND CAPTURE (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.
BEHAVIORAL ANALYTICS
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.
BUSINESS INTELLIGENCE (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.
CALL DETAIL RECORD (CDR) ANALYSE
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.
CASSANDRA
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).
CLICKSTREAM ANALYTICS
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.
COMPETITIVE MONITORING
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.
COMPLEX EVENT PROCESSING (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.
DATA AGGREGATION
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.
DATA ANALYTICS
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.
DATA ARCHITECTURE AND DESIGN
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.
DATA EXHAUST
Die Daten, die eine Person bei ihrer Internet-Aktivität „nebenbei“ erzeugt.
DATA VIRTUALIZATION
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.
DISTRIBUTED OBJECT
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.
DE-IDENTIFICATION
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.
DISTRIBUTED PROCESSING
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.
DRILL
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.
Be the first to comment