5. Dezember 2025

Was ist Scraping?

Scraping-Tools, die Daten von Websites extrahieren, sind für Hacker zunehmend eine Alternative zu aufwändigen Attacken. Das müssen Sie wissen. [...]

Vorsicht Scraper: Einmal im Web veröffentlicht, können Informationen eingesammelt und missbraucht werden (c) pixabay.com

Mittlerweile ist es fast schon Gewohnheit, dass durch Hacks und Datenpannen bei Online-Diensten regelmäßig Millionen von Nutzerdaten in falsche Hände geraten. So tauchten etwa im April 2021 die Daten von mehr als 553 Millionen Facebook-Nutzern, 500 Millionen LinkedIn-Accounts und 1,3 Millionen Clubhouse-Nutzer im Web auf.

Eher ungewöhnlich ist jedoch, dass alle drei Betreiber der Dienste bestritten, Opfer eines Hacks geworden zu sein. Es habe sich vielmehr um Scraping gehandelt, hieß es, wobei Daten abgegriffen wurden, die von den Nutzern selbst veröffentlicht wurden und von anderen Mitgliedern oder zumindest ihren Kontakten einsehbar seien, wie vollständiger Namen, Telefonnummer etc. Doch was ist Scraping, wie funktioniert es und wie kann man sich davor schützen?

Scraping – Definition

Scraping als Kurzform von Screen Scraping oder Web Scraping ist eine Funktion, bei der eine Anwendung oder ein Script Informationen von einer Website oder einem Online-Dienst ausliest und speichert – also die Information vom Bildschirm „kratzt“. Bekannte Anwendungsfälle dieser Technik sind etwa Bots von Suchmaschinen wie Google, die kontinuierlich im Internet unterwegs sind, um Websites zu indizieren (Crawling). Aber auch Vergleichsportale nutzen die Methode, um Unmengen an Daten zu sammeln und dann auszuwerten.

In vielen Fällen ist eine derartige Praxis auch im Sinne der Website-Betreiber, da sie dank einer solchen Indexierung möglicherweise eine höhere Reichweite oder mehr Umsatz für ihre Produkte und Services erzielen. Die Technik kann allerdings auch missbräuchlich genutzt werden. Unternehmen sind etwa mittels Scraping in der Lage, die Webshops der Konkurrenz automatisch zu durchforsten.

Im Anschluss können sie dann beispielsweise ihre Preise so anpassen, dass sie immer etwas billiger ist (Preis-Grabbing). Oder sie übernehmen deren Produktbeschreibungen und -bilder (Content-Grabbing) beziehungsweise gleich die ganze Webshop-Konstruktion und sparen sich viel Zeit und Geld. Die auf Facebook eingesammelten Telefonnummern und E-Mail-Adressen werden außerdem in direktem Zusammenhang mit darauffolgenden „Smishing„- und Phishing-Wellen gebracht.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Web Scraping – Funktionsweise

Der Scraping-Prozess besteht im Großen und Ganzen aus zwei Teilen, nämlich dem Aufrufen der gewünschten Web-Seiten (statische und dynamisch erzeugte) und der anschließenden Extraktion der Daten. Es ist eine Vielzahl von Scraping-Tools verfügbar, allein auf Github finden sich zahlreiche Lösungen und Toolkits für die verschiedensten Einsatzgebiete.

Im Fall des Facebook-Scraps, wo auch als privat gekennzeichnete Daten abgesaugt wurden, gehen die Betreiber von einer speziellen Methode aus, die sich eine Ende 2019 geschlossene Lücke in der Kontaktimport-Funktion der Plattform zunutze machte. Dieses Feature soll es Nutzern ermöglichen, Freunde und Bekannte auf Facebook zu identifizieren, indem sie ihr Telefonbuch hochladen. Laut Facebook nutzten die Angreifer diese Funktionalität im großen Stil, um ein Set an Benutzerprofilen abzufragen und dann Informationen über diese erhalten, die in ihren öffentlichen Profilen enthalten sind.

Scraping – legal oder illegal?

Die Antwort lautet: Es kommt darauf an. Werden zum Scraping keine technischen Schutzvorrichtungen überwunden, ist die Handlung selbst nicht illegal – es werden schließlich nur Informationen eingesammelt, die ohnehin öffentlich zugänglich sind. Allerdings kann das, was Sie anschließend mit den Daten anstellen, nachdem diese „gescraped“ wurden, illegal sein. Werden etwa Bilder, Artikel und Ähnliches abgegriffen und anderswo ohne Erlaubnis publiziert, handelt es sich klar um einen Verstoß gegen das Copyright. Dass die Nutzung der Datensätze zum Phishing und ähnlichen Aktivitäten nicht legal sind, dürfte ebenfalls klar sein.

Noch eindeutiger ist das Urteil beim Scraping von persönlichen Daten. So haben DSGVO und andere Datenschutzgesetze klare Vorgaben, wenn es um das Sammeln und Speichern persönlicher Daten geht. Sie müssen nämlich einen rechtmäßigen Grund dafür haben, etwa die ausdrückliche Zustimmung oder ein legitimes Interesse am Sammeln und Speichern der personenbezogenen Daten. Die GDPR verlangt zudem, dass nur so viele Daten verarbeitet werden, wie zur Erfüllung einer Aufgabe notwendig sind (Datensparsamkeit).

Die meisten Betreiber von sozialen Netzwerken schließen außerdem Scraping in ihren Geschäftsbedingungen aus. Dass es wie im Fall von Facebook, LinkedIn und Clubhouse offenbar kaum weitere Kontrollinstanzen zu geben scheint, wirft ein schlechtes Licht auf ihre Sicherheitseinstellungen.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Data Scraping – Abwehrmaßnahmen

Auf Seiten des Website-Betreibers gibt es verschiedene Möglichkeiten, sich vor Scrapern zu schützen. Häufig eingesetzte Methoden sind etwa die Verwendung von Captcha-Abfragen oder einer robots.txt-Datei, um Web-Crawler den Zugang zu verwehren. Außerdem sind Web Application Firewalls meist in der Lage, verdächtige Aktivitäten eines Scrapers zu entdecken.

Zudem sollte man es den automatisierten Datensammlern nicht zu einfach machen. Im Fall Clubhouse sieht es danach aus, dass bei der Erstellung von Benutzerprofilen in der SQL-Datenbank eine fortlaufende Nummerierung verwendet wurde. Die ermöglich Scrapern einen relativ einfachen Zugriff: Ein einfaches Skript, das den Profil-Links eine Nummer hinzufügt, genügt für massenhaftes Data Scraping.

Und auf Anwenderseite? „Nutzer müssen sich darüber im Klaren sein, dass man bei jeder Information, die öffentlich im Weg zugänglich ist, auch Gefahr läuft, Opfer von Scrapern zu werden, egal ob Facebook, LinkedIn, Clubhouse oder sonstwo“, erklären auch die Sicherheitsexperten von Avast: Einmal veröffentlicht, könnten die Informationen eingesammelt werden und man hat keine Kontrolle darüber, wer die Daten kopiert und was damit in den Weiten des Internets angestellt wird.

Die einzige Möglichkeit zu verhindern, dass öffentliche Informationen eingesammelt und auf nicht gewünschte Weise verwendet werden sei entsprechend, dass man sie nicht öffentlich macht. Auch Facebook empfiehlt allen Nutzern, ihre Datenschutzeinstellungen regelmäßig zu überprüfen, um sie fortlaufend an ihre aktuellen Präferenzen anzupassen.

*Manfred Bremmer beschäftigt sich mit (fast) allem, was in die Bereiche Mobile Computing und Communications hineinfällt. Bevorzugt nimmt er dabei mobile Lösungen, Betriebssysteme, Apps und Endgeräte unter die Lupe und überprüft sie auf ihre Business-Tauglichkeit. Bremmer interessiert sich für Gadgets aller Art und testet diese auch.

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

5. Dezember 2025 Nicholas Jackson *

Ein Blick in die Praxis zeigt: IT-Sicherheit scheitert nicht an Technologien oder Fehlverhalten, sondern bereits grundsätzlich an einem Mangel an Unternehmenskultur. Wenn Cybersicherheit in einer Organisation nur als eine schlecht durchgesetzte Aufgabe von anderen für andere verstanden wird, entsteht vielleicht eine oberflächliche Compliance, aber keine wirkliche Cyberresilienz. […]

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

5. Dezember 2025

Um den Erfolg agiler Arbeitsweisen zu messen, setzen Österreichs Unternehmen auf klare Kennzahlen. Dabei ist vor allem die Kundenzufriedenheit wichtig. Gleichzeitig gewinnt Effizienz im Hinblick auf die angespannte Wirtschaftslage an Bedeutung: kürzere Projektlaufzeiten werden immer wichtiger, genauso wie die Kontrolle der Implementierungskosten. […]

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

5. Dezember 2025 Daniel Bader *

Zugegeben, am kryptischen Namen des brandneuen 14-Zoll-Notebooks sollte Hersteller Medion noch etwas feilen. Das, worauf es bei einem Laptop aber ankommt, ist vom Feinsten. Der PCtipp-Test. […]

Michael Maier, Director Austria iteratec (c) iteratec

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

4. Dezember 2025 Michael Maier*

Wie weit wird die Evolution der Künstlichen Intelligenz gehen und wie wird sie sich auf Wirtschaft und Gesellschaft als Ganzes auswirken? Was für Privatpersonen interessante Fragen sind, sind für Unternehmer existenzielle Themen, schließlich müssen diese wirtschaftlich gegenüber Konkurrenten bestehen, von denen viele bereits an einer effektiven Nutzung von KI arbeiten. […]

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

4. Dezember 2025

Damit KI-Anwendungen produktiv und skalierbar eingesetzt werden können, benötigen Unternehmen zunächst eine tragfähige technologische und organisatorische Basis. Insbesondere moderne Datenplattformen, klare Governance-Strukturen und eine hohe Datenqualität gelten als Voraussetzung für erfolgreiche KI-Nutzung. Aber genau hier besteht noch Nachholbedarf. […]

Diese Trends bestimmen 2026 das SAP-Universum

4. Dezember 2025

Vor allem Datensouveränität, Compliance und das nahende Ende des Supports für Legacy-Lösungen stehen im Fokus – neben den Dauerthemen Cloud und KI. […]

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

4. Dezember 2025

Die neue Marke vereint den operativen Kern des Tech-Consulting-Dienstleisters und bekräftigt sein Engagement, Wirtschaft und Gesellschaft mit Technologie zu unterstützen. […]

Produktionsplanung 2026: Worauf es ankommt

4. Dezember 2025

Resilienz gilt als das neue Patentrezept, um aktuelle und kommende Krisen nicht nur zu meistern, sondern sogar gestärkt daraus hervorzugehen. Doch Investitionen in die Krisenprävention können zu Lasten der Effizienz gehen. Ein Dilemma, das sich in den Griff bekommen lässt. […]

Monitor Eizo FlexScan EV2740S im Test

4. Dezember 2025 Daniel Bader *

Was soll denn an einem 27 Zoll großen Monitor für Büroumgebungen schon besonders sein? Vieles, wie unser Test klar macht. […]

Was ist Scraping?

Scraping-Tools, die Daten von Websites extrahieren, sind für Hacker zunehmend eine Alternative zu aufwändigen Attacken. Das müssen Sie wissen. [...]

Scraping – Definition

Web Scraping – Funktionsweise

Scraping – legal oder illegal?

Data Scraping – Abwehrmaßnahmen

Mehr Artikel

Mehr als nur ein Compliance-Kriterium: Cybersicherheit ist eine Angelegenheit der Unternehmenskultur

Agile Transformation scheitert nicht am Budget, sondern an der Unternehmenskultur

Copilot-Notebook Medion SPRCHRGD 14 S2 (MD62722) im Test

KI-Transformation in Unternehmen – Eine Revolution in fünf Schritten

Künstliche Intelligenz: Dateninfrastruktur ist wichtiger als der Use Case

Diese Trends bestimmen 2026 das SAP-Universum

Rebranding: Tietoevry schlägt mit „Tieto“ ein neues Kapitel auf

Produktionsplanung 2026: Worauf es ankommt

Monitor Eizo FlexScan EV2740S im Test

Be the first to comment

Leave a Reply Antwort abbrechen