Trainingsdaten für KI speisen sich überproportional aus US-Quellen – mit spürbaren Folgen für Modellverhalten und Governance

Der aktuelle Fastly Threat Insights Report zeigt: Ein Großteil der Inhalte, die KI-Crawler für Training und Grounding einsammeln, stammt aus Nordamerika – was die Ausrichtung vieler Modelle sichtbar prägt. ITWelt.at hat sich die Studie angesehen. [...]

Trainings- und Grounding-Inhalte prägen, wie Modelle Sachverhalte gewichten und Formulierungen priorisieren. (c) Pexels

Die Studie „Q2 2025 Fastly Threat Insights Report“ konzentriert sich auf KI-Bot-Verkehr – also auf Crawler, die Inhalte für Modelltraining oder Indexe sammeln, und auf Fetcher, die bei der Inferenz in Echtzeit Webseiten abrufen. Grundlage sind Telemetriedaten aus Fastlys Next-Gen WAF und Bot-Management zwischen dem sechzehnten April und dem fünfzehnten Juli 2025; laut Anbieter umfasst die Plattform über einhundertdreißigtausend Anwendungen und APIs und inspiziert zuletzt im Schnitt mehr als 6,5 Billionen Anfragen pro Monat. Suchmaschinen-Crawler fließen bewusst nicht ein, um Fehlinterpretationen zu vermeiden; betrachtet werden nur Bots mit eindeutigem KI-Bezug. Wo keine verifizierbaren Signaturen vorliegen, erfolgt die Zuordnung anhand von Heuristiken – praxistauglich, aber nicht unfehlbar. Das bildet beobachtbares Verhalten im Web ab, nicht die Nutzung reiner Offlinedatensätze.

Nordamerikanische Dominanz als struktureller Bias

Kernaussage der Studie: Die meisten KI-Modelle werden überwiegend mit Inhalten trainiert, die aus Nordamerika stammen. Diese Konzentration soll die „Alignment“-Tendenzen der Modelle beeinflussen – also, welche Perspektiven, Beispiele und impliziten Wertungen sie bevorzugt reproduzieren. Anders formuliert: Wenn Trainings- und Grounding-Quellen geografisch ungleich verteilt sind, neigen auch Antworten dazu, kulturelle und geopolitische Sichtweisen dieser Regionen zu spiegeln. Eine ausgewogenere Durchmischung könnte die Generalisierbarkeit verbessern, bleibt laut Analyse aber die Ausnahme.

Einige Crawler stechen als Gegenbeispiel hervor: Diffbot und der ICC Crawler indexieren relativ mehr Inhalte aus EMEA und setzen damit punktuell Kontrapunkte zur Nordamerika-Dominanz. In APAC wiederum fällt eine starke Fokussierung auf Japan auf: SoftBank und das NICT (National Institute of Information and Communications Technology) indexieren den größten Anteil APAC-spezifischer Inhalte – mit der Folge, dass Modelle, die diese Quellen besonders stark nutzen, japanische Informationslandschaften überproportional reflektieren könnten.

Warum die Herkunft der Inhalte zählt

Trainings- und Grounding-Inhalte prägen, wie Modelle Sachverhalte gewichten und Formulierungen priorisieren. Wenn kommerzielle, rechtliche oder politische Themen überwiegend in US-Kontexten vorkommen, verankern sich Formate, Terminologien und Normen, die außerhalb Nordamerikas nur bedingt passen. Das betrifft Detailfragen – etwa juristische Bezüge, Branchenjargon oder kulturelle Codes – ebenso wie Tonalität und Prioritäten in der Darstellung. Der Report warnt nicht vor unmittelbaren Fehlfunktionen, betont aber die „potenziellen Auswirkungen auf Anwendbarkeit und Relevanz“ in globalen Szenarien, wenn die Datenbasis regional einseitig ist. Für Betreiberinnen und Betreiber in EMEA bedeutet das: Ergebnisse können korrekt, aber im Detail nicht immer anschlussfähig sein – etwa bei regulatorischen Feinheiten oder impliziten Annahmen über Märkte und Nutzerverhalten.

Rolle offener Datensätze und die Breite von GPTBot

Common Crawl bleibt eine zentrale Zutat im Ökosystem: Der frei zugängliche Korpus deckt laut Report 63 Prozent der von KI-Bots erfassten einzigartigen Websites ab und soll damit einen wichtigen Beitrag zur Demokratisierung großer Webdaten leisten. Gleichzeitig zeigt sich, dass OpenAIs GPTBot in der Breite auffällt: Er erreicht Inhalte von 95 Prozent der von KI-Bots gecrawlten Websites und verschafft sich damit Zugang zu besonders vielfältigen Quellen – obwohl beim reinen Anfragevolumen Meta und Google vorne liegen. Dieses Profil – hohe Domain-Abdeckung statt maximaler Tiefe – könnte zu einer breiteren inhaltlichen Streuung beitragen, ändert aber nichts am Gesamtbild der regionalen Dominanz nordamerikanischer Inhalte.

Regionale Unterschiede aus Betreiberperspektive

Neben der Herkunft der Inhalte betrachtet die Studie, welche Bot-Typen Website-Betreibende je Region dominierend sehen. Nordamerika verzeichnet fast neunzig Prozent Crawler-Anteil am KI-Bot-Verkehr; EMEA erlebt hingegen eine fetcherlastige Verteilung mit neunundfünfzig Prozent. Lateinamerika (zweiundsiebzig Prozent Crawler) und APAC (achtundfünfzig Prozent Crawler) liegen dazwischen. Praktisch heißt das: In Nordamerika lohnt es sich, Crawler-Regeln zuerst zu schärfen; in EMEA stehen dagegen Fetcher-Kontrollen öfter an erster Stelle, weil Echtzeitabrufe Metriken, Performance und Kosten stärker beeinflussen.

Crawler und Fetcher – kurz eingeordnet

Im Gesamtbild entfallen rund achtzig Prozent des KI-Bot-Verkehrs auf Crawler und zwanzig Prozent auf Fetcher. Crawlerseitig dominieren Meta, Google und OpenAI mit zusammen fünfundneunzig Prozent des Volumens. Fetcher werden in der Spitze von OpenAI geprägt: ChatGPT-User und OAI-SearchBot stehen für nahezu achtundneunzig Prozent der Fetcher-Anfragen. Dass Fetcher in der Praxis heikle Lastspitzen erzeugen können, zeigt ein dokumentierter Peak von neununddreißigtausend Anfragen pro Minute auf eine einzelne Website – Effekte, die kurzfristig DDoS-ähnlich wirken, ohne böswillige Absicht.

Branchenfokus und Inhaltsprofile

Was die Inhaltsprofile angeht, richten sich KI-Crawler laut Report besonders auf Commerce, Media & Entertainment sowie High Tech. Diese Bereiche liefern häufig aktualisierte, strukturierte und dichte Inhalte – von Produktlisten und technischen Dokumentationen bis zu News und Rezensionen –, die sich fürs Training oder für Grounding eignen. Auffällig ist die Präferenz der vier großen Crawler (Meta, Google, OpenAI und Claude) für Commerce; kommerzielle Dienste wie Timpibot und Diffbot setzen deutlich stärker auf Medieninhalte und ergänzen damit offene Quellen. Der inhaltliche Fokus erklärt, warum sich Modelle in bestimmten Domänen schneller und reichhaltiger weiterentwickeln als in anderen – und warum regionale Verzerrungen stärker durchschlagen, wenn relevante Brancheninhalte vor allem aus bestimmten Weltregionen stammen.

Governance-Fragen: Zugriff, Fair Use und Lizenzierung

Die beobachtete Nordamerika-Lastigkeit wirft Governance-Fragen auf. Wenn Modelle intensiv auf US-Inhalte zugreifen, stehen außerhalb der USA ansässige Anbieter vor der Wahl, ob und wie sie ihre Inhalte für Training oder Inferenz bereitstellen. Standards wie robots.txt und X-Robots-Tag markieren Grenzen, reichen jedoch allein nicht, da nicht alle Bots sie zuverlässig respektieren. Der Report empfiehlt daher eine mehrschichtige Steuerung aus klaren Signalen, Rate Limits, IP- und ASN-Filterung sowie – wo sinnvoll – dem Umleiten auf Lizenzierungsmodelle, um Zugriff zu kontrollieren und zu monetarisieren. Aus Sicht der Bot-Betreiber gelten Transparenz, verifizierbare IP-Ranges und vorhersehbare Crawl-Zeitpläne als gute Praxis, um Fehleinstufungen zu vermeiden und Vertrauen aufzubauen. Common Crawls vorhersehbare zweiwöchige Crawl-Zyklen dienen hier als Referenz.

Was Unternehmen aus dem NA-Bias ableiten

Für Sicherheits-, Daten- und Produktteams außerhalb Nordamerikas entsteht ein doppelter Handlungsbedarf. Erstens geht es um die Steuerung des Bot-Zugriffs: Crawler und Fetcher müssen so reguliert werden, dass Infrastruktur, Metriken und Content-Strategie belastbar bleiben – insbesondere dort, wo Fetcher-Spitzen in EMEA-Märkten häufiger auftreten. Zweitens sollten Teams die inhaltliche Herkunft in ihren Bewertungsrahmen aufnehmen: Wer GenAI-Funktionen in Produkten, Serviceprozessen oder Wissensportalen integriert, testet gezielt auf regionales Verständnis, regulatorische Anschlussfähigkeit und Branchennähe – und gleicht bei Bedarf mit lokalen Korpora, gezielten Grounding-Quellen oder promptseitigen Leitplanken nach. Die Studie liefert hierfür das empirische Fundament: Nordamerika dominiert die Datenbasis, EMEA und APAC sind je nach Bot und Branche unterschiedlich stark vertreten, mit japanischem Schwerpunkt in APAC.

Das Fazit der ITWelt-Redaktion

Die Analyse macht deutlich: Nicht die Technik allein entscheidet über Qualität und Relevanz von KI-Antworten, sondern die Herkunft der Inhalte. Solange Trainings- und Grounding-Daten stark nordamerikalastig sind, spiegeln viele Modelle diese Perspektiven – mit Vorteilen bei US-zentrierten Themen, aber mit Lücken in anderen Rechts- und Kulturkreisen. Wer mithalten will, steuert Bot-Zugriffe aktiv, prüft Bias systematisch und ergänzt die Datenbasis gezielt um regionale Quellen. Die Studie kann hier heruntergeladen werden.