Wikipedia entwickelt maschinenlesbare Datenquelle

Wikidata soll eine freie Wissensdatenbank werden, deren Informationen direkt einsehbar, aber auch maschinenlesbar sind. Informationen werden nicht mehr in den Artikeln des Lexikons aktualisiert, sondern zentral bei Wikidata. [...]

Eine offene Datenbank für das Wissen der Welt ist das Ziel eines neuen Projekts der Wikipedia-Macher: Mit Wikidata sollen die Artikel der Online-Enzyklopädie künftig noch aktueller sein. Der Vorstand von Wikimedia Deutschland, Pavel Richter, stellte das nach seinen Worten erste neue Großprojekt der Wikipedia seit 2006 am Freitag auf der internationalen Wikimedia-Konferenz in Berlin vor.
Wikidata soll eine freie Wissensdatenbank werden, deren Informationen direkt einsehbar, aber auch maschinenlesbar sind. Wikipedia-Artikel enthalten dann Daten wie die Bevölkerungsgröße einer Stadt künftig nicht mehr als Text, sondern als Verweis zur entsprechenden Stelle der Datenbank. Die Informationen werden dann nicht mehr in den einzelnen Artikeln des Lexikons aktualisiert, sondern zentral bei Wikidata.
„Bisher mussten Zahlen wie die Einwohnerzahl von Berlin regelmäßig angepasst werden“, sagte Richter der Nachrichtenagentur dpa. In Zukunft werde diese Information für alle 280 Sprachausgaben der Wikipedia zentral gewartet. Damit falle auch eine mögliche Fehlerquelle weg.
Die Wikidata-Inhalte stehen unter einer Creative-Commons-Lizenz – dieses Gegenmodell zum klassischen Copyright wurde speziell für die freie Verwendung im Internet entwickelt. Auch private Webseiten wie Blogs können somit die Wikidata-Inhalte einbinden. Wikidata werde es auch der Forschung ermöglichen, „ständig wachsende und komplexe wissenschaftliche Datenmengen zu verwalten und daraus wertvolle Schlüsse zu ziehen“, erklärte Chris Mentzel vom wissenschaftlichen Programm der Gordon and Betty Moore Foundation, die sich an der Spendenfinanzierung des Wikidata-Projekts beteiligt.
Um die Entwicklung der Datenbank kümmert sich ab Montag ein Team von zwölf internationalen Software-Experten, die dazu für ein Jahr nach Berlin kommen. Wikidata soll in mehreren Phasen nach und nach freigeschaltet werden. Im Endausbau sollen auch strukturierte Abfragen möglich sein: Dann zeigt Wikidata etwa die zehn größten Städte der Welt an, die eine Frau als Bürgermeisterin haben, die nach 1960 geboren wurde.
„Wie alle Inhalte von Wikipedia wird auch Wikidata frei zugänglich sein“, sagte Richter. „Alles wird transparent und nachvollziehbar sein.“ So könne jeder verfügbare Daten eingeben, die dann der üblichen Qualitätskontrolle von Wikipedia unterworfen seien. Bei strittigen Angaben, etwa zur Frage der Arbeitslosenstatistik, sei es dann die editorische Aufgabe der ehrenamtlichen Wikipedianer zu entscheiden, welche Zahl aus Wikidata verwendet werde.
Der Projektleiter von Wikidata, Denny Vrandecic, erklärte, für die Datenbank werde voraussichtlich die Open-Source-Technik MySQL genutzt. Um komplexere Abfragen zu ermöglichen, sollen aber auch andere Techniken geprüft werden. Als Datenformat werden JSON (JavaScript Object Notation) oder Formate der Metadaten-Technik RDF (Resource Description Framework) verwendet. (apa)


Mehr Artikel

News

Große Sprachmodelle und Data Security: Sicherheitsfragen rund um LLMs

Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und KI als eine Person zu betrachten, die anfällig für Social-Engineering-Angriffe ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*