Künstliche Intelligenz lernt nur, was ihr mittels Trainingsdaten beigebracht wird. Ist die Datenauswahl zu einseitig, werden auch die Entscheidungen der KI Schlagseite aufweisen. Deswegen stellt IBM einen ausgewogenen Datenpool für die Gesichtserkennung zur Verfügung. [...]
Wird KI nicht mit soliden und vielfältigen Datensätzen optimiert, kann die Genauigkeit leiden, die Ergebnisse verzerrt werden und damit auch die Fairness leiden. Deshalb gilt es genau darauf zu achten, welche Daten zu Trainingszwecken verwendet werden. Hier setzt sich IBM für die Entwicklung von ausgewogenen und fairen KI-Systemen ein, weswegen IBM Research einen neuen und einzigartigen Datensatz namens Diversity in Faces (DiF) veröffentlicht hat. Mit diesem will das Unternehmen Fairness und Genauigkeit in Sachen Gesichtserkennungstechnologie voranbringen.
Die Datenqualität ist entscheidend
Der große und vielfältige Datensatz von einer Million kommentierten Bildern soll der globalen Forschungsgemeinschaft helfen, Bilder von Gesichtern besser zu erkennen, zu verstehen und zu analysieren. Denn um so größer und vielfältiger der Datensatz ist, um so besser kann die KI trainiert werden und auch unterschiedliche Nuancen erkennen.
Dabei reichen die Unterschiede weit über Alter, Geschlecht und Hautfarbe hinaus, weiß IBM–Forscher John R. Smith. So habe IBM, erklärt Smith, unter Verwendung öffentlich zugänglicher Bilder aus dem YFCC-100M–Datensatz (Yahoo Flickr Creative Commons) die Bilder mit zehn etablierten und unabhängigen Kodierungsschemata kommentiert, darunter kraniofaziale (z.B. Kopflänge, Nasenlänge, Stirnhöhe), Gesichtsverhältnisse (Symmetrie), visuelle Attribute (Alter, Geschlecht) sowie Pose und Auflösung. Dieser in der wissenschaftlichen Literatur anerkannte DiF-Datensatz bildet eine hervorragende Grundlage für ein eingehendes Studium der Gesichter, wodurch nach Überzeugung von IBM das weltweite Wissen der Forschungscommunity hinsichtlich einer faireren und genaueren KI erweitert werden kann. Eine erste Analyse habe gezeigt, dass der DiF-Datensatz im Vergleich zu früheren Datensätzen eine ausgewogenere Verteilung und breitere Abdeckung an Gesichtern biete, so John R. Smith. Darüber hinaus hätten die Erkenntnisse aus der statistischen Analyse der Kodierungsschemata des Datensatzes IBMs eigenes Verständnis darüber gefördert, was für die Charakterisierung menschlicher Gesichter wichtig ist und es dem Unternehmen auf diese Weise ermöglicht, wichtige Forschungen zur Verbesserung der Gesichtserkennungstechnologie fortzusetzen.
Obgleich bereits großes Fortschritte im Bereich KI und Gesichtserkennung erzielt worden sind, ist man bei IBM Research überzeugt, dass ein gemeinsames Forschen der wissenschaftlichen Community weltweit der beste Weg ist, die Forschung voranzutreiben, weswegen man sich für die oben angeführte Vorgangsweise entschieden hat.
Details und Zugriff auf den Datensatz gibt es unter http://ibm.biz/dif-dataset.
Weitere Infos zum Thema gibt es in diesem deutschen Blog-Beitrag von John R. Smith: www.ibm.com/de-de/blogs/think/2019/01/29/gesichtserkennung.
Be the first to comment