Computer lernt Geräusche mittels Video erkennen

Während Spracherkennung in Form von Lösungen wie Siri und Cortana Alltag sind, haben Computer Probleme, Geräusche wie Wellen, Vogelsang oder ein Jubelmeer zu erkennen. Forscher am MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben einen neuen Ansatz, das zu ändern. [...]

Computer können inzwischen auch gut genug sehen, um selbständig Objekte und Umgebungen in Videos zu erkennen. Das ermöglicht es, nur mithilfe von Clips zu lernen, zugehörige Geräusche zu erkennen. „Wir machen uns die natürliche Synchronität von Sicht und Klang zunutze“, erklärt Carl Vondrick, CSAIL-Postgrad in Elektrotechnik und Informatik. Im Prinzip ist das ganz einfach: Eine tosende Brandung beispielsweise ist vor allem dann zuhören, wenn auch brechende Wellen zu sehen sind. Wenn also ein Computer gelernt hat, das sichtbare Wellenbrechen visuell als solches zu erkennen, helfen Brandungs-Videoclips das dazugehörige Geräusch zu erlernen – und das ganz ohne, dass ein Mensch die Videos erst aufwendig mit Metadaten zur Beschreibung des Inhalts versehen müsste.

Das Team hat daher ein System zum Computer-Sehen genommen, das sie trainiert hatten, Objekte und Umgebungen in Bildern zu erkennen, und damit ein System erstellt, das Geräusche aus Videos erlernt. Bei Tests an zwei Standard-Geräuschdatenbanken war die Erkennung dann 13 bis 15 Prozent genauer als mit bisherigen Lösungen. Bei einem Datensatz mit zehn Geräuschklassen lag das System zu 92 Prozent richtig, bei einem mit 50 Geräuschklassen zu 74 Prozent. Das kommt der Leistung von Vergleichspersonen schon recht nahe, die bei den beiden Datensätzen auf im Schnitt 96 beziehungsweise 81 Prozent Genauigkeit kommen.

Sicheres Anwendungspotenzial
Mit dem Video-Ansatz ließen sich also Geräuscherkennungssysteme effizient trainieren. Eben das verspricht großes Anwendungspotenzial. Denn eine gute Geräuscherkennung könnte in vielen Bereichen nützlich sein. Immerhin sind Audiodaten leichter zu sammeln und kompakter als komplette Videos. Das könnten sich beispielsweise Handys zunutze machen, um den Kontext ihrer Umgebung besser zu verstehen. Es wäre beispielsweise von Vorteil, wenn sich Geräte, die hören, dass sie in einem Kino oder Theater sind, automatisch stumm schalten – egal, ob der Nutzer daran denkt oder nicht.

Auch in der Robotik ortet das Team großes Potenzial. Eine Geräuscherkennung könnte Systemen helfen, potenziell gefährliche Situationen besser Einzuschätzen. „Denken Sie zum Beispiel an selbstfahrende Autos“, meint CSAIL-Postdoc Yusuf Aytar. „Da kommt ein Rettungswagen, aber das Auto sieht ihn nicht. Wenn es ihn hört, kann es rein aufgrund des Geräusches Vorhersagen bezüglich des Krankenwagens machen – welchen Weg dieser fahren wird.“ Das ist der Grund, warum Einsatzfahrzeuge Sirenen haben. Auch menschliche Autofahrer werden durch deren Signal vorgewarnt, bevor sie das Fahrzeug tatsächlich sehen.


Mehr Artikel

Frauen berichten vielfach, dass ihre Schmerzen manchmal jahrelang nicht ernst genommen oder belächelt wurden. Künftig sollen Schmerzen gendersensibel in 3D visualisiert werden (c) mit KI generiert/DALL-E
News

Schmerzforschung und Gendermedizin

Im Projekt „Embodied Perceptions“ unter Leitung des AIT Center for Technology Experience wird das Thema Schmerzen ganzheitlich und gendersensibel betrachtet: Das Projektteam forscht zu Möglichkeiten, subjektives Schmerzempfinden über 3D-Avatare zu visualisieren. […]

News

KI ist das neue Lernfach für uns alle

Die Mystifizierung künstlicher Intelligenz treibt mitunter seltsame Blüten. Dabei ist sie weder der Motor einer schönen neuen Welt, noch eine apokalyptische Gefahr. Sie ist schlicht und einfach eine neue, wenn auch höchst anspruchsvolle Technologie, mit der wir alle lernen müssen, sinnvoll umzugehen. Und dafür sind wir selbst verantwortlich. […]

Case-Study

Erfolgreiche Migration auf SAP S/4HANA

Energieschub für die IT-Infrastruktur von Burgenland Energie: Der Energieversorger hat zusammen mit Tietoevry Austria die erste Phase des Umstieges auf SAP S/4HANA abgeschlossen. Das burgenländische Green-Tech-Unternehmen profitiert nun von optimierten Finanz-, Logistik- und HR-Prozessen und schafft damit die Basis für die zukünftige Entflechtung von Energiebereitstellung und Netzbetrieb. […]

FH-Hon.Prof. Ing. Dipl.-Ing. (FH) Dipl.-Ing. Dr. techn. Michael Georg Grasser, MBA MPA CMC, Leiter FA IT-Infrastruktur der Steiermärkischen Krankenanstaltengesellschaft m.b.H. (KAGes). (c) © FH CAMPUS 02
Interview

Krankenanstalten im Jahr 2030

Um sich schon heute auf die Herausforderungen in fünf Jahren vorbereiten zu können, hat die Steiermärkische Krankenanstaltengesellschaft (KAGes) die Strategie 2030 formuliert. transform! sprach mit Michael Georg Grasser, Leiter der Fachabteilung IT-Infrastruktur. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*