8. April 2025

Computer lernt Geräusche mittels Video erkennen

Während Spracherkennung in Form von Lösungen wie Siri und Cortana Alltag sind, haben Computer Probleme, Geräusche wie Wellen, Vogelsang oder ein Jubelmeer zu erkennen. Forscher am MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben einen neuen Ansatz, das zu ändern. [...]

Computer können inzwischen auch gut genug sehen, um selbständig Objekte und Umgebungen in Videos zu erkennen. Das ermöglicht es, nur mithilfe von Clips zu lernen, zugehörige Geräusche zu erkennen. „Wir machen uns die natürliche Synchronität von Sicht und Klang zunutze“, erklärt Carl Vondrick, CSAIL-Postgrad in Elektrotechnik und Informatik. Im Prinzip ist das ganz einfach: Eine tosende Brandung beispielsweise ist vor allem dann zuhören, wenn auch brechende Wellen zu sehen sind. Wenn also ein Computer gelernt hat, das sichtbare Wellenbrechen visuell als solches zu erkennen, helfen Brandungs-Videoclips das dazugehörige Geräusch zu erlernen – und das ganz ohne, dass ein Mensch die Videos erst aufwendig mit Metadaten zur Beschreibung des Inhalts versehen müsste.

Das Team hat daher ein System zum Computer-Sehen genommen, das sie trainiert hatten, Objekte und Umgebungen in Bildern zu erkennen, und damit ein System erstellt, das Geräusche aus Videos erlernt. Bei Tests an zwei Standard-Geräuschdatenbanken war die Erkennung dann 13 bis 15 Prozent genauer als mit bisherigen Lösungen. Bei einem Datensatz mit zehn Geräuschklassen lag das System zu 92 Prozent richtig, bei einem mit 50 Geräuschklassen zu 74 Prozent. Das kommt der Leistung von Vergleichspersonen schon recht nahe, die bei den beiden Datensätzen auf im Schnitt 96 beziehungsweise 81 Prozent Genauigkeit kommen.

Sicheres Anwendungspotenzial
Mit dem Video-Ansatz ließen sich also Geräuscherkennungssysteme effizient trainieren. Eben das verspricht großes Anwendungspotenzial. Denn eine gute Geräuscherkennung könnte in vielen Bereichen nützlich sein. Immerhin sind Audiodaten leichter zu sammeln und kompakter als komplette Videos. Das könnten sich beispielsweise Handys zunutze machen, um den Kontext ihrer Umgebung besser zu verstehen. Es wäre beispielsweise von Vorteil, wenn sich Geräte, die hören, dass sie in einem Kino oder Theater sind, automatisch stumm schalten – egal, ob der Nutzer daran denkt oder nicht.

Auch in der Robotik ortet das Team großes Potenzial. Eine Geräuscherkennung könnte Systemen helfen, potenziell gefährliche Situationen besser Einzuschätzen. „Denken Sie zum Beispiel an selbstfahrende Autos“, meint CSAIL-Postdoc Yusuf Aytar. „Da kommt ein Rettungswagen, aber das Auto sieht ihn nicht. Wenn es ihn hört, kann es rein aufgrund des Geräusches Vorhersagen bezüglich des Krankenwagens machen – welchen Weg dieser fahren wird.“ Das ist der Grund, warum Einsatzfahrzeuge Sirenen haben. Auch menschliche Autofahrer werden durch deren Signal vorgewarnt, bevor sie das Fahrzeug tatsächlich sehen.

Der Cyber Resilience Act fordert Produktanpassungen

8. April 2025

Höchste Zeit für Hersteller: Geräte mit ausnutzbaren Cyber-Schwachstellen dürfen in der EU bald nicht mehr verkauft werden. […]

So werden Unternehmen autonom und resilient

8. April 2025

Ein Unternehmen, in dem viele Prozesse automatisiert ablaufen, ohne menschliche Aufsicht, und das sich dabei kontinuierlich selbst optimiert? Fortgeschrittene KI und Automatisierungswerkzeuge liefern die dafür notwendige technische Grundlage, doch die Umsetzung ist in der Regel mit einigen Herausforderungen verbunden. […]

Grundlegende Metriken der Datenwiederherstellung: RPO und RTO verständlich gemacht

8. April 2025 Angela Heindl-Schober *

Wenn es um die Geschäftskontinuität geht, stechen zwei Schlüsselmetriken hervor: Recovery Point Objective (RPO) und Recovery Time Objective (RTO). Oft werden diese verwechselt oder die Diskussion dreht sich um RPO versus RTO. Beide Metriken sind jedoch für die Entwicklung effektiver Datenschutzstrategien und die Minimierung von Unterbrechungen und Datenverlusten unerlässlich. […]

Demystify hilft bei der API-Dokumentation

8. April 2025 Patrick Hediger *

Mit dem Open-Source-Projekt Demystify können Entwickler API-Dokumentationen in Echtzeit automatisiert erstellen. Das Tool verspricht eine einfache Bedienung und hohe Genauigkeit. […]

Nadine Riederer, CEO von Avision. (c) Avision

So vergeigt man die Übernahme einer Alt-Software

8. April 2025 Nadine Riederer*

Wenn ein IT-Dienstleister die Betreuung einer Legacy-Software übernimmt, kann er so einiges falsch machen. Avision zeigt auf, wie er die Übernahme zuverlässig in den Sand setzt. […]

Drohnen, die autonom und ohne GPS navigieren können, wären in der Lage kritische Infrastruktur wie Brücken oder Strommasten selbstständig zu inspizieren. (c) Fikri Rasyid / unsplash

Wie Drohnen autonom fliegen lernen

7. April 2025 pi/kdl

Von wirklich selbstständigen Robotern, die durch eine komplexe und sich verändernde Umwelt navigieren können, sind wir noch weit entfernt. Neue Ansätze mit KI bieten eine Chance, diese Vorstellung ein Stück weit Realität werden zu lassen. Jan Steinbrener experimentiert an der Universität Klagenfurt mit Drohnen, die genau das versuchen. […]

Andrew O’Dower, Vice President, Product Management für Voice und Voice AI bei Twilio (c) Twilio

Klein, spezialisiert, effizient: Small Language Modelle gewinnen an Bedeutung

7. April 2025 Andrew O'Dower*

Neben den Large Language Models (LLM), die einen regelrechten KI-Boom ausgelöst haben, rücken nun vermehrt Small Language Models (SLM) vor allem für Unternehmen in den Fokus. Andrew O’Dower, Leiter des Bereichs Product Management für Voice und Voice AI bei Twilio, erklärt was es damit auf sich hat. […]

Christina Decker, Director Strategic Channels Europe bei Trend Micro (c) Trend Micro

Wie der Channel die tickende Zeitbombe „Compliance-Risiko“ entschärfen kann

7. April 2025 Christina Decker*

Cybersicherheitsregulatoren hatten ein geschäftiges Jahr 2024. Zuerst kam die NIS2-Richtlinie, deren Umsetzungsfrist Mitte Oktober ablief. Nur wenige Monate später trat in der gesamten EU der lang erwartete Digital Operational Resilience Act (DORA) in Kraft. Beide Regelwerke wurden dringend benötigt, haben aber auch enormen Druck auf Unternehmen in der Region ausgeübt. Besonders KMU spüren diesen Druck. […]

6 von 10 Österreichern sehen kaum Auswirkungen durch KI – aber jeder 25. Arbeitnehmer erwartet Jobverlust

7. April 2025 pi/kdl

Laut EU AI-Act müssen seit 2. Februar 2025 alle Mitarbeitenden, die Künstliche Intelligenz (KI) nutzen, entwickeln oder betreiben, über ausreichende KI-Kompetenzen verfügen. Das hat die „Employer Brand Research 2025“ des internationalen Personaldienstleisters Randstad als Schwerpunktthema untersucht. […]

Computer lernt Geräusche mittels Video erkennen

Während Spracherkennung in Form von Lösungen wie Siri und Cortana Alltag sind, haben Computer Probleme, Geräusche wie Wellen, Vogelsang oder ein Jubelmeer zu erkennen. Forscher am MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben einen neuen Ansatz, das zu ändern. [...]

Mehr Artikel

Der Cyber Resilience Act fordert Produktanpassungen

So werden Unternehmen autonom und resilient

Grundlegende Metriken der Datenwiederherstellung: RPO und RTO verständlich gemacht

Demystify hilft bei der API-Dokumentation

So vergeigt man die Übernahme einer Alt-Software

Wie Drohnen autonom fliegen lernen

Klein, spezialisiert, effizient: Small Language Modelle gewinnen an Bedeutung

Wie der Channel die tickende Zeitbombe „Compliance-Risiko“ entschärfen kann

6 von 10 Österreichern sehen kaum Auswirkungen durch KI – aber jeder 25. Arbeitnehmer erwartet Jobverlust

Be the first to comment

Leave a Reply Antworten abbrechen