Mozilla stellt Datenbank mit 18 Sprachen bereit

Das aktuelle Release umfasst über 1.300 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden. [...]

Das Ziel von Common Voice liegt bei der Demokratisierung von sprachbasierten Technologien. (c) pixabay
Das Ziel von Common Voice liegt bei der Demokratisierung von sprachbasierten Technologien. (c) pixabay

Seit Juli 2017 sammelt Mozilla Sprach-Samples von freiwilligen Teilnehmern für sein Open-Source-Projekt Common Voice zum Aufbau einer frei verfügbaren Sprachdatenbank. Jetzt haben die Entwickler Common Voice um weitere Datensätze ausgebaut. Damit umfasst das Projekt nunmehr 1.361 Stunden aufgezeichneter Samples aus 18 verschiedenen Sprachen, die von mehr als 42.000 Mitwirkenden beigetragen wurden. Laut eigenen Angaben ist Common Voice damit der grösste frei verfügbare Datensatz menschlicher Stimmen.

Allein die deutschen Samples umfassen 146 Stunden an Material, das von 2249 Teilnehmern beigetragen wurde. Hier können Sie sich beteiligen. Sämtliche Sprach-Samples stehen auf der Projektwebseite zum kostenlosen Download bereit.

Das Ziel von Common Voice liegt bei der Demokratisierung von sprachbasierten Technologien. Bislang wird diese Technik vorrangig von wenigen Tech-Grosskonzernen wie Amazon, Apple, Google und Co. genutzt. Das erschwert unabhängigen Entwicklern jedoch das Arbeiten mit der Technologie, da schlichtweg die Datenbasis nicht erreichbar ist. Hier setzt Common Voice an, um innovative Lösungen wie Echtzeitübersetzer oder alternative Sprachassistenten fernab der Mainstream-Hersteller zu ermöglichen. Für eine bessere Zugänglichkeit sprachbasierter Technologien betreibt Mozilla ausserdem die freie Spracherkennungs-Engine DeepSpeech.

Bessere Webseite soll mehr Daten generieren

Um neue Freiwillige für eine Beteiligung bei Common Voice zu begeistern, hat Mozilla die Internetseite des Projekts sukzessive weiterentwickelt. Dort stellt der Firefox-Entwickler auch die Tools zur Aufzeichnung der Sprach-Samples bereit. Teilnehmer am Programm können in der aktuellen Version etwa detailliert nachvollziehen, wie sich die Aufnahme und die Validierung jeder einzelnen Sprache entwickeln. Ausserdem ist es nun möglich, ein Konto für das Projekt anzulegen, um Fortschritte und Metriken in mehreren Sprachen zu verfolgen. Im Account lassen sich auch demografische Profilinformationen hinterlegen, wodurch der freie Datensatz um wertvolle Meta-Informationen ergänzt wird.

Trotz der Vielzahl an bereits gewonnenen Daten und Erkenntnissen befinden sich sowohl Common Voice als auch DeepSpeech noch in der Entwicklungsphase. Dennoch geht Mozilla davon aus, dass die Programme in naher Zukunft in konkrete Lösungen einfliessen werden. Bereits jetzt wird etwa die DeepSpeech-Engine von den Open-Source-Sprachassistenten Mycroft und Leon genutzt. Zukünftig soll DeepSpeech aber auch in kleineren Geräten wie Smartphones und In-Car-Systemen eingesetzt werden und so Produktinnovationen innerhalb und ausserhalb von Mozilla vorantreiben.

*Stefan Bordel ist Autor bei PCTipp.


Mehr Artikel

News

Datenschutzverstöße in Österreich nehmen zu

2024 kam es in Europa zu 130.000 Datenschutzverstößen – davon rund 1.300 in Österreich. Für Österreich bedeutet das einen Anstieg der Datenschutzverstöß von 21 Prozent im Vergleich mit dem Jahr 2023. Nur 4 Länder verzeichneten Rückgänge bei den Verstößen. Seit dem DSGVO-Start wurden in der EU 5,9 Milliarden Euro Bußgelder verhängt. […]

News

Best Practices zum Umgang mit Lookalike-Domains

Bei Cyberangriffen, die Lookalike-Domains nutzen, registrieren Angreifer für sich Domains, die legitimen Domains echter Unternehmen sehr ähnlich sehen. Nachdem sie sich die entsprechende Domain gesichert haben, beginnen sie dann, die dazugehörigen E-Mail-Server für eine E-Mail-Angriffskampagne herzurichten. […]

Raiffeisen Bank International etabliert internationales FinTech-Scout-Netzwerk. (c) Unsplash
News

RBI setzt auf globale FinTech-Scouts

Die Raiffeisen Bank International (RBI) verstärkt ihre Bemühungen im Bereich Finanzinnovationen durch die Etablierung eines global verteilten Teams von FinTech-Scouts. Diese Experten sollen Marktentwicklungen und neue Geschäftsmodelle aufzeigen sowie direkten Zugang zu relevanten Technologieanbietern weltweit ermöglichen. […]

News

Hightech-Crime-Report: Advanced Persistent Threats setzen Europa unter Druck

Mit einem Anstieg von 22 Prozent gegenüber dem Vorjahr nahmen betrügerische Machenschaften 2024 weltweit zu. Europäische Finanzdienstleister waren mit 34 Prozent aller Betrugsfälle am stärksten betroffen, gefolgt von der Transportbranche und dem Regierungs- und Militärsektor. Auch bei Phishing-Angriffen setzte sich der Aufwärtstrend fort: Mehr als 80.000 Phishing-Websites wurden 2024 enttarnt – ein Anstieg um 22 Prozent gegenüber dem Vorjahr. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*