Kostenlos verfügbar

Das bringt Mozillas Stimmen-Datensatz

Teilen

Projekt "Common Voice" soll boomende Technologie vorantreiben.

Mozilla, der Hersteller des  Firefox -Browsers, hat Ende der Woche den größten Datensatz menschlicher Stimmen verfügbar gemacht, der komplett von Freiwilligen eingesprochen wurde. Mit dem Projekt "Common Voice" soll der weltweit vielfältigste Sprachdatensatz erstellt werden. Doch was bringt das eigentlich?

>>>Nachlesen:  Deshalb sind Siri, Alexa & Cortana weiblich

Bessere Chancen für kleine Unternehmen

Laut der Mozilla Foundation soll der kostenlos verfügbare Datensatz  für die Entwicklung von Sprachtechnologien optimiert sein. Mit ihm sollen die derzeit so angesagten  Sprachassistenten  also weiter verbessert werden. Zudem sollen so auch kleinere Unternehmen die Chance haben, gegen die übermächtigen Konkurrenten wie Goolge, Apple, Amazon, Microsoft, Facebook, Samsung oder Nuance (hat Siri entwickelt) eine Chance zu haben. Die Initiative ist also wirklich vorbildlich, da sie vor allem kleineren Herstellern und Crowdfunding-Projekten ohne Lizenzgebühren ermöglicht, eigene Spracherkennungssysteme zu entwickeln. Bisher dominieren hier  Alexa, Assistant, Siri und Cortana . Samsung versucht derzeit mit Nachdruck seinen Sprachassistenten "Bixby" konkurrenzfähig zu machen.

Das bringt Mozillas Stimmen-Datensatz
© Mozilla
× Das bringt Mozillas Stimmen-Datensatz

18 verschiedene Sprachen

Der Datensatz von Mozilla umfasst nach Angaben des Unternehmens 18 verschiedene Sprachen, darunter Englisch, Französisch, Deutsch und Mandarin (traditionell), aber auch beispielsweise Walisisch und Kabyle, eine algerische Berbersprache. Der Datensatz summiert sich zu fast 1.400 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden.

Die von Mozilla eingesammelten Daten stehen unter der "CC0"-Lizenz zur Verfügung. Das ist die freizügigste Variante der Creative-Commons-Lizenzen ("No rights reserved"). Die Projekt-Teilnehmer haben dabei freiwillig auch Metadaten wie Alter, Geschlecht und Akzent angeben. "Damit werden gemeinsam mit ihren Aufzeichnungen weitere Informationen gespeichert, mit denen Sprach-Engines noch besser trainiert werden können", heißt es in dem Blog-Eintrag von Mozilla. Man wolle "zu einem vielfältigen und innovativen Ökosystem an Sprachtechnologien" beitragen. Ziel sei es, eigene sprachgesteuerte Produkte auf den Markt zu bringen, aber auch Forscher und kleinere Akteure zu unterstützen.

>>>Nachlesen:  Sprachassistenten weiter am Vormarsch

Externer Link

Blog-Eintrag zu Common Voice

Fehler im Artikel gefunden? Jetzt melden.