Common Voice will Maschinen menschliches Sprechen beibringen

Veröffentlichungsdatum

Wer liefert die Spracherkennungssoftware für das Raumschiff Enterprise? Zugegeben, dass hat mich früher nicht interessiert. Es war faszinierend, dass Kirk und Co “mit dem Computer sprechen” konnten.

In den 90ern habe ich mal Dragon Naturalspeaking ausprobiert. Über das Training und Profilanlegen bin ich aber nicht hinausgekommen.

Heute nutzen Menschen ganz selbstverständlich Siri, Alexa und Hey Google. Werden es Apple, Amazon oder Google sein, die im Jahr 2200 die Software für die Spracherkennung des Raumschiffs Enterprise liefern? Ich hoffe es nicht, da diese Unternehmen offensichtlich andere Interessen verfolgen, als die Idee der Föderation der vereinten Planeten in ihrer DNA zu tragen.

Spende deine Stimme

Seit einiger Zeit mache ich deshalb Contributions zum Common-Voice-Projekt der Mozilla-Foundation. Diese Initiative hat kein anderes Ziel, als der Vorherrschaft kommerziell orientierter Spracherkennung einen Open-Source-Ansatz entgegenzustellen. Das ist mehr als lobenswert. Wer will schon von kommerziellen Unternehmen eine Wanze in der Wohnung, auf der Website oder dem Smartphone haben?

Was wir bei den Babelmonkeys lernen konnten: Es kostet irrsinnig viel Zeit, relevante Trainingsmengen für die Algorithmen zu organisieren und aufzubereiten. Da springt Mozilla in die Bresche und lädt zur Contribution ein. “Spende deine Stimme”. Diese kleine Aufforderung, die im Alltag kaum Zeit kostet, begleitet uns jetzt seit Wochen.

“Der überwiegende Teil der von großen Unternehmen genutzten Daten ist für die Mehrheit der Menschen jedoch nicht zugänglich. Wir glauben, dass dadurch Innovation unterbunden wird. Aus diesem Grund haben wir das Projekt Common Voice ins Leben gerufen, ein Projekt, das dabei hilft, Spracherkennung für jeden zugänglich zu machen.” Quelle: Common Voice Website

Mozilla ermöglicht einen niedrigschwelligen Einstieg. Einfach die Website aufrufen und - sofern am eigenen Computer verfügbar - in das eingebaute Mikrofon sprechen. Neben dem “Spenden” der eigenen Stimme (Vorlesen von Sätzen) ist auch das Bestätigen von vorgelesenen Sätzen für das Projekt wichtig. Es ist zwar selten, kommt aber vor: Scherzbolde, die andere Dinge vorlesen oder nur Geräusche aufnehmen, aber auch schlichtweg Verleser, bei denen der Kopf sich andere Satzkonstruktionen dachte, als der vorgegebene Satz hergibt.

Jetzt auch mit Dialekten

Und weil das Projekt eine weitere Dimension der Spracherkennung ermöglicht, laden wir alle dialektsprechenden Menschen dazu ein. Ob sächsisch, fränkisch oder mit Berliner Schnauze - bei ausreichender Anzahl von Sprachsamples besteht die Möglichkeit, dass Sprachassistenten in Zukunft keine Probleme mit Dialekten haben werden. Das liegt aber an Ihrem Mitwirken.

Mozilla stellt mit Deep Speech auch gleich die passende Software zur Entwicklung von Sprachassistenten bereit.

Also los. Mitmachen. https://voice.mozilla.org/