Common Voice - ein paar Erkenntnisse

Veröffentlichungsdatum

Vor einiger Zeit haben wir an dieser Stelle zum Mitmachen beim Common-Voice-Projekt der Mozilla Foundation eingeladen.

Gamification

Zwischenzeitlich ist in unserer Firma ein kleiner Wettkampf um die meisten Contributions entfacht. Ich selber liege aktuell bei 655 Spenden und 623 Bestätigungen. Das reicht bei uns aber gerade mal für den 2. Platz.

Die Mozilla-Community hat einen Draft für das zukünftige Dashboard veröffentlicht. Darauf freue ich mich schon :)

Diversität

Bei meinen Bestätigungen fiel mir aber auf, dass Diversität der Stimmen kaum vorhanden ist. Die Mehrzahl ist weiß, männlich und hochdeutsch. Wenig Sachsen, kaum Frauenstimmen, keine Stimmbruchstimmen, keine Franken oder Bayern. Das mag nur mir so vorkommen. Ich vermute aber, dass das nicht so ist.

Und obwohl die Hemmschwelle so niedrig ist, wie Candy Crush zu spielen, scheinen wir die Vielfalt nicht erreichen zu können. Vielleicht hat das etwas mit unseren Filterbubbles zu tun und die Welt da draußen muss über andere Kanäle von Common Voice erfahren. Also los. Teilt diese Möglichkeit über alle Kanäle.

Glücklicherweise gibt es neben dem Bauchgefühl ja auch bereits englischsprachige Datensätze zum Download. Also schnell mal 12,5 GB Daten herunterladen und Metadaten auswerten.

Metadaten auswerten

Von den Spendern der rund 380.000 englischsprachigen Samples haben 60,75 Prozent keine Angaben zu ihrem Geschlecht gemacht. Als Frauen haben sich 9,23 Prozent, als Männer 29,69 und als "other" 0,33 der Frage nach dem Geschlecht zugeordnet. (Gefühlt deckt sich das nicht mit meinen Contributions beim Bestätigen von Sätzen der deutschen Sprachsamples.)

Ich habe sodann die Anzahl von "keine Angabe" von der Gesamtzahl abgezogen und die Verteilung neu berechnet. In Summe sind das knapp 150.000 Samples bei einer Verteilung wie folgt:

Frauen: 23,51 %
Männer: 75,64 %
Other: 0,85 %

Unglaublich. Da geht was. Also auch für deutsche Sprachsamples. Bitte. https://voice.mozilla.org/

Alter

Als weitere Metadaten wird die Altersspanne (als Jahrzehnt) abgefragt. Ein Alter über 89 Jahre scheint für Mozilla nicht relevant zu sein. Für verallgemeinernde Aussagen habe ich gröber zusammengefasst und könnte plakativ die These vertreten: Jüngere Männer erfahren von Common Voice und erzählen es ihren Müttern.

Frauen
Bis Ende 20 = 28 %
Bis Ende 40 = 37 %
Bis Ende 80 = 35 %

Männer
Bis Ende 20 = 41 %
Bis Ende 40 = 41 %
Bis Ende 80 = 16 %

Other
Bis Ende 20 = 77 %
Bis Ende 40 = 16 %
Bis Ende 80 = 6 %

Sofern die Spender ein Profil angelegt haben, konnten sie sich noch einem Dialekt zuordnen.

Dialekt

Auch hier war die größte Gruppe der Samples wieder blank. 66,02 % betraf das. Beim Rest dominieren US (15,74 %), England (7,88 %), Indien (2,99 %) und Australien (2,16 %). Bereinigt und auf die Geschlechter verteilt, überraschte mich der hohe indische Frauenanteil (16,26 %) gegenüber den 6,59 % bei indischen Männern.

Frauen
US = 40,84 %
England = 21,93 %
Indien = 16,26 %

Männer
US = 47,28 %
England = 24,18 %
Indien = 6,59 %

Other
US = 54,92 %
England = 21,00 %
Irland = 10,42 %

Leider sagen diese Ziffern nichts über absolute Sprecherzahlen aus. Es könnte die eine weibliche 80jährige sein, die alle Samples geliefert hat. Oder aber ihre vielen Freundinnen, die zusammen … Mehr wird uns hoffentlich das Dashboard der Mozilla Foundation liefern. Und hoffentlich auch Echtdaten der deutschen Stimmen.

Für die Auswertung der Daten habe ich eines meiner Lieblingswerkzeuge genutzt. Danke, OpenRefine