Common Voice 10.12.2017, 16:21 Uhr

Mozilla veröffentlicht Sprachdatensatz mit 400.000 Aufnahmen

Seit dem Start von Common Voice hat Mozilla über seine Webseite und eine iOS-App hunderttausende Sprachaufnahmen gesammelt. Jetzt wurde eine erste Version dieser Sprachsammlung öffentlich zugänglich gemacht.
Der Sprachdatensatz von Mozilla soll bald auch in anderen Sprachen als Englisch zur Verfügung stehen.
Die Sammlung basiert auf der experimentellen Arbeit von Mozilla im Bereich Machine Learning und Spracherkennung. Die Sammlung enthält fast 400.000 Aufnahmen von 200.000 unterschiedlichen Personen, die circa 500 Stunden an Sprachaufnahmen umfassen. Bereits jetzt ist dies laut Mozilla der zweitgrößte öffentlich zugängliche Datensatz.

Es gibt heute viele Entwickler, Macher, Start-ups und Forscher, die mit sprachbasierten Technologien experimentieren oder diese entwickeln möchten. Die meisten haben jedoch nur Zugriff auf eine sehr eingeschränkte Sammlung an Sprachdaten – die jedoch eine wesentliche Voraussetzung sind, um qualitativ hochwertige Spracherkennungssysteme entwickeln zu können. Diese Sprachdaten können zehntausende Euro kosten und reichen in ihrem Umfang dennoch nicht aus, um eine Spracherkennung zu erschaffen, die die Erwartungen der Nutzer erfüllt. Hier soll Common Voice Abhilfe schaffen. Noch steht die Sammlung nur in Englisch zur Verfügung, aber andere Sprachen sollen schon bald unterstützt werden.


Das könnte Sie auch interessieren