AccueilActualités informatiqueL'ensemble de données linguistiques Common Voice désigné comme bien public numérique

L’ensemble de données linguistiques Common Voice désigné comme bien public numérique

La Fondation Mozilla a annoncé que le jeu de données vocales Common Voice a été officiellement reconnu par la Digital Public Goods Alliance en tant que bien public numérique (Digital Public Good, DPG). Depuis le début du mois de février, le jeu de données contenant des contenus parlés dans diverses langues fait partie des 88 projets actuellement certifiés dans le registre de l’Alliance.

Mozilla a lancé Common Voice en 2017 en tant que projet de crowdsourcing afin de mettre à disposition des données vocales accessibles au public pour les logiciels de reconnaissance vocale. L’ensemble de données est conçu comme une alternative ouverte aux données vocales détenues par des entreprises comme Amazon, Microsoft, Apple ou Google pour leurs offres respectives d’apprentissage automatique.

Sommaire

L’objectif déclaré du projet est également de créer plus de diversité dans les données linguistiques. Mozilla voit dans les autres jeux de données une part disproportionnée d’hommes blancs anglophones. En raison de ce biais, les applications ML fonctionneraient mieux pour ce groupe cible que pour les autres personnes. Actuellement, Common Voice propose des enregistrements vocaux dans 87 langues.

En 2020, Common Voice avait été ébranlée par des mesures d’économie radicales et des licenciements chez Mozilla, et son directeur avait alors quitté l’entreprise. En 2021, Nvidia a annoncé, dans le cadre de la présentation du cadre d’IA conversationnelle Jarvis, qu’elle utiliserait Common Voice comme base pour le développement de modèles pré-entraînés et qu’elle le mettrait gratuitement à la disposition du grand public.

En 2020, le secrétaire général de l’ONU António Guterres a encouragé la création de l’Alliance des biens publics numériques, qui doit veiller à ce que la part des ressources publiques telles que les logiciels open source et les données en libre accès augmente.

L’initiative certifie les biens publics numériques tels que les logiciels open source, les modèles d’IA ouverts, les normes ouvertes et les contenus ouverts qui tiennent compte de la protection des données et des objectifs de développement durable (ODD). Dans son registre, elle énumère, outre les biens publics numériques certifiés, 652 projets nominés.

La majorité des projets du registre DGP proviennent du domaine des logiciels open source, à côté desquels on trouve des données, des contenus et des standards ouverts.

(Image : Digital Public Goods Alliance)

La Fondation Mozilla espère que la certification de Common Voice en tant que Digital Public Good permettra avant tout d’augmenter la visibilité et le soutien du projet. Vous trouverez plus de détails sur le blog de la Fondation Mozilla.

Plus d'articles