AccueilActualités informatiqueMeta travaille sur un traducteur en temps réel basé sur l'IA pour...

Meta travaille sur un traducteur en temps réel basé sur l’IA pour plus de 100 langues

Meta prévoit un traducteur universel pour les conversations en temps réel, qui devrait prendre en charge des centaines de langues en plus des langues les plus utilisées – l’anglais, le mandarin et l’espagnol.

Meta veut y parvenir grâce à deux projets : Avec un modèle d’IA créé dans le cadre du programme « No Language Left Behind », Meta entraîne un modèle linguistique qui doit apprendre à partir de « quelques exemples ». Le deuxième projet, le « Universal Speech Translator », doit permettre des traductions pour des langues sans système d’écriture standardisé. Cela doit se faire en temps réel « via un téléphone, une montre ou des lunettes », le moment venu. Le patron de Meta, Mark Zuckerberg, s’intéresse surtout au traducteur universel dans le cadre de ses projets Metaversum.

Sommaire

Le chemin est encore long jusqu’à ce que Meta AI puisse mettre le traducteur universel à la disposition de « tous les habitants de la planète ». En effet, les programmes de traduction automatique doivent être entraînés avec de grands ensembles de données, de sorte que les langues avec moins de données d’entraînement restent souvent à l’écart faute de corpus de textes correspondants ou de système d’écriture standardisé.

Meta n’a pas indiqué de délai pour son ambitieux projet. « La capacité de communiquer avec n’importe qui dans n’importe quelle langue – c’est un super pouvoir dont les gens ont toujours rêvé, et l’IA le rendra possible de notre vivant », a déclaré le patron de Meta, Mark Zuckerberg, lors d’une présentation de ses projets Metaversum.

Statistik zur Anzahl der Sprecher verschiedener Sprachen

Meta : 20 % des personnes non couvertes par les technologies de traduction commerciales

(Image : Meta, Inc.)

Pour la traduction de langues avec peu de données, le département d’intelligence artificielle de Meta, Meta AI, a étendu la boîte à outils Language-Agnostic Sentence Representations (LASER), qui crée des représentations de phrases dans différentes langues. Plus de la moitié du code est composée du langage de programmation Python, qui est souvent utilisé pour réaliser des projets autour du traitement du langage naturel (NLP). La boîte à outils open source comprend désormais plus de 125 langues dans 28 systèmes d’écriture différents. Avec LASER, Meta construit des systèmes tels que ccMatrix et ccAligned. ccMatrix permet d’utiliser des jeux de données plus importants pour des paires de phrases accessibles au public – par exemple des phrases en anglais et en allemand – grâce à l’exploration de texte. ccAligned est surtout conçu pour identifier des textes au contenu comparable, pour lesquels une traduction est déjà disponible. Pour ce faire, il utilise des références intégrées dans les URL.

Depuis peu, LASER est censé reconnaître les traductions en langue parlée. Il aurait déjà identifié 1400 heures de français, d’allemand, d’espagnol et d’anglais. Pour la recherche sur les données linguistiques multilingues, Meta AI a créé le corpus CoVoST 2, qui comprend des traductions de 21 langues vers l’anglais et de l’anglais vers 15 langues, et qui s’appuie sur Common Voice de Mozilla. Un autre corpus mis à disposition sur Github sous licence Creative Commons, « Voxpopuli », contient 400.000 heures de matériel linguistique du Parlement européen en 23 langues, dont 1.800 heures ont été transcrites.

Pour le développement de ses traducteurs automatiques de langues, Meta a investi dans des modèles qui « s’entraînent efficacement malgré leur grande capacité » et a construit, selon ses propres dires, le « premier système de traduction de texte multilingue » qui « n’est pas axé sur l’anglais ».

Le fait qu’une langue ne soit pas traduite d’abord en anglais, puis dans une troisième langue, supprime une étape intermédiaire, ce qui nuit souvent à la qualité de la traduction. Pour évaluer ses résultats, Meta AI utilise, outre le score BLEU, son jeu de données d’évaluation FLORES-101, créé en collaboration avec des chercheurs en IA. Ce jeu de données, conçu pour 101 langues, contient des textes corrigés par des humains après et pendant les traductions automatiques.

Plus d'articles