Avec data2vec, une équipe de recherche de Meta/Facebook a annoncé un modèle d’IA qui, outre des tâches visuelles, doit également pouvoir traiter du texte écrit et parlé. Pour les différentes formes d’état (modalities) de l’input, le framework se contente apparemment d’un algorithme commun et d’un mécanisme d’apprentissage uniforme ; les personnes intéressées peuvent consulter le code et des exemples sur GitHub. Selon l’annonce, le nom s’inspire du word2vec développé par Google en 2013, un réseau neuronal spécifique au texte pour la prédiction de clusters de mots avec des voisins de sens. La base du nouveau modèle est la version de base d’un transformateur que l’équipe de chercheurs d’Alexei Baevski avait pré-entraîné pour les données d’images, les données audio vocales et le texte.

Sommaire

La multimodalité apporte la compréhension du contexte aux machines

Les travaux de Google sur DeepMind Perceiver, une version multimodale du Transformer, vont dans le même sens, et l’entreprise allemande Aleph Alpha crée des modèles d’IA multimodaux comme luminous, capables de traiter de manière combinée différents types de données comme l’entrée sous forme de texte et d’image. luminous avait été annoncé fin 2021 lors de l’International Supercomputing Conference, ce dont a rendu compte. Dans le cas de data2vec, l’équipe MetaAI avait, selon son document de recherche, commencé par le pré-entraînement d’un Vision Transformer (ViT), qui était encore spécialement conçu pour des tâches visuelles. Sans autre modification, le même réseau neuronal devrait maintenant maîtriser la reconnaissance vocale et le NLP (Natural Language Processing).

La méthode de prédiction est issue du Self-Supervised Learning et fonctionne par masquage progressif de certaines parties du modèle à entraîner (Masked Prediction). Au cours de plusieurs phases d’entraînement, un modèle apprend à construire les représentations des données d’entrée à l’aide de probabilités. Au cours des étapes suivantes, des parties de l’input sont masquées et le système est ainsi amené à compléter (de manière plus ou moins plausible) les espaces vides (voir fig. 1). L’équipe utilise deux réseaux neuronaux, l’un contenant l’ensemble des données (enseignant), l’autre devant compléter les zones masquées (étudiant).

MetaAI Research Paper on data2vec Pre-training, self-supervised learning across modalities — Représentation schématique de la manière dont se déroule l’entraînement du framework data2vec dans un mode enseignant-étudiant (fig. 1).

(Image : MetaAI Research)

Ce qui se passe actuellement dans la recherche en IA peut être décrit comme une nouvelle course à l’espace : Aux États-Unis, en Chine et ponctuellement en Europe, des modèles d’IA de plus en plus gigantesques, représentant plusieurs milliards de paramètres, sont créés à intervalles de plus en plus rapprochés et sont entraînés à saisir des ensembles de données non labellisés et à fournir des résultats contextuels. En perspective, il devrait être possible d’utiliser des images, du texte et même du langage parlé de manière combinée, sans avoir besoin de différents programmes. Les machines pourraient ainsi se rapprocher de la « compréhension du monde » et de la « perception du monde », car selon les équipes de recherche impliquées, leur capacité d’apprentissage se rapproche de plus en plus de celle des humains et elles acquièrent elles-mêmes des connaissances contextuelles au-delà de l’entraînement initial – à long terme par l’observation autonome du monde. Cela ouvre la voie à de nombreuses nouvelles applications et à de nouveaux domaines d’activité, qui vont par exemple dans le sens de la réalité augmentée (AR).

Reconnaître les images, les textes et la parole : Facebook veut apprendre à l’IA à faire plusieurs choses à la fois

IA générale : petites et grandes étapes sur le chemin

Si, par le passé, les modèles étaient encore des machines spéciales entraînées à des cas d’application clairement délimités, comme par exemple la reconnaissance des piétons dans la circulation routière, l’assistance vocale, la traduction automatique ou les applications à usage unique destinées au traitement de texte pur, le développement va désormais très vite au-delà. Selon les initiés, l’avenir appartient à la multimodalité, c’est-à-dire au traitement de différents types de données et de médias dans une machine. L’entraînement des réseaux neuronaux profonds nécessaires à cet effet se fait de plus en plus sous la forme d’un apprentissage auto-supervisé ou non supervisé.

Coup franc ou but contre son camp : l’Europe a-t-elle besoin de plus de marge de manœuvre en matière d’apprentissage automatique ?

Le chemin est jalonné d’étapes plus ou moins importantes, et les hyperscalers américains investissent de manière frappante pour faire avancer le développement dans ce domaine. L’annonce par Mark Zuckerberg d’un Metaverse et du changement de nom de Facebook en Meta avait suscité quelques moqueries sur la toile, car l’aspect ludique de jeu d’ordinateur de sa vidéo marketing ne permet pas de saisir le potentiel de bouleversement social du développement de l’IA. Ce dont il s’agit est plus tangible dans les documents de recherche actuels sur les modèles d’IA les plus récents qui sont en train d’être lancés.

Plongée technique et informations complémentaires

Ceux qui souhaitent en savoir plus sur data2vec trouveront leur bonheur dans le billet de blog de l’équipe de méta-chercheurs d’Alexei Baevski ou pourront consulter le document de recherche fraîchement publié. Les modèles et le code de data2vec sont disponibles sur GitHub. Des informations sur Perceiver sont disponibles sur le blog de DeepMind. Des informations sur la recherche en IA multimodale en cours en Europe peuvent être trouvées dans un article sur le lancement d’OpenGPT-X. La recherche sur l’extension multimodale de modèles génératifs par le biais de l’adaptation (MAGMA), qui est à la base des modèles d’IA utilisés par Aleph Alpha, est désormais également disponible sur arXiv.org.

Machine Learning : A la recherche d’un algorithme à tout faire

La multimodalité apporte la compréhension du contexte aux machines

Reconnaître les images, les textes et la parole : Facebook veut apprendre à l’IA à faire plusieurs choses à la fois

IA générale : petites et grandes étapes sur le chemin

Coup franc ou but contre son camp : l’Europe a-t-elle besoin de plus de marge de manœuvre en matière d’apprentissage automatique ?

Plongée technique et informations complémentaires

Plus d'articles

L’intelligence artificielle fait des banques les moteurs du changement

Les jumeaux numériques en tant que catalyseur de transformation des modèles d’affaires

Que signifie ChatGPT pour l’interface client des banques de demain?

Intelligence Artificielle dans le Financement de la Construction

Comment la recherche de fonds peut relier les banques et les petites et moyennes entreprises.

Comment les écosystèmes numériques révolutionnent la banque d’affaires

Les plus lues

Encodage des petits-escroqueries : les criminels essaient maintenant aussi via WhatsApp

iOS: 12 applications gratuites ou réduites pour iPhone et iPad

WhatsApp : arnaque actuelle par le message de code

Sujet du moment