AccueilActualités informatiqueIA : Microsoft et NVIDIA conçoivent un grand modèle de langage génératif

IA : Microsoft et NVIDIA conçoivent un grand modèle de langage génératif

Microsoft et NVIDIA ont développé conjointement un puissant modèle de langage. Le modèle de génération de langage naturel Megatron-Turing (MT-NLG) a été entraîné avec 530 milliards de paramètres. Il est plus grand et plus complexe que ses deux prédécesseurs, le Turing NLG 17B de Microsoft (17 milliards de paramètres) et le Megatron-LM de NVIDIA (8 milliards), et il est censé faire preuve d’une précision « inégalée » dans la génération du langage naturel. En comparaison, le GPT-3 compte 175 milliards de paramètres. Seul le Switch Transformer de Google surpasse MT-NLG avec 1,6 trillion de paramètres.

La taille des modèles NLP augmente de manière exponentielle.

(Image : NVIDIA)

Le matériel utilisé était le supercalculateur Selene de NVIDIA avec 560 serveurs DGX A100, chacun d’entre eux possédant huit GPU A100 avec 80 GByte VRAM. Les GPU sont connectés via NVLink et NVSwitch. Pour réduire la puissance de calcul et la consommation de mémoire, les deux entreprises ont utilisé la bibliothèque DeepSpeed, qui convient à la formation de modèles distribués de grande taille. Pour le découpage tensoriel, qui met à l’échelle le modèle dans un nœud, ils utilisent le transformateur Megatron-LM.

The Pile, un ensemble de données de modélisation du langage que les chercheurs en IA mettent en libre accès, a servi de base à la formation. Les différentes étapes de la formation peuvent être consultées sur le blog de NVIDIA.

Le traitement du langage naturel (NLP) traite le langage naturel à l’aide de règles et d’algorithmes. Elle utilise des méthodes issues de la linguistique qui sont combinées à l’intelligence artificielle et à l’informatique. Grâce au MT-NLG, les modèles d’IA pourront être formés plus rapidement et à moindre coût à l’avenir.

Plus d'articles