Nvidia a présenté l’architecture de puces graphiques « Hopper », conçue pour être utilisée dans les centres de calcul. Hopper doit être particulièrement bien adapté aux calculs de réseaux neuronaux, au High Performance Computing (HPC) et au traitement des données vocales en temps réel. Par rapport à l’architecture précédente « Ampere », Hopper fournit une puissance de calcul nettement supérieure et apporte de nouvelles fonctions qui visent entre autres la sécurité des données. Les premières puces devraient être disponibles au troisième trimestre de l’année 2022 – Nvidia négocie les prix avec les exploitants de centres de calcul.
Nvidia fait fabriquer la puce H100, composée de 80 milliards de transistors, par le fabricant taïwanais TSMC, avec des structures de 4 nm (processus N4). À titre de comparaison, la puce Ampere, également fabriquée par TSCM, est composée de 54 milliards de transistors (7 nm). Grâce à un processus de fabrication plus fin, Nvidia a pu augmenter la densité d’empilement de Hopper. En ce qui concerne la vitesse pure, le H100 devrait être trois fois (FP16, FP64, TF32) ou six fois (FP8) plus rapide qu’un A100.
Sommaire
Plus de mémoire et une consommation d’énergie plus élevée
Le H100 est le premier GPU HPC à utiliser la mémoire empilée HBM3, ce qui lui permet d’atteindre un taux de transfert de données total de 3 TByte par seconde (A100 : 1,6 TByte/s). Nvidia a doublé l’extension de la mémoire par rapport à l’Ampere A100 pour atteindre un total de 80 Go. Le taux de transfert de données de la connexion PCIe a également été doublé : PCIe 5.0 atteint environ 4 Go/s par ligne de données au lieu d’à peine 2 Go/s comme PCIe 4.0 – actuellement également une caractéristique de positionnement GPU de Hopper.
Selon les spécifications, la consommation électrique a nettement augmenté : alors que l’A100 en version SXM pour serveurs se contente de 400 watts, Nvidia indique 700 watts pour le H100-SXM, soit 75% de plus. Une version sous forme de carte PCIe (Add-In Card, AIC) devrait également voir le jour, laquelle devrait consommer jusqu’à 350 watts d’énergie électrique.
H100 SXM5 |
H100 PCIe |
A100 (SXM) |
Tesla V100 |
Tesla P100 |
Tesla M40 |
Tesla K40 |
|
GPU |
H100 (Hopper) |
H100 (Hopper) |
A100 (ampères) |
GV100 (Volta) |
GP100 (Pascal) |
GM200 (Maxwell) |
GK110 (Kepler) |
SMs |
132 |
114 |
108 |
80 |
56 |
24 |
15 |
TPCs |
62 |
57 |
54 |
40 |
28 |
24 |
15 |
FP32 Cores / SM |
128 |
128 |
64 |
64 |
64 |
128 |
192 |
Cœurs FP32 / GPU |
15872 |
14592 |
6912 |
5120 |
3584 |
3072 |
2880 |
FP64 Cores / SM |
64 |
64 |
32 |
32 |
32 |
4 |
64 |
Cœurs FP64 / GPU |
8448 |
7296 |
3456 |
2560 |
1792 |
96 |
960 |
Tensor Cores / SM |
4 |
4 |
4 |
8 |
— |
— |
— |
Tensor Cores / GPU |
528 |
456 |
432 |
640 |
— |
— |
— |
Horloge de boost du GPU |
k. A. |
k. A. |
1410 |
1455 MHz |
1480 MHz |
1114 MHz |
810/875 MHz |
Peak FP32 TFLOPS |
60 |
48 |
19,5 |
15 |
10,6 |
6,8 |
5,04 |
Peak FP64 TFLOPS |
30 |
24 |
9,7 |
7,5 |
5,3 |
2,1 |
1,68 |
Peak Tensor Core TFLOPS |
500 / 1000 |
400 / 800 |
156 (TF32) / 312 (TF32 économie structurelle) |
120 (Précision mixte) |
— |
— |
— |
Mémoire |
5120 Bit HBM3 |
5120 Bit HBM2e |
5120 Bit HBM2 |
4096-bit HBM2 |
4096-bit HBM2 |
GDDR5 384 bits |
384-bit GDDR5 |
Taille de la mémoire |
80 Go |
80 Go |
40 Go |
16 Go |
16 Go |
jusqu’à 24 Go |
jusqu’à 12 Go |
TDP |
700 |
350 |
400 watts (SXM) |
300 watts |
300 watts |
250 watts |
235 watts |
Transistors (milliards) |
80 milliards d’euros |
80 milliards d’euros |
54 milliards d’euros |
21,1 milliards |
15,3 milliards |
8 milliards |
7,1 milliards |
GPU La taille |
814 mm² de surface |
814 mm² de surface |
826 mm² de surface |
815 mm² de surface |
610 mm² de surface |
601 mm² de section |
551 mm² de surface |
Fabrication |
4 nm (4N) |
4 nm (4N) |
7 nm |
12 nm FFN |
FinFET+ 16 nm |
28 nm |
28 nm |
Accélération du traitement de la parole en temps réel
Grâce au « Transformer Engine », Hopper devrait être particulièrement efficace pour le traitement en temps réel et la traduction du langage naturel via le modèle populaire Transformer-Deep-Learning développé par Google. Pour garantir à la fois performance et précision, Nvidia combine de manière dynamique les formats de données 8 et 16 bits. Transformer n’utilise pas d’approche récurrente comme la plupart des systèmes de traduction automatique, mais traite tous les mots en parallèle et intègre en outre, via un mécanisme spécial, le contexte des mots qui sont plus éloignés dans la séquence – et est parallélisable en conséquence.
Nvidia veut garantir la sécurité des données traitées en temps réel grâce à des fonctions spéciales de calcul confidentiel, une combinaison de matériel et de logiciel (VM sécurisée). Cela doit également fonctionner séparément pour les différentes instances d’utilisateurs – H100 permet via Secure Multi-Instance jusqu’à sept Cloud-Tenants par H100-GPU, qui doivent correspondre chacun à un T4-GPU. A100 autorisait déjà sept instances par GPU. Grâce à NVLink 4.0, différentes puces H100 peuvent communiquer entre elles à 900 Go/s – une augmentation de 50 pour cent par rapport à l’A100.
DGX H100 avec huit cartes Hopper
Nvidia a annoncé le DGX H100 comme premier système Hopper. Il contient huit cartes H100 qui doivent atteindre une puissance de calcul de 32 pétaflops Tensor pour les calculs d’intelligence artificielle (FP16) et 0,5 pflops pour les calculs FP64 – une augmentation de six et trois fois par rapport au DGX A100. Nvidia a également présenté le système de serveur DGX SuperPOD avec 32 DGX H100, mais n’a pas communiqué de prix ni de date de disponibilité concrète pour ces systèmes.
Selon Nvidia, les fournisseurs de services cloud Alibaba Cloud, Amazon Web Services, Baidu AI Cloud, Google Cloud, Microsoft Azure, Oracle Cloud et Tencent Cloud proposent des instances basées sur le H100. Les serveurs équipés d’accélérateurs H100 devraient à l’avenir provenir entre autres d’Atos, Boxx Technologies, Cisco, Dell, Fujitsu, Gigabyte, H3C Hewlett Packard Enterprise, Inspur, Lenovo, Nettrix et Supermicro.