AccueilActualités informatiqueNvidia Hopper : Prochaine génération de GPU avec 80 Go de mémoire...

Nvidia Hopper : Prochaine génération de GPU avec 80 Go de mémoire HBM3 et 3 TByte/s

Nvidia a présenté l’architecture de puces graphiques « Hopper », conçue pour être utilisée dans les centres de calcul. Hopper doit être particulièrement bien adapté aux calculs de réseaux neuronaux, au High Performance Computing (HPC) et au traitement des données vocales en temps réel. Par rapport à l’architecture précédente « Ampere », Hopper fournit une puissance de calcul nettement supérieure et apporte de nouvelles fonctions qui visent entre autres la sécurité des données. Les premières puces devraient être disponibles au troisième trimestre de l’année 2022 – Nvidia négocie les prix avec les exploitants de centres de calcul.

Nvidia fait fabriquer la puce H100, composée de 80 milliards de transistors, par le fabricant taïwanais TSMC, avec des structures de 4 nm (processus N4). À titre de comparaison, la puce Ampere, également fabriquée par TSCM, est composée de 54 milliards de transistors (7 nm). Grâce à un processus de fabrication plus fin, Nvidia a pu augmenter la densité d’empilement de Hopper. En ce qui concerne la vitesse pure, le H100 devrait être trois fois (FP16, FP64, TF32) ou six fois (FP8) plus rapide qu’un A100.

Sommaire

La version PCIe du H100 avale 350 watts.

(Image : Nvidia)

Le H100 est le premier GPU HPC à utiliser la mémoire empilée HBM3, ce qui lui permet d’atteindre un taux de transfert de données total de 3 TByte par seconde (A100 : 1,6 TByte/s). Nvidia a doublé l’extension de la mémoire par rapport à l’Ampere A100 pour atteindre un total de 80 Go. Le taux de transfert de données de la connexion PCIe a également été doublé : PCIe 5.0 atteint environ 4 Go/s par ligne de données au lieu d’à peine 2 Go/s comme PCIe 4.0 – actuellement également une caractéristique de positionnement GPU de Hopper.

Selon les spécifications, la consommation électrique a nettement augmenté : alors que l’A100 en version SXM pour serveurs se contente de 400 watts, Nvidia indique 700 watts pour le H100-SXM, soit 75% de plus. Une version sous forme de carte PCIe (Add-In Card, AIC) devrait également voir le jour, laquelle devrait consommer jusqu’à 350 watts d’énergie électrique.

H100 SXM5

H100 PCIe

A100 (SXM)

Tesla V100

Tesla P100

Tesla M40

Tesla K40

GPU

H100 (Hopper)

H100 (Hopper)

A100 (ampères)

GV100 (Volta)

GP100 (Pascal)

GM200 (Maxwell)

GK110 (Kepler)

SMs

132

114

108

80

56

24

15

TPCs

62

57

54

40

28

24

15

FP32 Cores / SM

128

128

64

64

64

128

192

Cœurs FP32 / GPU

15872

14592

6912

5120

3584

3072

2880

FP64 Cores / SM

64

64

32

32

32

4

64

Cœurs FP64 / GPU

8448

7296

3456

2560

1792

96

960

Tensor Cores / SM

4

4

4

8

Tensor Cores / GPU

528

456

432

640

Horloge de boost du GPU

k. A.

k. A.

1410

1455 MHz

1480 MHz

1114 MHz

810/875 MHz

Peak FP32 TFLOPS

60

48

19,5

15

10,6

6,8

5,04

Peak FP64 TFLOPS

30

24

9,7

7,5

5,3

2,1

1,68

Peak Tensor Core TFLOPS

500 / 1000

400 / 800

156 (TF32) / 312 (TF32 économie structurelle)

120 (Précision mixte)

Mémoire

5120 Bit HBM3

5120 Bit HBM2e

5120 Bit HBM2

4096-bit HBM2

4096-bit HBM2

GDDR5 384 bits

384-bit GDDR5

Taille de la mémoire

80 Go

80 Go

40 Go

16 Go

16 Go

jusqu’à 24 Go

jusqu’à 12 Go

TDP

700

350

400 watts (SXM)

300 watts

300 watts

250 watts

235 watts

Transistors (milliards)

80 milliards d’euros

80 milliards d’euros

54 milliards d’euros

21,1 milliards

15,3 milliards

8 milliards

7,1 milliards

GPU La taille

814 mm² de surface

814 mm² de surface

826 mm² de surface

815 mm² de surface

610 mm² de surface

601 mm² de section

551 mm² de surface

Fabrication

4 nm (4N)

4 nm (4N)

7 nm

12 nm FFN

FinFET+ 16 nm

28 nm

28 nm

Hopper est le premier GPU HPC avec une mémoire empilée HBM3. Il devrait atteindre un taux de transfert de 3 TByte/s.

(Image : Nvidia)

Grâce au « Transformer Engine », Hopper devrait être particulièrement efficace pour le traitement en temps réel et la traduction du langage naturel via le modèle populaire Transformer-Deep-Learning développé par Google. Pour garantir à la fois performance et précision, Nvidia combine de manière dynamique les formats de données 8 et 16 bits. Transformer n’utilise pas d’approche récurrente comme la plupart des systèmes de traduction automatique, mais traite tous les mots en parallèle et intègre en outre, via un mécanisme spécial, le contexte des mots qui sont plus éloignés dans la séquence – et est parallélisable en conséquence.

Nvidia veut garantir la sécurité des données traitées en temps réel grâce à des fonctions spéciales de calcul confidentiel, une combinaison de matériel et de logiciel (VM sécurisée). Cela doit également fonctionner séparément pour les différentes instances d’utilisateurs – H100 permet via Secure Multi-Instance jusqu’à sept Cloud-Tenants par H100-GPU, qui doivent correspondre chacun à un T4-GPU. A100 autorisait déjà sept instances par GPU. Grâce à NVLink 4.0, différentes puces H100 peuvent communiquer entre elles à 900 Go/s – une augmentation de 50 pour cent par rapport à l’A100.

Image de rendu du système Hopper DGX H100.

(Image : Nvidia)

Nvidia a annoncé le DGX H100 comme premier système Hopper. Il contient huit cartes H100 qui doivent atteindre une puissance de calcul de 32 pétaflops Tensor pour les calculs d’intelligence artificielle (FP16) et 0,5 pflops pour les calculs FP64 – une augmentation de six et trois fois par rapport au DGX A100. Nvidia a également présenté le système de serveur DGX SuperPOD avec 32 DGX H100, mais n’a pas communiqué de prix ni de date de disponibilité concrète pour ces systèmes.

Selon Nvidia, les fournisseurs de services cloud Alibaba Cloud, Amazon Web Services, Baidu AI Cloud, Google Cloud, Microsoft Azure, Oracle Cloud et Tencent Cloud proposent des instances basées sur le H100. Les serveurs équipés d’accélérateurs H100 devraient à l’avenir provenir entre autres d’Atos, Boxx Technologies, Cisco, Dell, Fujitsu, Gigabyte, H3C Hewlett Packard Enterprise, Inspur, Lenovo, Nettrix et Supermicro.

Plus d'articles