AccueilActualités informatiqueAccélérateur PCIe pour serveurs : AMD Instinct MI210 avec 64 Go disponible

Accélérateur PCIe pour serveurs : AMD Instinct MI210 avec 64 Go disponible

AMD annonce la disponibilité de ses accélérateurs de calcul Instinct MI210. Ces accélérateurs, qui se présentent sous la forme d’une carte enfichable pour le raccordement PCI-Express-4.0, utilisent la même puce « Aldebaraan » avec architecture CDNA2 que celle utilisée sur les Instinct MI250 et MI250X pour les superordinateurs et les centres de calcul – mais en double. Les cartes ont 64 Go de mémoire, consomment jusqu’à 300 watts via un connecteur EPS-12V et doivent être refroidies par le (fort) courant d’air du boîtier du serveur.

Les cartes n’ont pas de sorties graphiques, mais des connexions pour trois Infinity Fabric Links permettant de coupler jusqu’à quatre cartes de manière cohérente au niveau du cache. Entre chaque paire de GPU, ces dernières transmettent jusqu’à 300 Go/s.

64 Go de mémoire locale sont soudés sur le package sous forme de puces empilées HBM2E et atteignent un taux de transfert de 1,6 TByte/s grâce à 4096 lignes de données parallèles. La mémoire et les caches disposent – comme il est d’usage dans les centres de calcul – d’une protection de la mémoire ECC.

Même avec un seul GPU, AMD veut remettre à sa place l’ancienne puce A100 de la génération Ampere de Nvidia et mise pour cela entièrement sur la puissance de calcul de l’architecture CDNA2 avec ses Matrix Core Engines compatibles FP32 et FP64. Selon les benchmarks internes du fabricant, il est possible d’obtenir une avance de performance de 30 à 110 pour cent par rapport à l’A100 de Nvidia dans les applications de calcul haute performance, notamment HP-Linpack, LAMMPS ou nBody-Solver.

L’Instinct MI210 est supporté par la plate-forme logicielle ROCm 5 d’AMD et reçoit des pilotes pour les distributions Linux 64 bits. Des fabricants comme Asus, Dell, Gigabyte, HPE, Lenovo et Supermicro proposent des tiroirs de serveurs allant du format lame au format 4U, dans lesquels les cartes MI210 peuvent être intégrées.

AMD a optimisé l’architecture CDNA2 purement pour les charges de travail de calcul, ne traîne donc aucun poids d’une puce convenant également pour les applications graphiques, mais appelle tout de même les puces « Graphics Compute Die » (GCD).

Selon AMD, l’Instinct MI210 est toujours plus rapide que l’A100 de Nvidia malgré une seule puce CDNA2.

(Image : AMD)

Les puces « Aldebaran » font appel à des techniques de fabrication modernes. Les processeurs sont fabriqués chez TSMC dans des structures d’une finesse minimale de 6 nanomètres. Cela augmente la fréquence maximale possible jusqu’à 1,7 GHz et permet à AMD d’intégrer 128 unités de calcul de 64 processeurs de flux dans un GCD. Dans le MI210, 104 d’entre eux sont actifs, un MI250 ou MI250X se compose de deux puces, avec respectivement 208 et 220 unités de calcul actives au total.

À cela s’ajoutent les matrix cores qui, tout comme les unités vectorielles, peuvent traiter les FP32 et les FP64 à la même vitesse, mais qui sont encore deux fois plus rapides pour les multiplications matricielles et les PackedFP32-Math. Avec jusqu’à 45,3 TFlops FP64/Packed FP32, ils font de l’ombre à d’autres accélérateurs comme l’A100 de Nvidia, dont les Tensor Cores rattrapent toutefois leur retard avec des formats de données spéciaux comme TF32 et les dépassent même dans le domaine des entiers pour l’inférence de l’IA.

Instinct MI210 (PCIe)

Instinct MI250X (OAM)

Instinct MI250
(OAM)

Instinct MI100 (PCIe)

A100 (SXM)

Fabricant

AMD

AMD

AMD

AMD

Nvidia

GPU

CDNA2 Aldébaran

2x CDNA2 Aldébaran

2x CDNA2 Aldébaran

CDNA Arcturus

A100 (ampères)

CUs/SMs

104

220

208

120

108

FP32 Cores / CU

64

64

64

64

64

Cœurs FP32 / GPU

6656

14080

13312

7680

6912

Cœurs FP64 / CU

64

64

64

32

32

Cœurs FP64 / GPU

6656

14080

13312

3840

3456

Moteurs de multiplication de matrice / GPU
(Matrix Core Engine / Tensor Cores)

416

880

832

480

432

Horloge de boost du GPU

1700 MHz

1700 MHz

1700 MHz

1502

n.d.

Peak FP32 / FP64 TFlops

22,6 / 22,6

47,9 / 47,9

45,3 / 45,3

23,07 / 11,54

19,5 / 9,7

Peak TFlops Tensor Cores / Matrix Core Engine

45,3 (FP32 FP64)

95,7 (FP32 FP64)

90,5 (FP32 FP64)

46,1 (FP32)

156 (TF32) / 312 (TF32 économie structurelle)

Peak FP16 / BF16 TFlops

181 / 181

308 / 308

362 / 362

184,6 / 92,3

312 / 312 (624 / 624 économie structurelle)

Peak INT8 / INT4 TOps

n.d.

308 / 308

362 / 362

184,6 / 184,6

624 / 1248 (1248 / 2496 Économicité structurelle)

Interface mémoire

4096 bits HBM2E

2 × 4096 bits HBM2E

2 × 4096 bits HBM2E

4096 bits HBM2

5120 Bit HBM2

Taille de la mémoire

64 Go

128 Go

128 Go

32 Go

40 – 80 Go

Taux de transfert de la mémoire

1,6 TByte/s

3,2 TByte/s

3,2 TByte/s

1,2 TByte/s

1,55 – 2,0 TByte/s

TDP

300 watts

560 watts (refroidissement liquide) / 500 watts (airflow)

560 watts (refroidissement liquide) / 500 watts (airflow)

300 watts

400 watts (SXM)

Transistors (milliards)

58 milliards d’euros

58 milliards (par GPU)

58 milliards (par GPU)

n.d.

54 milliards d’euros

Fabrication

6 nm

6 nm

6 nm

7 nm

7 nm

Plus d'articles