AMD (NASDAQ : AMD) a annoncé aujourd’hui le nouvel accélérateur AMD Instinct™ MI100 – le GPU HPC le plus rapide au monde et le premier GPU pour serveur x86 à dépasser la barrière des performances de 10 téraflops (FP64).1 Soutenu par les nouvelles plates-formes de calcul accéléré de Dell, GIGABYTE, HPE et Supermicro, le MI100, combiné aux CPU AMD EPYC™ et à la plate-forme logicielle ouverte ROCm™ 4.0, est conçu pour propulser de nouvelles découvertes en avant de l’ère de l’exascale.

Basé sur la nouvelle architecture CDNA d’AMD, le GPU AMD Instinct MI100 permet une nouvelle classe de systèmes accélérés pour le HPC et l’IA lorsqu’il est couplé avec des processeurs AMD EPYC de 2ème génération. Le MI100 offre jusqu’à 11,5 TFLOPS de performances FP64 de pointe pour le HPC et jusqu’à 46,1 TFLOPS de performances FP32 de pointe pour l’AI et les charges de travail d’apprentissage machine2. Grâce à la nouvelle technologie Matrix Core d’AMD, le MI100 offre également un gain de près de 7 fois les performances théoriques de pointe en virgule flottante du FP16 pour les charges de travail d’apprentissage de l’IA par rapport aux accélérateurs AMD de la génération précédente3.

« Aujourd’hui, AMD fait un grand pas en avant dans le voyage vers l’informatique à l’échelle de l’entreprise en dévoilant l’AMD Instinct MI100 – le GPU HPC le plus rapide au monde », a déclaré Brad McCredie, vice-président d’entreprise, GPU pour centres de données et traitement accéléré, AMD. « Carrément ciblé sur les charges de travail qui comptent dans le calcul scientifique, notre dernier accélérateur, lorsqu’il est combiné à la plateforme logicielle ouverte AMD ROCm, est conçu pour fournir aux scientifiques et aux chercheurs une base supérieure pour leur travail dans le HPC ».

Plate-forme logicielle ouverte pour l’ère de l’Exascale:

Le logiciel de développement AMD ROCm constitue la base du calcul à l’échelle de l’arc-en-ciel. En tant qu’ensemble d’outils open source composé de compilateurs, d’API de programmation et de bibliothèques, ROCm est utilisé par les développeurs de logiciels d’exascale pour créer des applications de haute performance. ROCm 4.0 a été optimisé pour fournir des performances à l’échelle pour les systèmes basés sur le MI100. ROCm 4.0 a mis à jour le compilateur pour qu’il soit open source et unifié pour supporter à la fois OpenMP® 5.0 et HIP. Les frameworks PyTorch et Tensorflow, qui ont été optimisés avec ROCm 4.0, peuvent maintenant atteindre des performances supérieures avec le MI1007,8. ROCm 4.0 est la dernière offre en date pour les développeurs d’applications HPC, ML et AI qui leur permet de créer des logiciels portables performants.

« Nous avons eu accès très tôt à l’accélérateur MI100, et les résultats préliminaires sont très encourageants. Nous avons généralement constaté une augmentation significative des performances, jusqu’à 2-3 fois par rapport aux autres GPU », a déclaré Bronson Messer, directeur scientifique de l’Oak Ridge Leadership Computing Facility. « Il est également important de reconnaître l’impact des logiciels sur les performances. Le fait que la plateforme logicielle ouverte ROCm et l’outil de développement HIP soient open source et fonctionnent sur une variété de plateformes, c’est quelque chose qui nous obsède presque depuis que nous avons mis sur le marché le tout premier système hybride CPU/GPU ».

Les principales capacités et caractéristiques de l’accélérateur AMD Instinct MI100 sont les suivantes:

  • Toute nouvelle architecture AMD CDNA – Conçue pour alimenter les GPU AMD de l’ère exascale et au cœur de l’accélérateur MI100, l’architecture AMD CDNA offre des performances et une efficacité énergétique exceptionnelles
  • Performances de pointe du FP64 et du FP32 pour les charges de travail du HPC – Fournit des performances de pointe de 11,5 TFLOPS pour le FP64 et de 23,1 TFLOPS pour le FP32, permettant aux scientifiques et aux chercheurs du monde entier d’accélérer les découvertes dans des secteurs tels que les sciences de la vie, l’énergie, la finance, les universités, le gouvernement, la défense, etc.
  • Toute nouvelle technologie de base de matrice pour le HPC et l’IA – Des performances suralimentées pour une gamme complète d’opérations matricielles de précision simples et mixtes, telles que FP32, FP16, bFloat16, Int8 et Int4, conçues pour stimuler la convergence du HPC et de l’IA.
  • Technologie AMD Infinity de 2éme génération Fabric™ – Instinct MI100 fournit ~2x la bande passante d’entrée/sortie de pointe en peer-to-peer (P2P) sur PCIe® 4.0 avec jusqu’à 340 GB/s de bande passante agrégée par carte avec trois liens AMD Infinity Fabric™.4 Dans un serveur, les GPU MI100 peuvent être configurés avec jusqu’à deux ruche de GPU quadruple entièrement connectées, chacune fournissant jusqu’à 552 GB/s de bande passante d’entrée/sortie P2P pour un partage rapide des données.
  • Mémoire HBM2 ultra-rapide – La mémoire HBM2 à haut débit de 32 Go à une fréquence d’horloge de 1,2 GHz offre une bande passante mémoire ultra-rapide de 1,20 To/s pour prendre en charge de grands ensembles de données et aider à éliminer les goulots d’étranglement dans le transfert des données dans et hors de la mémoire.
  • Prise en charge de la dernière technologie PCIe® Gen 4.0 de l’industrie – Conçue avec la dernière technologie PCIe Gen 4.0, elle offre une bande passante théorique de transport de données allant jusqu’à 64 Go/s en crête du CPU au GPU.

MI100 Specifications

Compute UnitsStream ProcessorsFP64 TFLOPS (Peak)FP32 TFLOPS (Peak)FP32 Matrix TFLOPS
(Peak)
FP16/FP16 Matrix
TFLOPS
(Peak)
INT4 | INT8 TOPS
(Peak)
bFloat16 TFLOPs
(Peak)
HBM2
ECC
Memory
Memory Bandwidth
1207680Up to 11.5Up to 23.1Up to 46.1Up to 184.6Up to 184.6Up to 92.3 TFLOPS32GBUp to 1.20 TB/s

This site uses cookies to offer you a better browsing experience. By browsing this website, you agree to our use of cookies.