NVIDIA dévoile son supercalculateur Eos pour le traitement de l’IA doté de 4 608 GPU H100

Nvidia reveals its Eos supercomputer for AI processing sporting 4,608 H100 GPUs

Pourquoi est-ce important: Conçu pour les tâches liées à l’IA, Eos possède des caractéristiques remarquables. NVIDIA l’appelle une usine d’IA, une description sans doute précise. Il montre également ce que les technologies de NVIDIA peuvent faire lorsqu’elles travaillent à grande échelle.

NVIDIA a donné aux passionnés un premier aperçu d’Eos, un supercalculateur à l’échelle d’un centre de données conçu pour les applications d’IA. Il a présenté Eos pour la première fois lors de la Supercomputing Conference en novembre 2023, mais n’a pas révélé ses caractéristiques.

Eos arbore 576 systèmes NVIDIA DGX H100 – chacun équipé de huit GPU H100 Tensor Core pour un total de 4 608. Il dispose également d’un réseau et de logiciels NVIDIA Quantum-2 InfiniBand. Cette combinaison fournit un total de 18,4 exaflops de performances IA FP8.

Avec une architecture réseau prenant en charge des vitesses de transfert de données allant jusqu’à 400 Gb/s, l’Eos peut former de grands modèles de langage, des systèmes de recommandation et des simulations quantiques, entre autres tâches d’IA. NVIDIA affirme avoir construit Eos sur la base des connaissances acquises grâce aux supercalculateurs NVIDIA DGX précédents, tels que Saturn 5 et Selene. Ses développeurs l’utilisent pour leurs travaux en IA.

YouTube video

Eos a fait sourciller l’année dernière lorsqu’il s’est classé n°9 dans la liste des 500 supercalculateurs les plus rapides au monde – une réussite notable, souligne ServeTheHome, depuis que NVIDIA a cessé de se concentrer sur les gains de double précision pour les performances de l’IA il y a quelque temps. Le supercalculateur le plus rapide du classement Top500 est le système Frontier, hébergé au laboratoire national d’Oak Ridge dans le Tennessee, avec un score HPL de 1 194 PFlop/s contre 121,4 PFlop/s pour l’Eos. Il y a de fortes chances que ce score s’améliore avec le temps.

En novembre dernier, Eos a réalisé un test de formation MLPerf basé sur le modèle GPT-3 avec 175 milliards de paramètres formés sur un milliard de jetons en seulement 3,9 minutes, soit un gain de près de 3 fois par rapport aux 10,9 minutes d’il y a six mois. NVIDIA affirme que, parce que le benchmark utilise une partie de l’ensemble complet de données GPT-3, par extrapolation, Eos pourrait désormais s’entraîner en seulement huit jours, soit 73 fois plus vite qu’un système utilisant 512 GPU A100, ce qui était la performance maximale standard lorsque GPT-3. est sorti en 2020.

Eos est également expédié avec une pile logicielle intégrée pour le développement et le déploiement de l’IA, qui comprend l’orchestration et la gestion de cluster, un stockage de calcul accéléré et des bibliothèques réseau, ainsi qu’un système d’exploitation optimisé pour les charges de travail d’IA.

Envie de vous détendre un peu ? Voici un reportage très intéressant sur l’intelligence artificielle :

YouTube video