Un an après le tapeout, Intel a lancé sa puce accélératrice d’IA Gaudi 3 pour affronter les systèmes H100 de Nvidia.
La puce Gaudi 3 a été réorientée pour prendre en charge les grands modèles de langage (LLM) basés sur des transformateurs à mémoire limitée, utilisés pour l’IA générative dans les centres de données.
La puce sera disponible d’ici juin pour un nœud unique jusqu’aux grappes, super-grappes et méga-grappes de plusieurs milliers de nœuds, permettant l’inférence, le réglage fin et l’entraînement à grande échelle. Dell Technologies, HPE, Lenovo et Supermicro seraient les clients cible.
Intel compare la puce directement à la Nvidia H100 et prévoit un temps d’apprentissage 50 % plus rapide en moyenne pour les modèles d’IA Llama2 avec 7 milliards et 13 milliards de paramètres, et le modèle GPT-3 avec 175 milliards de paramètres. En outre, le débit d’inférence de l’accélérateur Intel Gaudi 3 devrait dépasser le H100 de 50 % en moyenne1 et de 40 % pour l’efficacité énergétique de l’inférence, en moyenne pour les paramètres Llama 7B et 70B, et les modèles de paramètres Falcon 180B.
- Intel présente Gaudi 3 aux côtés des processeurs Core Ultra et Xeon
- Intel présente la troisième génération de la puce d’IA Gaudi3
L’accélérateur Gaudi 3 est construit dans un process de 5nm, ce qui implique qu’il est construit chez TSMC. La conception permet d’activer tous les moteurs en parallèle – avec le moteur de multiplication matricielle (MME), les cœurs de processeur tensoriel (TPC) et les cartes d’interface réseau (NIC) – afin d’accroître les performances.
Chaque accélérateur dispose d’un moteur de calcul hétérogène composé de 64 TPC personnalisés et programmables et de huit MME. Chaque MME est capable d’effectuer 64 000 opérations parallèles et prend en charge plusieurs types de données, notamment FP8 et BF16.
Les LLM sont liés à la mémoire, c’est pourquoi la puce prend en charge 128 gigaoctets (Go) de capacité de mémoire HBMe2, 3,7 téraoctets (To) de bande passante mémoire et 96 mégaoctets (Mo) de mémoire statique à accès aléatoire (SRAM) embarquée fournissent une mémoire suffisante pour traiter de grands ensembles de données GenAI sur un nombre réduit de composants.
Chaque puce est dotée de 24 ports Ethernet à 200 gigabits pour une mise en réseau ouverte afin de prendre en charge les grandes grappes de calcul et d’éliminer le verrouillage des fournisseurs par des réseaux propriétaires tels que ceux de Nvidia.
Une carte PCI Express est destinée à la mise au point, à l’inférence et à la génération augmentée par récupération (RAG). Elle est équipée d’un facteur de forme pleine hauteur à 600 watts, d’une capacité de mémoire de 128 Go et d’une bande passante de 3,7 To par seconde.
Le logiciel Gaudi intègre le cadre PyTorch et fournit des modèles optimisés basés sur la communauté Hugging Face – le cadre d’IA le plus courant pour les développeurs GenAI aujourd’hui. Cela permet aux développeurs de GenAI d’opérer à un niveau d’abstraction élevé pour faciliter l’utilisation et la productivité, ainsi que le portage de modèles sur différents types de matériel.
Intel tente également de briser la mainmise de Nvidia sur l’architecture CUDA en promouvant des logiciels plus ouverts, basés sur la communauté, et des réseaux Ethernet conformes aux normes industrielles.
Bosch prévoit d’utiliser la puce pour explorer d’autres possibilités de fabrication intelligente, notamment des modèles fondamentaux générant des ensembles de données synthétiques d’anomalies de fabrication afin de fournir des ensembles d’entraînement robustes et uniformément répartis pour l’inspection optique automatisée.
Roboflow, aux États-Unis, exécute également des charges de travail de production des modèles YOLOv5, YOLOv8, CLIP, SAM et ViT pour sa plateforme de vision par ordinateur de bout en bout, tandis que Naver prévoit également d’utiliser la puce.
« L’innovation progresse à un rythme sans précédent, tout cela grâce au silicium – et chaque entreprise devient rapidement une entreprise d’IA », a déclaré Pat Gelsinger, PDG d’Intel. « Intel apporte l’IA partout dans l’entreprise, du PC au centre de données en passant par Edge. Nos dernières plateformes Gaudi, Xeon et Core Ultra offrent un ensemble cohérent de solutions flexibles adaptées pour répondre aux besoins changeants de nos clients et partenaires et capitaliser sur les immenses opportunités à venir. »
Pour un écosystème genAI ouvert, Intel travaille avec Anyscale, Articul8, DataStax, Domino, Hugging Face, KX Systems, MariaDB, MinIO, Qdrant, RedHat, Redis, SAP, VMware, Yellowbrick et Zilliz. L’objectif est de permettre aux entreprises d’utiliser leurs sources de données propriétaires existantes fonctionnant sur une infrastructure dans le cloud standard augmentée de capacités LLM ouvertes.
Dans un premier temps, Intel publiera des implémentations de référence pour les pipelines GenAI sur les systèmes sécurisés Intel Xeon et Gaudi 3, publiera un cadre conceptuel technique et continuera d’ajouter des capacités d’infrastructure dans l’Intel Tiber Developer Cloud pour le développement de l’écosystème et la validation des pipelines actuels et futurs.