MENU

Cerebras présente un processeur d’IA de la taille d’une tranche de silicium de 12 pouces

Cerebras présente un processeur d’IA de la taille d’une tranche de silicium de 12 pouces

Nouveaux produits |
Par Nick Flaherty, Daniel Cardon



Cerebras a lancé son accélérateur d’IA de troisième génération de la taille d’une tranche de silicium, conçu sur mesure pour entraîner les modèles d’IA les plus avancés.

Un accord conclu cette semaine avec Qualcomm permettra aux modèles formés sur l’accélérateur Cerebras CS-3 de travailler sur des moteurs d’inférence.

La puce WSE-3 de Cerebras, d’une taille équivalente à celle d’une tranche de semiconducteur de 12 pouces, est la plus grande puce au monde, éclipsant le GPU H100 de Nvidia. L’accélérateur CS-3 compte plus de 4 billions de transistors dans 900 000 cœurs, soit 57 fois plus que le plus grand GPU. Il est deux fois plus rapide que son prédécesseur et établit des records en matière d’apprentissage de grands modèles linguistiques et multimodaux.

L’interconnexion SwarmX permet de relier jusqu’à 2048 systèmes CS-3 pour construire des superordinateurs d’IA à très grande échelle pouvant atteindre un quart de zettaflops (10^21). Le CS-3 peut être configuré avec jusqu’à 1 200 téraoctets de mémoire externe, ce qui permet à un seul système d’entraîner des modèles comportant jusqu’à 24 billions de paramètres, ouvrant ainsi la voie aux chercheurs en apprentissage machine -ML- pour construire des modèles 10 fois plus grands que le GPT-4 et le Claude d’Anthropic

Le Cerebras CS-3 a été conçu pour accélérer les derniers grands modèles d’IA. Chaque cœur CS-3 dispose de 8 unités SIMD FP16, soit une multiplication par 2 par rapport à CS-2. Il améliore également les performances pour les opérations arithmétiques non linéaires et augmente la mémoire et la bande passante par cœur. Le Condor Galaxy 3 sera le premier supercalculateur d’IA alimenté par CS-3, construit en collaboration avec le partenaire G42, et sera opérationnel au deuxième trimestre 2024 à Dallas, au Texas.

Lors de tests en conditions réelles avec Llama 2, Falcon 40B, MPT-30B et des modèles multimodaux, Cerebras a mesuré jusqu’à deux fois plus de jetons/seconde que le CS-2, sans augmentation de la puissance ou du coût.

Les grands modèles linguistiques tels que GPT-4 et Gemini voient leur taille multipliée par 10 chaque année. Pour faire face à l’augmentation constante des besoins en calcul et en mémoire, il est nécessaire d’accroître l’évolutivité des clusters.

Alors que CS-2 prenait en charge des grappes allant jusqu’à 192 systèmes, CS-3 prend en charge des grappes de 2048 systèmes, soit une multiplication par 10. Un cluster complet de 2048 CS-3 fournit 256 exaflops de calcul d’IA et peut entraîner le Llama2-70B à partir de zéro en moins d’une journée. En comparaison, l’entraînement de Llama2-70B a pris environ un mois sur la grappe de GPU de Meta.

Contrairement aux GPU, les clusters Cerebras Wafer Scale découplent les composants de calcul et de mémoire, ce qui permet d’augmenter facilement la capacité de mémoire dans les unités MemoryX. Les clusters Cerebras CS-2 ont pris en charge des unités MemoryX de 1,5 To et 12 To.

CS-3 augmente les options MemoryX en incluant des SKUs de 24TB et 36TB pour les grandes entreprises et des options de 120TB et 1,200 TB pour lesserveurs  hyperscalers. La configuration de 1 200 To permet de stocker des modèles comportant 24 billions de paramètres, ouvrant ainsi la voie à des modèles de nouvelle génération d’un ordre de grandeur supérieur à GPT-4 et Gemini.

Un seul CS-3 peut être associé à une seule unité MemoryX de 1 200 To, ce qui signifie qu’un seul rack CS-3 peut stocker plus de paramètres de modèle qu’un cluster GPU de 10 000 nœuds. Cela permet à un seul ingénieur ML de développer et de déboguer des modèles de plusieurs billions de paramètres sur une seule machine.

Le Condor Galaxy 3 utilise 64 systèmes CS-3 avec 8 exaflops et se présente au développeur ML comme un seul processeur avec une seule mémoire unifiée.

Cerebras s’est associé à Qualcomm pour développer une plateforme d’IA commune pour la formation et l’inférence. Les modèles formés sur le CS-3 à l’aide de caractéristiques architecturales telles que l’éparpillement non structuré peuvent être accélérés sur les accélérateurs d’inférence Qualcomm AI 100 Ultra. Dans l’ensemble, le débit de l’inférence LLM est jusqu’à 10 fois plus rapide.

Cerebras

Suivre ECInews sur Google news

 

Si vous avez apprécié cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à :    ECI sur Google News

Partager:

Articles liés
10s