Cerebras met 1200 milliards de transistors sur une puce IA
Mesurant 46 225 mm2 et optimisé pour l’intelligence artificielle, le moteur Cerebras Wafer Scale Engine (WSE) est 56,7 fois plus grand que la plus grande unité de traitement graphique qui mesure 815 mm2, et il contient 1200 milliards de transistors. La puce WSE, ajoute la société, offre également 3 000 fois plus de mémoire haute vitesse sur puce et 10 000 fois plus de bande passante mémoire.
« Conçu dès le départ pour l’IA, le Cerebras WSE contient des innovations fondamentales qui font évoluer les technologies de pointe en résolvant des défis techniques vieux de plusieurs décennies qui limitaient la taille des puces – telles que la connectivité interne, le rendement en fabrication, la fourniture de puissance, et la mise en boîtier « , explique Andrew Feldman, fondateur et PDG de Cerebras Systems. « Toutes les décisions architecturales ont été prises pour optimiser les performances du travail en intelligence artificielle. Le résultat est que le Cerebras WSE offre, en fonction de la charge de travail, des centaines, voire des milliers de fois les performances des solutions existantes pour une fraction infime de la consommation et de l’encombrement. »
En matière d’intelligence artificielle, la taille des puces revêt une importance capitale, car les puces plus larges sont en mesure de traiter les informations plus rapidement et donc de fournir des réponses plus rapidement. La réduction du temps nécessaire à la compréhension, ou « temps d’aprentissage » – un obstacle majeur aux progrès de l’ensemble du secteur – permet aux chercheurs de tester plus d’idées, d’utiliser plus de données et de résoudre de nouveaux problèmes.
Les gains de performances de la puce sont obtenus en accélérant tous les éléments de l’aprentissage des réseaux de neurones. Un réseau de neurones est une boucle de rétroaction informatique à plusieurs niveaux. Plus les entrées sont rapides dans la boucle, plus la boucle apprend ou « s’entraîne » rapidement. La solution pour déplacer les entrées dans la boucle plus rapidement consiste à accélérer le calcul et la communication au sein de la boucle.
Avec 56,7 fois plus de surface de silicium que la plus grande unité de traitement graphique, le WSE fournit plus de cœurs pour effectuer les calculs et plus de mémoire au plus près des cœurs pour que les cœurs puissent fonctionner efficacement. Comme cette vaste grille de cœurs et de mémoire sont intégrés sur une seule puce, toutes les communications sont maintenues sur la puce, offrant ainsi une bande passante exceptionnelle qui permet aux groupes de cœurs de collaborer avec une efficacité maximale. La bande passante mémoire n’est plus un goulot d’étranglement.
La Cerebras WSE héberge 400 000 cœurs de calcul optimisés pour l’IA, sans cache, sans surcharge, et 18 gigaoctets de mémoire SRAM locale, distribuée et ultra-rapide, constituant le seul et unique niveau de la hiérarchie de la mémoire. La bande passante mémoire est de 9 pétaoctets par seconde. Les cœurs sont reliés entre eux par un réseau de communication maillé, à la pointe de la technologie, entièrement « cablé », qui fournit une bande passante globale de 100 pétabits par seconde. Plus de cœurs, plus de mémoire locale et une structure à large bande passante et à faible temps de latence créent l’architecture optimale pour accélérer le travail de l’IA, explique la société.
La WSE est fabriquée par TSMC sur sa technologie de fabrication avancée à 16 nm.
A lire également:
Nvidia lance un module IA à $99 offrant 472 GFLOPS
Nvidia rachète Mellanox pour $6.9 milliards
Super-ordinateur européen basé sur des modules ATOS
Première IP de vérification pour PCI Express 5.0
Related articles:
Tesla, Nvidia spar over ‘best’ autonomous AI chip
Intel invests in ‘groundbreaking’ AI chip architecture startup
AI chip market set to rival microcontrollers by 2021
Steep growth of AI chip market will produce new winners