
Nvidia détaille l’alimentation de l’IA et ajoute le GaN d’Innoscience
Nvidia a détaillé la conception de l’alimentation qu’elle utilise pour le système d’IA Grace Blackwell GB300-NVL72, ajoutant le fabricant chinois de puces d’alimentation Innoscience à sa liste de fournisseurs.
L’ajout d’Innoscience est controversé en raison du litige qui l’oppose à un autre fournisseur, Infineon Technologies : Infineon et Nvidia s’associent pour la fourniture d’énergie pour l’IA dans les centres de données
- Le consortium Nvidia préconise une distribution d’énergie de 800 V pour l’IA
- Une puissance de 1 kW pour les GPU de la prochaine génération
Le bloc d’alimentation (PSU) du GB300-NVL72 ajoute un stockage d’énergie pour atténuer les pics de consommation des charges de travail de l’IA et réduire la demande de pointe du réseau jusqu’à 30 %. Il s’agit là d’un élément essentiel pour éviter de peser sur le réseau électrique, et cette conception sera également utilisée pour les systèmes GB200 NVL72.
Charges de travail synchronisées
Dans le cadre de la formation à l’IA, des milliers de GPU fonctionnent en synchronisation et effectuent le même calcul sur des données différentes. Cette synchronisation entraîne des fluctuations de puissance au niveau du réseau électrique. Contrairement aux charges de travail traditionnelles des centres de données, où les tâches non corrélées lissent la charge, les charges de travail de l’IA provoquent des transitions abruptes entre les états d’inactivité et de forte puissance. Les GPU fonctionnent de manière synchrone, ce qui fait que la puissance totale absorbée par une grappe de GPU reflète et amplifie le schéma de puissance d’un seul nœud.
Pour y remédier, l’alimentation GB300 utilise plusieurs mécanismes à travers différentes phases opérationnelles, combinant le limiteur de puissance, le stockage d’énergie et les mécanismes de dissipation du GPU.
Le limiteur de puissance limite la consommation d’énergie du GPU au début d’une charge de travail. Les niveaux de puissance maximale sont envoyés aux GPU par le contrôleur de puissance et sont progressivement augmentés, en accord avec les taux de montée en puissance que le réseau peut tolérer. Une stratégie plus complexe est utilisée pour la réduction progressive ; si la charge de travail se termine brusquement, le système de dissipation du GPU continue à dissiper la puissance en faisant fonctionner le GPU dans un mode spécial de dissipation de puissance. Cela assure une transition en douceur plutôt qu’une chute brutale. Figure 3. Solution de lissage de puissance.
Pour les fluctuations de puissance rapides et à court terme pendant le fonctionnement en régime permanent, des condensateurs électrolytiques ont été intégrés dans les étagères d’alimentation GB300 NVL72. Le stockage d’énergie se charge pendant les périodes de faible demande de puissance du GPU et se décharge pendant les périodes de forte demande de puissance du GPU. Cependant, les condensateurs électrolytiques sont notoirement peu fiables et peuvent tomber en panne dans des environnements à haute température.
Pour le ralentissement, un algorithme logiciel qui détecte le moment où la puissance du GPU est ramenée à un niveau d’inactivité lorsque la puissance moyenne en cours d’utilisation diminue. Le pilote logiciel qui met en œuvre l’algorithme de lissage de la puissance engage le brûleur de puissance matériel. Le brûleur continue à utiliser une puissance constante en attendant que la charge de travail reprenne ; si la charge de travail ne reprend pas, le brûleur réduit progressivement la consommation d’énergie. Si la charge de travail du GPU reprend, le brûleur se désengage instantanément. Lorsqu’une charge de travail se termine, le brûleur réduit la consommation d’énergie à un rythme compatible avec les capacités du réseau, puis se désengage.
Tableau 1. Principaux paramètres de configuration ayant une incidence sur la demande de puissance
Avantages et résultats mesurés
Les résultats empiriques obtenus avec les blocs d’alimentation GB200 de la génération précédente et GB300 avec stockage d’énergie démontrent des améliorations significatives lorsqu’ils sont instrumentés dans une étagère d’alimentation d’un rack GB200.
Avec l’alimentation précédente, la puissance CA tirée du réseau ressemble aux fluctuations de la consommation électrique du rack. La nouvelle conception élimine les variations de la puissance d’entrée et la demande de puissance de pointe du réseau a été réduite de 30 % lors de l’entraînement du Megatron LLM, et les fluctuations rapides sont considérablement atténuées.

Le bloc d’alimentation Liteon pour le GB300 Courtesy : Nvidia
À l’intérieur de l’alimentation GB300, environ la moitié du volume est occupée par les condensateurs de stockage d’énergie. Nvidia a travaillé avec le fournisseur d’alimentation LITEON Technology pour optimiser l’électronique de puissance et remplir l’espace restant avec 65 joules/GPU de stockage d’énergie. Un nouveau contrôleur de gestion de la charge a permis un lissage rapide de la puissance transitoire au niveau du rack.
Implications de la conception du système
L’intégration du stockage de l’énergie permet non seulement d’atténuer les transitoires, mais aussi de réduire les exigences de demande de pointe pour le reste du centre de données. Il n’est donc pas nécessaire d’approvisionner les installations pour une consommation électrique instantanée maximale.
La conception garantit que les fluctuations à l’intérieur du rack sont tolérées ; les nœuds de calcul et les bus CC internes sont conçus pour s’adapter à des changements rapides de l’état de l’alimentation. Le mécanisme de stockage de l’énergie n’est utilisé que pour optimiser le profil de charge vu par le réseau et ne fournit pas d’énergie au service public.
Les systèmes NVL72 GB200 et GB300 utilisent plusieurs étagères d’alimentation dans chaque rack. Par conséquent, les stratégies d’intégration du stockage de l’énergie et du lissage de la charge doivent tenir compte de l’agrégation au niveau du rack et de la salle de données. Les réductions de puissance aux heures de pointe permettent d’augmenter la densité des racks ou de réduire les besoins en approvisionnement pour l’ensemble du centre de données.
www.nvidia.com ; www.infineon.com ; www.innoscience.com
