Inférence IA 100 x moins énergivore, 20 x moins cher
Sagence AI™ est sorti de sa discrétion pour dévoiler une architecture de calcul analogique en mémoire avancée révolutionnaire qui répond directement au dilemme intenable puissance/performance/prix et durabilité environnementale auquel est confrontée l’inférence IA traditionnelle.
Basée sur des innovations architecturales inédites utilisant la technologie analogique, Sagence AI permet d’améliorer de plusieurs ordres de grandeur l’efficacité énergétique et de réduire les coûts de l’inférence IA, tout en maintenant des performances équivalentes à celles des systèmes à base de GPU/CPU de haute performance.
Comparée au GPU de volume leader traitant le grand modèle de langage Llama2-70B avec une performance normalisée à 666K tokens/s, la technologie Sagence fonctionne avec une puissance 10 fois inférieure, un prix 20 fois inférieur, et un espace de rack 20 fois plus petit. En utilisant une architecture modulaire de chiplets pour une intégration maximale, la technologie permet une machine d’inférence hautement efficace qui s’étend de l’IA générative des centres de données aux applications de vision Edge dans de multiples secteurs d’activité. Cette technologie allie haute performance et faible consommation à un coût abordable, ce qui permet de résoudre le problème croissant du retour sur investissement pour les applications d’IA générative à grande échelle, car le calcul de l’IA dans le centre de données passe de l’entraînement de modèles au déploiement de modèles pour les tâches d’inférence.
« Une avancée fondamentale dans le matériel d’inférence de l’IA est vitale pour l’avenir de l’IA. L’utilisation de grands modèles de langage (LLM) et de l’IA générative entraîne une demande de changements rapides et massifs au cœur de l’informatique, ce qui nécessite une combinaison sans précédent de performances maximales avec une consommation d’énergie minimale et une économie qui adapte les coûts à la valeur créée », a déclaré Vishal Sarin, PDG et fondateur de Sagence AI. « Aujourd’hui, les composants informatiques traditionnels capables de réaliser des inférences IA extrêmement performantes coûtent trop cher pour être économiquement viables et consomment trop d’énergie pour être écologiquement durables. Notre mission consiste à dépasser ces limites en termes de performances et d’économie, tout en respectant l’environnement. »
» Les exigences de la nouvelle génération de modèles d’IA ont donné lieu à des accélérateurs dotés d’une mémoire massive on-package et, par conséquent, d’une consommation d’énergie extrêmement élevée. Entre 2018 et aujourd’hui, les GPU les plus puissants sont passés de 300 W à 1200 W, tandis que les CPU de serveurs de premier plan ont rattrapé les niveaux de consommation d’énergie du GPU A100 de NVIDIA à partir de 2020 « , a déclaré Alexander Harrowell, analyste principal, Advanced Computing, Omdia. « Cela a des répercussions sur le refroidissement des centres de données, la distribution électrique, l’économie des applications d’IA et bien d’autres choses encore. Une façon de sortir de l’impasse est de redécouvrir l’informatique analogique, qui offre une consommation d’énergie beaucoup plus faible, une très faible latence, et permet de travailler avec des nœuds de process de fabrication matures. »
Sagence AI est à la pointe de l’innovation en matière de calcul en mémoire. Elle est la première à effectuer un calcul profond à l’intérieur de cellules de mémoire multi-niveaux, une combinaison sans précédent qui ouvre la voie à des améliorations de plusieurs ordres de grandeur nécessaires pour fournir une inférence à l’échelle. Alors que la technologie numérique atteint ses limites en termes de puissance et de coût, Sagence a innové une nouvelle voie analogique en tirant parti des avantages inhérents à l’analogique en termes d’efficacité énergétique et de coûts, afin de rendre possible l’adoption massive de l’IA, qui est à la fois économiquement viable et écologiquement durable.
L’informatique en mémoire s’aligne étroitement sur les éléments essentiels de l’efficacité dans les applications d’inférence de l’IA. La fusion du stockage et du calcul à l’intérieur des cellules de mémoire élimine le stockage de mémoire à usage unique et les circuits complexes de multiplication-accumulation programmés qui exécutent la multiplication vectorielle-matricielle faisant partie intégrante du calcul de l’intelligence artificielle. Les puces et les systèmes qui en résultent sont beaucoup plus simples, moins coûteux, moins gourmands en énergie et dotés d’une capacité de calcul nettement supérieure.
Sagence considère le défi de l’inférence en IA non pas comme un problème informatique général, mais comme un problème de traitement de données à forte intensité mathématique. La gestion de l’énorme quantité de traitement arithmétique nécessaire pour « faire tourner » un réseau neuronal sur des machines numériques CPU/GPU exige une réutilisation et une programmation extrêmement compliquées du matériel. La solution matérielle naturelle n’est pas une machine informatique polyvalente, mais plutôt une architecture qui reflète plus fidèlement le fonctionnement des réseaux neuronaux biologiques.
L’architecture de calcul en mémoire profonde à programmation statique employée par les puces Sagence est beaucoup plus simple et élimine les variabilités et les complexités de la programmation dynamique requise par les CPU et les GPU. L’ordonnancement dynamique impose des exigences extrêmes au SDK pour générer le code d’exécution et contribue à l’inefficacité en termes de coûts et d’énergie. Le flux de conception Sagence AI importe un réseau neuronal entraîné à l’aide d’interfaces standard telles que PyTorch, ONNX et TensorFlow, et le convertit automatiquement au format Sagence. Le système Sagence reçoit le réseau neuronal bien après que le logiciel GPU l’a créé, ce qui rend inutile le logiciel GPU.