La puce d’IA analogique d’IBM utilise une mémoire PCM
IBM Research a mis au point une puce analogique multicœur de calcul en mémoire pour l’apprentissage automatique, qui utilise une mémoire à changement de phase (PCM) pour réduire la consommation d’énergie.
La puce d’IA utilisant le calcul analogique en mémoire a été conçue et fabriquée en CMOS 14 nm, la mémoire à changement de phase PCM étant ajoutée dans le processus final, ce qui réduit le coût de production. La puce entièrement intégrée comporte 64 cœurs d’intelligence artificielle interconnectés par un réseau de communication sur la puce. Il met également en œuvre les fonctions d’activation numériques et le traitement supplémentaire impliqué dans les couches convolutives individuelles et les unités de mémoire à long terme.
Pour les multiplications matrice-vecteur à 8 bits d’entrée/sortie, en mode de lecture opérationnelle à quatre phases (haute précision) ou à une phase (basse précision), la puce peut atteindre un débit maximal de 16,1 ou 63,1 téra-opérations par seconde avec une efficacité énergétique de 2,48 ou 9,76 téra-opérations par seconde et par watt, respectivement.
Les poids synaptiques sont stockés localement dans les valeurs de conductance des composants de mémoire résistive PCM à l’échelle nanométrique. Le matériau passe d’une phase amorphe à une phase cristalline : une impulsion électrique plus faible rendra le dispositif plus cristallin, offrant moins de résistance, tandis qu’une impulsion électrique plus forte rendra le dispositif plus amorphe, offrant plus de résistance.
Le composant PCM enregistre son état comme un continuum de valeurs entre l’état amorphe et l’état cristallin. La mémoire est non volatile, les poids sont donc conservés lorsque l’alimentation électrique est coupée.
Dans un article publié dans la revue Nature, les chercheurs expliquent qu’il fallait relever deux défis majeurs. Les matrices de mémoire doivent être capables de calculer avec un niveau de précision équivalent à celui des systèmes numériques existants, et elles doivent pouvoir s’interfacer de manière transparente avec d’autres unités de calcul numériques, ainsi qu’avec un tissu de communication numérique sur la puce d’intelligence artificielle analogique.
La puce a été fabriquée dans le complexe NanoTech d’Albany d’IBM et est composée de 64 cœurs de calcul analogiques en mémoire (ou tuiles). Chacune d’entre elles contient un réseau de barres transversales de 256 par 256 cellules synaptiques. Des convertisseurs analogique-numérique basés sur le temps sont intégrés dans chaque tuile pour assurer la transition entre les mondes analogique et numérique, et chaque tuile comprend des unités de traitement numérique légères qui exécutent des fonctions d’activation neuronale non linéaires simples et des opérations de mise à l’échelle.
Chaque tuile peut effectuer les calculs associés à une couche d’un modèle de réseau neuronal profond (DNN). Les poids synaptiques sont codés sous forme de valeurs de conductance analogiques des composants PCM. Une unité de traitement numérique globale est intégrée au milieu de la puce. Elle met en œuvre des opérations plus complexes qui sont essentielles pour l’exécution de certains types de réseaux neuronaux. La puce dispose également de voies de communication numérique au niveau des interconnexions de toutes les tuiles et de l’unité de traitement numérique globale.
En combinant de manière transparente le calcul analogique en mémoire avec plusieurs unités de traitement numérique et un tissu de communication numérique, on obtient des multiplications de matrices d’entrée-sortie à 400 GOPS/mm2, soit plus de 15 fois plus que les précédentes puces de calcul multicœur en mémoire basées sur la mémoire résistive, tout en obtenant une efficacité énergétique comparable.
Autres articles sur le calcul en mémoire de la GCP
- Portage de TinyML vers le calcul analogique en mémoire
- ST fait allusion à une puce de calcul analogique en mémoire
- L’informatique hyperdimensionnelle permet d’améliorer l’adaptation de l’IA à la GCP