Un nouveau prototype de puce (NorthPole) issu du laboratoire de recherche d’IBM en Californie, en gestation depuis longtemps, pourrait bouleverser la manière dont l’IA est utilisée efficacement et le lieu où elle est utilisée.
Selon M. Modha, NorthPole est une percée dans l’architecture des puces qui apporte des améliorations massives en termes d’efficacité énergétique, d’espace et de temps. En utilisant le modèle ResNet-50 comme référence, NorthPole est considérablement plus efficace que les GPU 12 nm et les CPU 14 nm courants. (NorthPole lui-même est construit sur une technologie de traitement de nœuds de 12 nm). Dans les deux cas, NorthPole est 25 fois plus efficace sur le plan énergétique, en ce qui concerne le nombre d’images interprétées par joule d’énergie nécessaire. NorthPole a également obtenu de meilleurs résultats en matière de latence et d’espace de calcul, en termes d’images interprétées par seconde par milliard de transistors requis. Selon M. Modha, sur ResNet-50, NorthPole surpasse toutes les grandes architectures prédominantes, même celles qui utilisent des processus technologiques plus avancés, comme un GPU mis en œuvre à l’aide d’un processus de 4 nm.
Comment parvient-elle à calculer avec autant d’efficacité que les puces existantes ? L’une des principales différences avec NorthPole est que toute la mémoire du système se trouve sur la puce elle-même, au lieu d’être connectée séparément. Sans ce goulot d’étranglement de von Neumann, la puce peut effectuer des inférences d’IA beaucoup plus rapidement que d’autres puces déjà sur le marché. NorthPole a été fabriqué avec un processus de 12 nm et contient 22 milliards de transistors sur 800 millimètres carrés. Elle possède 256 cœurs et peut effectuer 2 048 opérations par cœur et par cycle avec une précision de 8 bits et la possibilité de doubler et de quadrupler le nombre d’opérations avec une précision de 4 bits et de 2 bits, respectivement.
Mais le plus grand avantage de NorthPole est aussi une contrainte : il ne peut puiser facilement que dans la mémoire qu’il possède à bord. Toutes les accélérations possibles sur la puce seraient réduites à néant si elle devait accéder à des informations provenant d’un autre endroit. Grâce à une approche appelée « scale-out », NorthPole peut en fait prendre en charge des réseaux neuronaux plus importants en les décomposant en sous-réseaux plus petits qui s’intègrent dans la mémoire modèle de NorthPole, et en connectant ces sous-réseaux ensemble sur plusieurs puces NorthPole. Ainsi, bien que la mémoire d’un NorthPole (ou collectivement d’un ensemble de NorthPoles) soit suffisante pour de nombreux modèles utiles à des applications spécifiques, cette puce n’est pas destinée à être un outil polyvalent.
Suivre ECInews sur Google news