
Que contiennent les grandes boîtes noires des LLM ?
Les chercheurs étudient maintenant les LLM et ont trouvé des preuves qu’ils partagent certaines similitudes avec le cerveau humain.
Les neuroscientifiques pensent que le cerveau humain possède un « centre sémantique » dans le lobe temporal antérieur qui intègre les informations sémantiques provenant de différentes modalités, telles que les données visuelles et les entrées tactiles. Ce centre sémantique est relié à des « rayons » spécifiques à chaque modalité qui acheminent les informations vers le centre. Les chercheurs du MIT ont découvert que les LLM utilisent un mécanisme similaire en traitant de manière abstraite des données provenant de diverses modalités de manière centrale et généralisée. Par exemple, un modèle dont la langue dominante est l’anglais s’appuierait sur l’anglais comme support central pour traiter des données en japonais ou raisonner sur l’arithmétique, le code informatique, etc. En outre, les chercheurs démontrent qu’ils peuvent intervenir dans le pôle sémantique d’un modèle en utilisant du texte dans la langue dominante du modèle pour modifier ses résultats, même lorsque le modèle traite des données dans d’autres langues.
« Les LLM sont de grandes boîtes noires. Ils ont atteint des performances très impressionnantes, mais nous n’avons que très peu de connaissances sur leurs mécanismes de fonctionnement internes. J’espère qu’il s’agit là d’une première étape vers une meilleure compréhension de leur fonctionnement, afin que nous puissions les améliorer et mieux les contrôler en cas de besoin », déclare Zhaofeng Wu, étudiant diplômé en génie électrique et en informatique (EECS) et auteur principal d’un article sur cette recherche.
« Les LLM sont de grandes boîtes noires. Elles ont atteint des performances très impressionnantes, mais nous n’avons que très peu de connaissances sur leurs mécanismes de fonctionnement internes »
Ses coauteurs sont Xinyan Velocity Yu, étudiant diplômé à l’université de Californie du Sud (USC), Dani Yogatama, professeur associé à l’USC, Jiasen Lu, chercheur chez Apple, et l’auteur principal Yoon Kim, professeur adjoint d’EECS au MIT et membre du Computer Science and Artificial Intelligence Laboratory (CSAIL).
En savoir plus sur le fonctionnement du LLM comme celui de notre cerveau.
