MENU

L’ETH Zurich développe un algorithme pour une IA plus fiable

L’ETH Zurich développe un algorithme pour une IA plus fiable

Technologies |
Par Jean-Pierre Joosting, A Delapalisse



Des chercheurs de l’Institut d’apprentissage automatique du département d’informatique de l’ETH Zurich ont mis au point une méthode pour réduire l’incertitude des moteurs de réponse de l’IA.

Le principal problème des moteurs de réponse puissants de l’IA est qu’ils fournissent des réponses parfaites et des absurdités évidentes avec la même facilité. L’un des principaux défis réside dans la manière dont les grands modèles de langage (LLM) qui sous-tendent l’IA gèrent l’incertitude. Jusqu’à présent, il a été difficile de déterminer si les modèles linguistiques conçus pour le traitement et la génération de textes fondent leurs réponses sur une base de données solide ou sur un terrain incertain.

« Notre algorithme peut enrichir le modèle linguistique général de l’IA avec des données supplémentaires concernant le domaine pertinent d’une question. En combinaison avec la question spécifique, nous pouvons alors extraire des profondeurs du modèle et des données d’enrichissement précisément les connexions qui sont les plus susceptibles de générer une réponse correcte », explique Jonas Hübotter du groupe « Apprentissage et systèmes adaptatifs », qui a développé la nouvelle méthode dans le cadre de ses études de doctorat.

« La méthode est particulièrement adaptée aux entreprises, aux scientifiques et aux autres utilisateurs qui souhaitent utiliser l’IA générale dans un domaine spécialisé qui n’est que partiellement ou pas du tout couvert par les données d’entraînement de l’IA », ajoute Andreas Krause, chef du groupe de recherche et directeur du Centre d’IA de l’ETH.

Les utilisateurs peuvent introduire leurs données stockées localement dans un LLM tel que Llama. L’algorithme SIFT (Selecting Informative data for Fine-Tuning), développé par les informaticiens de l’ETH, peut alors utiliser les données supplémentaires fournies pour sélectionner les informations spécifiques les plus étroitement liées à la question.

L’algorithme utilise la structure selon laquelle les informations linguistiques sont organisées dans le LLM pour trouver des informations connexes. Les modèles divisent les informations linguistiques de leurs données d’apprentissage en parties de mots. Les relations sémantiques et syntaxiques entre les parties de mots sont ensuite organisées sous forme de flèches de connexion – connues dans le domaine sous le nom de vecteurs – dans un espace multidimensionnel. Les dimensions de l’espace, qui peuvent se compter en milliers, proviennent des paramètres de relation que le LLM identifie indépendamment pendant la formation à l’aide des données générales.

Les flèches relationnelles pointant dans la même direction dans cet espace vectoriel indiquent une forte corrélation. Plus l’angle entre deux vecteurs est grand, moins les deux unités d’information sont liées l’une à l’autre. L’algorithme SIFT développé par les chercheurs de l’ETH utilise désormais la direction du vecteur de relation de la requête d’entrée (invite) pour identifier les relations d’information qui sont étroitement liées à la question mais qui se complètent simultanément en termes de contenu. « L’angle entre les vecteurs correspond à la pertinence du contenu, et nous pouvons utiliser les angles pour sélectionner des données spécifiques qui réduisent l’incertitude », explique Hübotter.

En revanche, la méthode la plus couramment utilisée à ce jour pour sélectionner les informations adaptées à la réponse, la méthode du plus proche voisin, tend à accumuler les informations redondantes qui sont largement disponibles.

Par exemple, pour répondre à la question en deux parties « Quel est l’âge de Roger Federer et combien d’enfants a-t-il ? », la méthode du plus proche voisin considère que des informations similaires telles que « Roger Federer a 43 ans » et « Roger Federer est né le 8 août 1981 » sont tout aussi pertinentes. Les informations sur ses enfants, qui sont pertinentes pour la deuxième partie de la question, sont parfois manquantes. Elles sont recouvertes par les informations relatives à la date de naissance, qui apparaissent beaucoup plus fréquemment dans les données d’apprentissage de l’IA. L’algorithme SIFT prend toutefois en compte la complémentarité des informations incluses, c’est-à-dire que les vecteurs d’information pointent dans des directions différentes. Cela permet d’identifier les informations pertinentes pour les deux aspects de la question.

Toutefois, une sélection ciblée des informations permet non seulement d’améliorer la qualité des réponses, mais aussi de réduire la puissance de calcul toujours croissante requise par les applications d’IA. En mesurant indirectement l’incertitude, le modèle peut déterminer combien de données supplémentaires sont nécessaires pour fournir une réponse suffisamment fiable. Par conséquent, la surcharge de calcul requise par un LLM peut être systématiquement ajustée en fonction de la complexité de la question et de la disponibilité des informations pertinentes.

Étant donné que SIFT adapte en permanence la pondération des directions des flèches à ses calculs pendant la recherche de données, le modèle enrichi devient de plus en plus fiable au fur et à mesure qu’il est utilisé. C’est ce que l’on appelle l’entraînement en fonction du temps d’essai, qui permet d’obtenir les mêmes performances avec des modèles plus petits. « Lors de tests effectués avec des ensembles de données standard, nous avons utilisé l’accord SIFT pour surpasser même les meilleurs modèles d’IA actuels avec des modèles jusqu’à 40 fois plus petits », souligne M. Hübotter.

D’autres applications de l’algorithme SIFT s’ouvrent à l’évaluation des données, comme l’explique M. Krause : « Nous pouvons suivre les données d’enrichissement sélectionnées par SIFT. Elles sont étroitement liées à la question et donc particulièrement pertinentes pour ce domaine. Par exemple, cela pourrait être utilisé en médecine pour déterminer quelles analyses de laboratoire ou quelles valeurs de mesure sont significatives pour un diagnostic spécifique et lesquelles le sont moins.

https://doi.org/10.48550/arXiv.2410.08020

 

Si vous avez apprécié cet article, vous aimerez les suivants : ne les manquez pas en vous abonnant à :    ECI sur Google News

Partager:

Articles liés
10s