Les chercheurs d’AWS révèlent l’importance du bon algorithme RAG pour améliorer l’IA

En cette ère où l’intelligence artificielle (IA) occupe une place prépondérante dans divers secteurs, il devient crucial de comprendre et d’optimiser les technologies en évolution. Cette année, selon de nombreux observateurs, devrait marquer un tournant significatif pour l’IA générative, en particulier dans le domaine des entreprises. Un des moyens d’y parvenir est via la génération augmentée par la récupération (ou RAG, pour Retrieval-Augmented Generation), une méthodologie qui relie un grand modèle de langage à une base de données contenant des contenus spécifiques à un domaine, comme des fichiers d’entreprise. Cependant, cette technologie émergente n’est pas sans pièges.

Les chercheurs d’Amazon AWS proposent dans une nouvelle étude d’établir une série de référentiels pour tester spécifiquement la capacité de RAG à répondre à des questions sur des contenus spécifiques à un domaine. Une initiative qui pourrait bien révolutionner l’évaluation et l’amélioration de cette technologie.

Le nouveau référentiel d’évaluation proposé par Amazon

La nécessité d’un cadre standardisé

Le problème fondamental, comme l’expliquent les chercheurs, réside dans le fait qu’il existe de nombreux référentiels pour comparer les capacités des divers grands modèles de langage (LLM) sur de nombreuses tâches. Cependant, pour la RAG, il n’y a pas de méthode « canonique » de mesure, offrant une évaluation exhaustive et spécifique des qualités importantes telles que la véracité et la factualité.

Une approche automatisée et interprétable

Pour répondre à ce besoin, l’équipe d’Amazon propose une méthode automatisée, rentable, interprétable et robuste pour sélectionner les composants optimaux d’un système RAG. En générant automatiquement des examens à choix multiples adaptés au corpus de documents associé à chaque tâche, cette approche permet une notation standardisée, évolutive et interprétable de différents systèmes RAG.

La diversité des domaines explorés

Pour tester cette méthode, les auteurs ont créé des paires de questions-réponses à partir de quatre domaines : les documents de dépannage d’AWS sur le sujet de DevOps, les résumés d’articles scientifiques du serveur de prépublications arXiv, des questions sur StackExchange et des dépôts de la Commission des valeurs mobilières des États-Unis. Ils ont ensuite conçu des tests à choix multiples pour les LLM afin d’évaluer la précision des réponses fournies par chaque modèle.

Les différents scénarios de test

Scénario « Closed book »

Dans ce premier scénario, le LLM n’a aucun accès aux données RAG et doit se baser uniquement sur ses paramètres neuronaux pré-entraînés pour trouver la réponse. Un défi de taille pour évaluer la capacité intrinsèque du modèle.

Scénario « Oracle »

Dans ce scénario, le LLM a accès au document exact utilisé pour générer la question, une forme de vérité terrain. Cela permet de tester la capacité du modèle à récupérer et utiliser des informations précises.

Scénario « Classical retrieval »

Ici, le modèle doit rechercher dans l’ensemble du jeu de données pour trouver le contexte de la question, en utilisant différents algorithmes de récupération d’informations. Plusieurs formules RAG populaires ont été utilisées, dont une introduite en 2019 par des chercheurs de l’Université de Tel-Aviv et de l’Institut Allen pour l’intelligence artificielle, MultiQA, ainsi qu’une approche plus ancienne mais très populaire appelée BM25.

Des résultats instructifs

Les performances des algorithmes RAG

Les résultats des tests, bien que complexes et remplis de graphiques et de tableaux, révèlent les forces et les faiblesses relatives des LLM et des différentes approches RAG. Les auteurs ont même effectué une méta-analyse de leurs questions d’examen pour évaluer leur utilité en se basant sur la taxonomie de Bloom bien connue dans le domaine de l’éducation.

Trouvailles clés

L’une des principales conclusions est que de meilleurs algorithmes RAG peuvent améliorer un LLM davantage que simplement l’agrandir. En choisissant judicieusement la méthode de récupération, il est possible d’obtenir des améliorations de performance surpassant celles obtenues en augmentant simplement la taille des LLM. Cette découverte est précieuse dans un contexte où l’intensité des ressources nécessaires pour les modèles d’IA générative continue de croître. Avec cette approche, faire plus avec moins devient une avenue à explorer.

De plus, les chercheurs mettent en lumière un aspect crucial : si l’algorithme RAG est mal aligné, il peut dégrader les performances du LLM par rapport à une version sans RAG. En d’autres termes, un composant de récupération mal ajusté peut entraîner une précision inférieure à celle obtenue sans récupération.

Vers une optimisation de la RAG

L’étude des chercheurs d’AWS propose une avancée significative dans l’optimisation des systèmes RAG. En définissant un cadre standardisé et automatisé pour évaluer ces systèmes, ils ouvrent la voie à des améliorations concrètes et mesurables des modèles de langage. Les implications sont vastes, non seulement pour les entreprises, mais aussi pour la communauté scientifique et technologique dans son ensemble.

Les résultats de cette recherche montrent qu’il ne suffit pas d’augmenter la taille des modèles pour obtenir de meilleures performances. Le choix judicieux des algorithmes de récupération peut avoir un impact significatif, plus marqué que l’augmentation des ressources. Une découverte qui pourrait bien redéfinir la manière dont nous abordons le développement et l’optimisation des systèmes d’IA à l’avenir.

En somme, cette avancée ouvre de nouvelles perspectives excitantes pour le futur de l’IA générative, en permettant des solutions plus efficaces et mieux adaptées aux besoins spécifiques des différents secteurs. Un pas de géant vers une intelligence artificielle plus performante et responsable.

Retour en haut