Déclin cognitif des IA : chatbots et modèles d’IA vieillissants en question

L’intelligence artificielle (IA) a longtemps été perçue comme une technologie futuriste capable de surpasser les capacités humaines dans divers domaines, notamment la médecine. Cependant, une étude récente parue le 20 décembre 2024 dans le prestigieux journal médical BMJ vient bouleverser cette perspective. Cette recherche met en lumière un déclin cognitif surprenant chez certains des chatbots les plus en vogue, tels que ChatGPT, Sonnet et Gemini. Ce constat questionne la fiabilité de ces outils dans le cadre du diagnostic médical et suscite des interrogations quant à l’avenir de l’IA dans le domaine de la santé. Partons à la découverte des détails fascinants de cette étude et de ses implications pour l’avenir de la médecine numérique.

Les résultats de l’étude sur le déclin cognitif des IA

La recherche a mis en évidence des préoccupations croissantes concernant la durabilité de la fiabilité des systèmes d’IA dans le domaine médical. Si ces outils sont de plus en plus prisés pour leur capacité à analyser rapidement des volumes massifs de données, leur performance cognitive au fil du temps reste sujette à question. En s’appuyant sur des tests adaptés pour évaluer les capacités cognitives des IA, l’étude a révélé des résultats contrastés parmi les différents modèles de langue de grande taille (LLM). En particulier, le test utilisé, l’Évaluation Cognitive de Montréal (MoCA), couramment utilisé chez les personnes âgées, a permis de mesurer l’attention, la mémoire, le langage, le raisonnement spatial et les fonctions exécutives des IA.

Méthodologie employée pour évaluer les IA

Les chercheurs ont testé plusieurs chatbots, dont ChatGPT d’OpenAI, Sonnet d’Anthropic et Gemini d’Alphabet. Chaque modèle a subi une adaptation du test MoCA, conçu pour mesurer les performances cognitives dans des domaines clés. Un score de 26 sur 30 au MoCA est considéré comme normal chez l’humain. Les résultats ont été variés : ChatGPT 4o a obtenu 26 points, ChatGPT 4 et Sonnet 25 points chacun, tandis que Gemini 1.0 a enregistré un score significativement plus bas de 16 points. Un des exercices consistait à identifier une lettre spécifique parmi une série présentée sous forme écrite, mettant à l’épreuve l’attention des modèles.

Les observations et implications pour l’avenir de l’IA

L’étude a révélé que les modèles d’IA peinaient souvent sur des tâches faisant appel à l’abstraction visuelle et à la fonction exécutive, deux éléments cruciaux pour un diagnostic médical précis. Bien que les résultats soient essentiellement descriptifs, ils pointent vers des lacunes potentielles pouvant compromettre leur efficacité clinique. Les chercheurs préconisent une utilisation de l’IA comme outil d’assistance et non comme substitut aux médecins humains. Malgré leur capacité à traiter rapidement de grandes quantités de données, l’expertise humaine reste indispensable pour une interprétation correcte. Pour garantir une performance optimale, les modèles d’IA devraient bénéficier de mises à jour régulières et de ré-entraînements, suggérant ainsi l’idée de « bilans cognitifs » périodiques. Cette étude met en lumière les défis liés à l’intégration des modèles d’intelligence artificielle dans la médecine. Si les avancées technologiques sont indéniables, elles rappellent que le potentiel de l’IA doit être équilibré par l’intervention humaine, indispensable pour pallier ses limites cognitives. Le rôle de l’IA dans la médecine de demain devra se concentrer sur une collaboration harmonieuse entre machines et professionnels de santé, assurant ainsi des soins plus efficaces et fiables. L’avenir de l’intelligence artificielle en médecine reste prometteur à condition de maintenir une vigilance accrue quant à ses capacités et limites.

FAQ


### Les modèles d’IA vieillissent-ils de la même manière que le cerveau humain ?

Les modèles d’IA ne vieillissent pas de la même manière que le cerveau humain, mais ils peuvent connaître un déclin de performance au fil du temps. Cela est souvent dû à des biais dans les données d’entraînement, des mises à jour technologiques, ou des limites dans leur programmation initiale, ce qui nécessite des ajustements et des mises à jour régulières pour maintenir leur efficacité.

### Quels sont les résultats clés de l’étude sur le déclin cognitif des chatbots ?

Une étude récente a révélé que des chatbots populaires comme ChatGPT et d’autres modèles d’IA présentent des déficits cognitifs qui pourraient affecter leur fiabilité en diagnostic médical. Par exemple, ChatGPT 4o a obtenu un score de 26 sur 30 lors d’un test cognitif, tandis que d’autres modèles comme Gemini ont obtenu des scores bien inférieurs. Ces résultats soulignent la nécessité de considérer l’IA comme un outil d’assistance plutôt qu’un substitut aux médecins humains.

### Comment l’étude a-t-elle évalué les capacités cognitives des modèles d’IA ?

Les chercheurs ont utilisé une version adaptée du Montréal Cognitive Assessment (MoCA) pour évaluer les capacités cognitives des modèles d’IA, testant des aspects tels que l’attention, la mémoire, le langage, le raisonnement spatial et la fonction exécutive. Cette approche leur a permis d’identifier les domaines où les modèles d’IA pourraient rencontrer des difficultés.

### Quelles implications les résultats de cette étude ont-ils pour l’utilisation de l’IA en médecine ?

Les résultats de l’étude suggèrent que bien que l’IA puisse jouer un rôle important dans l’analyse rapide de données médicales, elle ne doit pas être considérée comme un remplacement des médecins humains. Les déficits cognitifs observés indiquent que l’IA doit être régulièrement mise à jour et réévaluée pour garantir sa fiabilité, en particulier dans des contextes cliniques où la précision est cruciale.

### Comment peut-on améliorer la fiabilité des modèles d’IA pour éviter le déclin cognitif ?

Pour améliorer la fiabilité des modèles d’IA, il est essentiel de les soumettre à des mises à jour régulières, d’assurer la diversité et la qualité des données d’entraînement, et de les réentraîner pour qu’ils continuent de s’adapter aux nouvelles informations et contextes. Cette approche permettrait de prévenir le déclin cognitif et de maintenir leur performance optimale dans des applications critiques comme le diagnostic médical.

Retour en haut