Le MVT, un indicateur de pointe du MIT pour évaluer les performances de l’IA

Imaginez-vous parcourir les photos sur votre téléphone et tomber sur une image que vous ne reconnaissez pas tout de suite. Il vous faut quelques secondes pour comprendre que ce tas de poils est en réalité le chat de votre ami, Mocha. Pourquoi cette photo a-t-elle été plus difficile à déchiffrer ? C’est cette question qui a poussé les chercheurs du Massachusetts Institute of Technology (MIT) à se pencher sur la question de la reconnaissance visuelle et à développer le MVT, un indicateur révolutionnaire pour évaluer les performances de l’IA.

Analyse des performances de l’IA: le défi de la reconnaissance d’images

La reconnaissance d’images est un enjeu crucial dans de nombreux domaines, de la santé au transport en passant par les appareils ménagers. Pourtant, l’évaluation de la difficulté de reconnaissance d’une image par l’homme a été largement ignorée. Les chercheurs du MIT ont relevé ce défi. En effet, malgré des progrès significatifs, les modèles de reconnaissance d’objets actuels sont encore loin d’égaler les performances humaines, notamment en raison de l’absence de mesure de la difficulté des images utilisées pour l’évaluation.

Cette problématique a conduit David Mayo, doctorant en génie électrique et en informatique au MIT, à explorer le monde complexe des ensembles de données d’images. Son objectif ? Comprendre pourquoi certaines images sont plus difficiles à reconnaître que d’autres pour les humains et les machines.

Le MVT, un indicateur innovant pour mesurer la performance de l’IA

Pour combler ce manque, les chercheurs du MIT ont développé un nouvel indicateur, le « Minimum Viewing Time » (MVT). Celui-ci quantifie la difficulté de reconnaître une image en mesurant le temps nécessaire à une personne pour l’identifier correctement.

Pour mettre au point le MVT, les chercheurs ont utilisé un sous-ensemble de ImageNet, un ensemble de données populaire en apprentissage automatique, et ObjectNet, un ensemble de données conçu pour tester la robustesse de la reconnaissance d’objets. Ils ont présenté des images à des participants pendant des durées variables, allant de 17 millisecondes à 10 secondes, et leur ont demandé de choisir le bon objet parmi un ensemble de 50 options.

La performance des modèles d’IA face au MVT

Le projet a permis d’identifier des tendances intéressantes en matière de performance des modèles. Les modèles plus grands ont montré une nette amélioration sur les images les plus simples, mais ont fait moins de progrès sur les images plus difficiles. Les modèles CLIP, qui intègrent à la fois le langage et la vision, se sont démarqués en se rapprochant davantage de la reconnaissance humaine.

David Mayo souligne l’importance de cet indicateur : « Nous avons dévoilé des ensembles d’images classés par difficulté ainsi que des outils pour calculer automatiquement le MVT, permettant à cet indicateur d’être ajouté à des benchmarks existants et étendu à diverses applications. »

De ObjectNet au MVT : une évolution majeure

Il y a quelques années, l’équipe derrière ce projet avait identifié un défi majeur dans le domaine de l’apprentissage automatique : les modèles avaient du mal à traiter les images hors distribution, c’est-à-dire les images mal représentées dans les données d’entraînement. C’est ainsi qu’est né ObjectNet, un ensemble de données composé d’images collectées dans des environnements réels.

Aujourd’hui, la mise en place du MVT marque une nouvelle étape dans l’évaluation des performances de l’IA. Comme le souligne Jesse Cummings, co-auteur de l’article avec David Mayo : « Nous disposons désormais d’une autre dimension pour évaluer les modèles. Nous voulons des modèles capables de reconnaître n’importe quelle image, même si, et surtout si, elle est difficile à reconnaître pour un humain. ».

Ainsi, le MVT s’annonce comme un outil de choix pour aller plus loin dans l’analyse des performances de l’IA, en offrant une mesure précise de la difficulté de la reconnaissance d’images. Un grand pas en avant pour la recherche en IA et pour mieux comprendre comment les données influencent les performances de l’apprentissage profond.

L’utilisation du MVT dans diverses industries

L’utilisation du « Minimum Viewing Time » (MVT) va au-delà de la simple reconnaissance d’images. Il s’agit d’un indicateur de performance qui peut trouver sa place dans diverses industries. Par exemple, dans la supply chain, l’évaluation de la qualité du service peut être mesurée à travers le MVT. Les entreprises pourront désormais déterminer combien de temps un employé met pour identifier un produit sur une étagère ou pour reconnaître une commande dans un tableau de bord.

Avec la mise en place du MVT, les objectifs indicateurs peuvent être révisés pour prendre en compte la difficulté de la tâche à accomplir. En sciences sociales, par exemple, la reconnaissance d’émotions ou de visages sur des photos peut être rendue plus précise grâce à cet indicateur. Dans le secteur de la santé, le MVT pourrait aider les médecins à reconnaître plus rapidement les symptômes de certaines maladies sur des images médicales.

Le MVT est donc un indicateur objectif qui peut être utilisé pour évaluer les performances de l’IA dans un grand nombre d’applications. Il offre la possibilité de mesurer la performance en tenant compte de la difficulté de la tâche, une dimension souvent négligée dans les systèmes d’évaluation actuels.

La Loi de Finances et le rôle du MVT dans le pilotage de l’action de l’Etat

Compte tenu de son potentiel, le MVT pourrait également jouer un rôle important dans le pilotage de l’action de l’Etat. En effet, les lois de finances annuelles pourraient s’appuyer sur ce type d’indicateurs de performance pour évaluer l’efficacité des politiques publiques.

Par exemple, dans le cadre de la mise en œuvre de la loi de finances, le MVT pourrait être utilisé pour évaluer l’efficacité des agents de l’Etat à reconnaître les documents ou les informations nécessaires à la mise en œuvre des politiques. Cette utilisation du MVT permettrait de mesurer la performance de l’Etat de manière plus précise et objective.

Cependant, il est important de noter que l’utilisation de tels indicateurs doit être faite avec prudence pour éviter les effets pervers. En effet, un objectif indicateur basé uniquement sur le MVT pourrait conduire à une survalorisation de la rapidité de reconnaissance au détriment de la précision ou de la pertinence. C’est pourquoi le MVT doit être utilisé en complément d’autres indicateurs de qualité pour obtenir une évaluation complète de la performance.

Conclusion

L’innovation du MIT, le MVT, est une avancée significative dans l’évaluation des performances de l’IA. Au-delà de son utilisation initiale dans la reconnaissance d’images, cet indicateur trouve une applicabilité dans divers secteurs, offrant une mesure objective de la performance. Il permet de mieux comprendre comment les données influencent l’apprentissage profond et offre de nouvelles perspectives pour l’évaluation et le pilotage de l’action, que ce soit dans le secteur privé ou public.

Cependant, il est crucial de comprendre que le MVT n’est pas une solution universelle. Il représente une dimension supplémentaire dans l’évaluation des performances, qui doit être utilisée en combinaison avec d’autres indicateurs pour offrir une évaluation complète et équilibrée.

En dépit des défis à venir, le MVT est sans doute un pas notable vers une meilleure compréhension de la performance de l’IA. Ce nouvel outil permettra une meilleure adaptation des modèles d’apprentissage automatique aux spécificités humaines, ouvrant ainsi la voie à des avancées significatives dans le domaine de l’IA.

Retour en haut