Les mots excédentaires à l’ère post-LLM : une nouvelle analyse

L’émergence des modèles de langage étendu (LLM) a profondément transformé la manière dont les chercheurs et les scientifiques rédigent leurs articles. Alors que ces outils ont apporté une aide précieuse pour la rédaction et l’édition, ils ont également introduit des changements notables dans la fréquence et la nature des mots utilisés dans les publications scientifiques. Une étude récente a exploré ce phénomène en analysant les résumés de millions d’articles publiés sur PubMed entre 2010 et 2024. Quelles sont les implications de cette transformation linguistique?

Une plongée dans les données

Pour mesurer les changements de vocabulaire, les chercheurs ont examiné 14 millions de résumés d’articles publiés sur PubMed de 2010 à 2024. L’objectif était de suivre la fréquence relative de chaque mot année après année. Cette analyse a consisté à comparer la fréquence attendue de certains mots (basée sur les tendances avant 2023) à leur fréquence réelle dans les résumés de 2023 et 2024, période marquée par l’utilisation croissante des LLMs.

Les résultats ont révélé une augmentation spectaculaire de l’utilisation de plusieurs mots après l’introduction des LLMs. Par exemple, le mot « delves » est apparu 25 fois plus fréquemment dans les articles de 2024 que prévu. Des termes comme « showcasing » et « underscores » ont vu leur fréquence multipliée par neuf. D’autres mots tels que « potential, » « findings, » et « crucial » ont également connu des hausses significatives.

Ces changements dans l’utilisation des mots pourraient se produire indépendamment des LLMs en raison de l’évolution naturelle de la langue. Cependant, les chercheurs ont noté qu’avant l’avènement des LLMs, ces augmentations soudaines étaient généralement liées à des événements mondiaux majeurs de santé, tels que l’épidémie d’Ebola en 2015, le virus Zika en 2017, et des termes comme « coronavirus, » « lockdown, » et « pandemic » entre 2020 et 2022.

Dans la période post-LLM, des centaines de mots ont vu des augmentations soudaines dans l’usage scientifique sans lien avec des événements mondiaux. Ces mots excédentaires sont principalement des « mots de style » tels que des verbes, des adjectifs et des adverbes (par exemple, « across, » « additionally, » « comprehensive, » « crucial, » « enhancing, » « exhibited, » « insights, » « notably, » « particularly, » « within »).

Un jeu de nuances complexe

L’identification de centaines de « mots marqueurs » devenus plus fréquents à l’ère post-LLM a permis aux chercheurs de mettre en lumière les signes d’utilisation des LLMs. Par exemple, une phrase d’un résumé notait, « A comprehensive grasp of the intricate interplay between […] and […] is pivotal for effective therapeutic strategies, » comportant des mots marqueurs tels que « comprehensive, » « intricate interplay, » et « pivotal. »

L’analyse statistique des apparitions de mots marqueurs dans des articles individuels a suggéré qu’au moins 10 % des articles post-2022 dans le corpus PubMed impliquaient une assistance par LLM. Ce chiffre pourrait être encore plus élevé, car certains résumés assistés par LLM pourraient ne pas inclure de mots marqueurs identifiés.

La prévalence des mots marqueurs LLM variait selon les régions. Les articles provenant de pays comme la Chine, la Corée du Sud et Taïwan montraient des mots marqueurs LLM dans 15 % des cas, ce qui pourrait indiquer que les LLMs aident les locuteurs non natifs anglais à réviser leurs écrits. À l’inverse, les locuteurs natifs anglais pourraient être plus aptes à remarquer et à retirer les mots de style non naturels des textes générés par les LLMs, masquant ainsi leur utilisation.

L’importance de la détection de l’usage des LLMs

Détecter l’utilisation des LLMs est crucial, car ces modèles peuvent fabriquer des références, fournir des résumés inexacts et émettre des affirmations fausses mais convaincantes. À mesure que la connaissance des mots marqueurs LLM augmente, les éditeurs humains pourraient devenir plus aptes à éliminer ces mots des textes générés. Les futurs modèles de langage étendu pourraient eux-mêmes effectuer des analyses de fréquence pour mieux masquer leurs productions en les rendant plus humaines, nécessitant peut-être des méthodes avancées pour détecter les textes générés par l’IA.

L’ère post-LLM marque une transformation significative du vocabulaire scientifique. L’utilisation accrue de certains mots et la détection de l’influence des LLMs dans les publications soulèvent des questions sur la manière dont ces outils façonnent notre langue et notre communication. Alors que la technologie continue d’évoluer, il sera essentiel de surveiller ces changements linguistiques et de développer des mécanismes pour garantir l’intégrité et l’authenticité des écrits scientifiques.

En somme, les mots excédentaires à l’ère post-LLM ne sont pas simplement des artefacts linguistiques; ils sont le reflet d’une révolution en cours dans la manière dont nous produisons et consommons le savoir. Il reste à voir comment cette dynamique évoluera et quelles nouvelles stratégies émergeront pour naviguer dans ce paysage linguistique en mutation.

Retour en haut