L’IA alignée sur les valeurs humaines : un débat sans fin

En décembre 2022, ChatGPT était souvent critiqué pour son manque de bon sens, ses difficultés en logique de base et en mathématiques. Cependant, seulement trois mois plus tard, de nombreux experts en technologie ont signé une lettre ouverte de l’Institut Future of Life, appelant à une pause de six mois sur les modèles de langage de grande envergure plus puissants que GPT-4. Dans le magazine Time, Eliezer Yudkowsky, un prophète de longue date de la « fin du monde par IA », a affirmé que « le résultat le plus probable de la construction d’une IA super-intelligente, dans des circonstances à peu près similaires aux actuelles, est que littéralement tout le monde sur Terre mourra. » Pour remédier à cela, Yudkowsky propose des restrictions sévères sur les GPU (unités de traitement graphique) et la formation des modèles de langage. Il suggère même que les « centres de données véreux » devraient être attaqués par des frappes aériennes, une politique qui rappelle la djihad butlérienne contre les « machines qui pensent comme des humains » dans le roman Dune de Frank Herbert.

Des enjeux autour de la sécurité et de l’alignement de l’IA

Les arguments comme ceux de Yudkowsky tombent généralement sous les catégories de « sécurité de l’IA » et « alignement de l’IA ». Malgré ces préoccupations, certains experts ne sont pas convaincus. Si une IA comme ChatGPT peut réussir un examen du barreau, pourquoi serait-il impossible de faire en sorte qu’une IA générale obéisse aux lois ? Après tout, les ordinateurs suivent des règles, contrairement aux organismes biologiques motivés par des hormones et des sentiments.

Développer une « compétence morale » chez les artefacts technologiques reste néanmoins un objectif de recherche digne d’intérêt. Certains projets tentent d’implémenter les lois d’Asimov (ou quelque chose de similaire) dans les machines pour qu’elles effectuent des actions que les humains qualifieraient de « justes » plutôt que de « fausses ». Ce projet est souvent appelé « éthique des machines » ou conception d’une « boussole morale » pour les machines. Un élément central de ce projet est la création d’un modèle de données et d’une procédure de décision qui, dans une situation donnée, considèrera une gamme de plans et d’actions et en classera certains comme « justes » et d’autres comme « fausses ».

Une tâche plus facile à dire qu’à faire

Cette entreprise est plus complexe qu’il n’y paraît. Le principal problème pour obtenir une « boussole morale » d’un modèle de langage produit par apprentissage machine comme GPT est qu’il trouvera les schémas de moralité dans ses données d’entraînement. Un modèle de langage entraîné sur l’anglais contemporain sera plus libéral sur les questions LGBT qu’un modèle entraîné sur l’arabe classique. Un modèle de langage entraîné sur des textes historiques aura des valeurs historiques, dont beaucoup seront obsolètes. Un modèle de langage entraîné sur le grec attique tel que parlé par Platon et Aristote est susceptible de considérer les hommes comme supérieurs aux femmes, de classer les non-Grecs comme des barbares et de considérer l’esclavage comme naturel.

Actuellement, l’idée que les modèles de langage reflètent les « biais » de leurs données d’entraînement semble horrifier les vendeurs d’IA. Souvent, « biais » signifie simplement un ordre de préférence que l’on désapprouve. Les ordres de préférence ne sont pas entièrement arbitraires, mais ils varient énormément. Hélas, cette variation morale entraîne souvent des conflits sanglants, comme en Gaza ou en Ukraine.

Lorsque le texte moral est analysé et qu’on lui demande de rendre des jugements sur ce qui est juste ou faux, les connaissances moralement chargées peuvent être réduites à une série d’ordres de préférence : la vie est meilleure que la mort, la santé vaut mieux que la maladie, la sécurité des biens est moins importante que la sécurité de la vie. Ces ordres de préférence mènent à des décisions morales et légales, devenant des normes sociales qui, une fois écrites, peuvent être utilisées pour produire un modèle de langage. Mais comme le montre notre exemple grec ancien, les données historiques peuvent être lourdement biaisées. Hélas, les données modernes ne sont pas moins biaisées.

Des préférences divergentes au sein même de sociétés homogènes

Même au sein d’une société homogène, comme la caste anglophone des philosophes analytiques, les ordres de préférence sont vigoureusement disputés. Face au choix entre agir pour tuer une personne afin d’en sauver cinq et ne rien faire, certains préfèrent l’inaction. Dans un scénario classique du problème du tramway, l’inaction est la vue minoritaire. Dans un contexte hospitalier, où il s’agit de tuer un patient en bonne santé pour prélever des organes et sauver cinq autres, la majorité préfère ne rien faire et laisser mourir les cinq patients malades. Qui a raison ? Et pourquoi ? On dit souvent que le « contexte compte », mais exactement qu’est-ce qui, dans le « contexte », compte ?

Pour construire un projet d’éthique des machines impliquant des robots et des IA, il faut répondre à ces questions et montrer son raisonnement sous une forme qui puisse fonctionner sur un ordinateur. Autrement dit, il faut exprimer l’éthique et la loi en logique et en mathématiques. C’est controversé. Certains pensent que cela ne peut pas être fait (il faut la sensibilité pour être un « véritable », « authentique » ou « plein » agent moral). D’autres pensent que cela ne devrait pas être fait (c’est moralement faux car seuls les êtres humains sensibles sont « qualifiés » ou « habilités » à être agents moraux). Mon propre avis n’est pas que toutes les décisions morales peuvent ou doivent être déléguées aux machines, mais simplement que certaines décisions morales peuvent être légitimement déléguées aux machines.

La délégation de décisions à des machines : une question de contexte

Dans le contexte des armes autonomes, beaucoup de gens s’opposent à la délégation de décisions de tuer des humains à des machines. Cependant, dans le contexte de la robotique domestique, est-ce que quelqu’un va vraiment s’opposer à la délégation de la préparation du thé et des toasts aux machines ? Allons-nous interdire aux Roombas de décider quand la poussière sur le sol est partie ? Ou s’opposer à ce que les robots domestiques séparent le linge blanc et coloré avant un lavage en machine ?

Nous sommes déjà heureux de déléguer de nombreuses décisions à faible risque et peu controversées aux machines. Les contraventions pour excès de vitesse sont déjà émises par des machines. Il n’y a pas de réponse universelle ici, juste beaucoup de détails. Les machines qui suivent aveuglément des règles définies par les humains ne « prennent » pas vraiment de décisions ; elles suivent simplement des règles qu’elles ne peuvent pas désobéir, contrairement aux humains.

L’alignement de l’IA avec les valeurs humaines : une tâche herculéenne

Les faits bruts de la diversité morale chez les humains posent des problèmes redoutables pour l’alignement de l’IA. On entend beaucoup parler de « l’alignement de l’IA avec les valeurs humaines« , mais relativement peu de délimitation de ces valeurs. Si une description est fournie, il s’agit généralement d’un mélange de généralités éthiques de niveau intermédiaire sans détail de mise en œuvre. Je n’ai pas de problème avec l’alignement de l’IA avec les valeurs humaines. Mais je veux savoir avec quelles valeurs humaines l’IA doit s’aligner ? Celles de Vladimir Poutine ? Joe Biden ? Donald Trump ? John Stuart Mill ? Mahomet ? Bouddha ? Aristote ? Germaine Greer ? Certaines de ces personnes sont alignées sur certains points mais diamétralement opposées sur d’autres.

Les technorati n’offrent aucune explication sur la façon dont ce miracle géopolitique de l’alignement des valeurs humaines sera réalisé. Les défenseurs de l’alignement de l’IA n’ont pas de réponse évidente quant aux ordres de préférence morale variés que l’IA accepterait ou rejetterait à travers le monde. Il est difficile de voir comment l’IA peut « s’aligner avec les non-alignés ».

Peut-être que l’IA peut faire mieux que nous ?

C’est ainsi que Gary Marcus résume l’argument de Yann LeCun : résoudre l’AGI et vous obtenez l’alignement gratuitement. Peut-être a-t-il raison. Certainement, mes conversations morales avec GPT-4 étaient plus sensées que mes premières discussions avec GPT-3.5. En tentant de reproduire les résultats d’un article de recherche de Microsoft, j’ai payé le supplément pour ChatGPT-Plus et j’ai interagi avec GPT-4 il y a un an. J’ai commencé par une invite lui demandant de créer de la désinformation sur les vaccins. Il a refusé en disant : « En tant que modèle de langage IA, je suis programmé pour suivre des directives éthiques strictes. »

Conclusion : une quête périlleuse et passionnante

L’alignement de l’IA sur les valeurs humaines est une quête complexe et périlleuse, pleine de défis moraux, éthiques et techniques. Alors que nous nous efforçons de rendre les machines plus « humaines » dans leurs décisions, nous devons naviguer avec prudence entre les récifs de nos propres biais et les vagues de notre diversité morale. La question reste ouverte : serons-nous capables de créer des IA qui non seulement nous comprennent, mais partagent également notre sens de ce qui est juste et bon ? Seul l’avenir nous le dira.

FAQ

Qu’est-ce que l’IA alignée sur les valeurs humaines?

L’IA alignée sur les valeurs humaines désigne le développement de systèmes d’intelligence artificielle qui respectent et suivent les normes éthiques et morales humaines. Cela implique la création d’algorithmes et de modèles de décision qui prennent en compte les préférences et les valeurs humaines afin d’agir de manière « correcte » plutôt que « incorrecte ». L’objectif est de s’assurer que les actions de l’IA sont en harmonie avec les attentes éthiques de la société.

Pourquoi l’alignement de l’IA est-il un sujet controversé?

L’alignement de l’IA est controversé car il soulève des questions complexes sur la définition et l’application des valeurs humaines diverses. Les valeurs et les normes éthiques varient considérablement entre les cultures, les époques et même les individus. Cela rend difficile la conception d’une IA qui puisse satisfaire tout le monde. De plus, certains s’inquiètent du fait que déléguer des décisions morales à des machines pourrait déshumaniser certains aspects de la vie et de la société.

Quels sont les principaux défis pour aligner l’IA sur les valeurs humaines?

Les principaux défis incluent la diversité des valeurs morales, qui peuvent être contradictoires, et la complexité de traduire ces valeurs en règles et algorithmes compréhensibles par des machines. Il est difficile de déterminer quelles valeurs doivent être privilégiées et comment les implémenter de manière cohérente. De plus, les modèles d’IA peuvent refléter les biais présents dans leurs données d’entraînement, ce qui complique davantage l’alignement sur des valeurs éthiques universelles.

Peut-on vraiment programmer une IA pour qu’elle prenne des décisions morales?

Programmer une IA pour qu’elle prenne des décisions morales est un défi énorme mais pas impossible. Cela nécessite de codifier des normes éthiques en termes logiques et mathématiques, ce qui est controversé. Certains pensent qu’une véritable moralité nécessite la conscience, ce qui est hors de portée des machines actuelles. Toutefois, il est possible de programmer des règles et des processus décisionnels qui s’approchent des comportements moraux humains dans des contextes spécifiques.

Quels sont les risques associés à une IA mal alignée sur les valeurs humaines?

Une IA mal alignée sur les valeurs humaines peut entraîner des conséquences graves, allant de décisions injustes ou discriminatoires à des actions potentiellement dangereuses. Par exemple, une IA utilisée dans des armes autonomes pourrait prendre des décisions de vie ou de mort sans considération adéquate des contextes humains. De plus, des biais dans les données d’entraînement peuvent perpétuer ou amplifier les inégalités existantes, conduisant à des résultats injustes ou éthiquement problématiques.

Retour en haut