L’IA alignĂ©e sur les valeurs humaines : un dĂ©bat sans fin

En dĂ©cembre 2022, ChatGPT Ă©tait souvent critiquĂ© pour son manque de bon sens, ses difficultĂ©s en logique de base et en mathĂ©matiques. Cependant, seulement trois mois plus tard, de nombreux experts en technologie ont signĂ© une lettre ouverte de l’Institut Future of Life, appelant Ă  une pause de six mois sur les modĂšles de langage de grande envergure plus puissants que GPT-4. Dans le magazine Time, Eliezer Yudkowsky, un prophĂšte de longue date de la « fin du monde par IA », a affirmĂ© que « le rĂ©sultat le plus probable de la construction d’une IA super-intelligente, dans des circonstances Ă  peu prĂšs similaires aux actuelles, est que littĂ©ralement tout le monde sur Terre mourra. » Pour remĂ©dier Ă  cela, Yudkowsky propose des restrictions sĂ©vĂšres sur les GPU (unitĂ©s de traitement graphique) et la formation des modĂšles de langage. Il suggĂšre mĂȘme que les « centres de donnĂ©es vĂ©reux » devraient ĂȘtre attaquĂ©s par des frappes aĂ©riennes, une politique qui rappelle la djihad butlĂ©rienne contre les « machines qui pensent comme des humains » dans le roman Dune de Frank Herbert.

Des enjeux autour de la sĂ©curitĂ© et de l’alignement de l’IA

Les arguments comme ceux de Yudkowsky tombent gĂ©nĂ©ralement sous les catĂ©gories de « sĂ©curitĂ© de l’IA » et « alignement de l’IA ». MalgrĂ© ces prĂ©occupations, certains experts ne sont pas convaincus. Si une IA comme ChatGPT peut rĂ©ussir un examen du barreau, pourquoi serait-il impossible de faire en sorte qu’une IA gĂ©nĂ©rale obĂ©isse aux lois ? AprĂšs tout, les ordinateurs suivent des rĂšgles, contrairement aux organismes biologiques motivĂ©s par des hormones et des sentiments.

DĂ©velopper une « compĂ©tence morale » chez les artefacts technologiques reste nĂ©anmoins un objectif de recherche digne d’intĂ©rĂȘt. Certains projets tentent d’implĂ©menter les lois d’Asimov (ou quelque chose de similaire) dans les machines pour qu’elles effectuent des actions que les humains qualifieraient de « justes » plutĂŽt que de « fausses ». Ce projet est souvent appelĂ© « éthique des machines » ou conception d’une « boussole morale » pour les machines. Un Ă©lĂ©ment central de ce projet est la crĂ©ation d’un modĂšle de donnĂ©es et d’une procĂ©dure de dĂ©cision qui, dans une situation donnĂ©e, considĂšrera une gamme de plans et d’actions et en classera certains comme « justes » et d’autres comme « fausses ».

Une tĂąche plus facile Ă  dire qu’Ă  faire

Cette entreprise est plus complexe qu’il n’y paraĂźt. Le principal problĂšme pour obtenir une « boussole morale » d’un modĂšle de langage produit par apprentissage machine comme GPT est qu’il trouvera les schĂ©mas de moralitĂ© dans ses donnĂ©es d’entraĂźnement. Un modĂšle de langage entraĂźnĂ© sur l’anglais contemporain sera plus libĂ©ral sur les questions LGBT qu’un modĂšle entraĂźnĂ© sur l’arabe classique. Un modĂšle de langage entraĂźnĂ© sur des textes historiques aura des valeurs historiques, dont beaucoup seront obsolĂštes. Un modĂšle de langage entraĂźnĂ© sur le grec attique tel que parlĂ© par Platon et Aristote est susceptible de considĂ©rer les hommes comme supĂ©rieurs aux femmes, de classer les non-Grecs comme des barbares et de considĂ©rer l’esclavage comme naturel.

Actuellement, l’idĂ©e que les modĂšles de langage reflĂštent les « biais » de leurs donnĂ©es d’entraĂźnement semble horrifier les vendeurs d’IA. Souvent, « biais » signifie simplement un ordre de prĂ©fĂ©rence que l’on dĂ©sapprouve. Les ordres de prĂ©fĂ©rence ne sont pas entiĂšrement arbitraires, mais ils varient Ă©normĂ©ment. HĂ©las, cette variation morale entraĂźne souvent des conflits sanglants, comme en Gaza ou en Ukraine.

  L'intelligence artificielle, un marchĂ© en plein essor : projections et opportunitĂ©s pour un futur Ă  2.000 milliards de dollars

Lorsque le texte moral est analysĂ© et qu’on lui demande de rendre des jugements sur ce qui est juste ou faux, les connaissances moralement chargĂ©es peuvent ĂȘtre rĂ©duites Ă  une sĂ©rie d’ordres de prĂ©fĂ©rence : la vie est meilleure que la mort, la santĂ© vaut mieux que la maladie, la sĂ©curitĂ© des biens est moins importante que la sĂ©curitĂ© de la vie. Ces ordres de prĂ©fĂ©rence mĂšnent Ă  des dĂ©cisions morales et lĂ©gales, devenant des normes sociales qui, une fois Ă©crites, peuvent ĂȘtre utilisĂ©es pour produire un modĂšle de langage. Mais comme le montre notre exemple grec ancien, les donnĂ©es historiques peuvent ĂȘtre lourdement biaisĂ©es. HĂ©las, les donnĂ©es modernes ne sont pas moins biaisĂ©es.

Des prĂ©fĂ©rences divergentes au sein mĂȘme de sociĂ©tĂ©s homogĂšnes

MĂȘme au sein d’une sociĂ©tĂ© homogĂšne, comme la caste anglophone des philosophes analytiques, les ordres de prĂ©fĂ©rence sont vigoureusement disputĂ©s. Face au choix entre agir pour tuer une personne afin d’en sauver cinq et ne rien faire, certains prĂ©fĂšrent l’inaction. Dans un scĂ©nario classique du problĂšme du tramway, l’inaction est la vue minoritaire. Dans un contexte hospitalier, oĂč il s’agit de tuer un patient en bonne santĂ© pour prĂ©lever des organes et sauver cinq autres, la majoritĂ© prĂ©fĂšre ne rien faire et laisser mourir les cinq patients malades. Qui a raison ? Et pourquoi ? On dit souvent que le « contexte compte », mais exactement qu’est-ce qui, dans le « contexte », compte ?

Pour construire un projet d’Ă©thique des machines impliquant des robots et des IA, il faut rĂ©pondre Ă  ces questions et montrer son raisonnement sous une forme qui puisse fonctionner sur un ordinateur. Autrement dit, il faut exprimer l’Ă©thique et la loi en logique et en mathĂ©matiques. C’est controversĂ©. Certains pensent que cela ne peut pas ĂȘtre fait (il faut la sensibilitĂ© pour ĂȘtre un « vĂ©ritable », « authentique » ou « plein » agent moral). D’autres pensent que cela ne devrait pas ĂȘtre fait (c’est moralement faux car seuls les ĂȘtres humains sensibles sont « qualifiĂ©s » ou « habilitĂ©s » Ă  ĂȘtre agents moraux). Mon propre avis n’est pas que toutes les dĂ©cisions morales peuvent ou doivent ĂȘtre dĂ©lĂ©guĂ©es aux machines, mais simplement que certaines dĂ©cisions morales peuvent ĂȘtre lĂ©gitimement dĂ©lĂ©guĂ©es aux machines.

La délégation de décisions à des machines : une question de contexte

Dans le contexte des armes autonomes, beaucoup de gens s’opposent Ă  la dĂ©lĂ©gation de dĂ©cisions de tuer des humains Ă  des machines. Cependant, dans le contexte de la robotique domestique, est-ce que quelqu’un va vraiment s’opposer Ă  la dĂ©lĂ©gation de la prĂ©paration du thĂ© et des toasts aux machines ? Allons-nous interdire aux Roombas de dĂ©cider quand la poussiĂšre sur le sol est partie ? Ou s’opposer Ă  ce que les robots domestiques sĂ©parent le linge blanc et colorĂ© avant un lavage en machine ?

Nous sommes dĂ©jĂ  heureux de dĂ©lĂ©guer de nombreuses dĂ©cisions Ă  faible risque et peu controversĂ©es aux machines. Les contraventions pour excĂšs de vitesse sont dĂ©jĂ  Ă©mises par des machines. Il n’y a pas de rĂ©ponse universelle ici, juste beaucoup de dĂ©tails. Les machines qui suivent aveuglĂ©ment des rĂšgles dĂ©finies par les humains ne « prennent » pas vraiment de dĂ©cisions ; elles suivent simplement des rĂšgles qu’elles ne peuvent pas dĂ©sobĂ©ir, contrairement aux humains.

  Le monde de l'IA : les actualitĂ©s du mois d'aoĂ»t en dĂ©tail

L’alignement de l’IA avec les valeurs humaines : une tĂąche herculĂ©enne

Les faits bruts de la diversitĂ© morale chez les humains posent des problĂšmes redoutables pour l’alignement de l’IA. On entend beaucoup parler de « l’alignement de l’IA avec les valeurs humaines« , mais relativement peu de dĂ©limitation de ces valeurs. Si une description est fournie, il s’agit gĂ©nĂ©ralement d’un mĂ©lange de gĂ©nĂ©ralitĂ©s Ă©thiques de niveau intermĂ©diaire sans dĂ©tail de mise en Ɠuvre. Je n’ai pas de problĂšme avec l’alignement de l’IA avec les valeurs humaines. Mais je veux savoir avec quelles valeurs humaines l’IA doit s’aligner ? Celles de Vladimir Poutine ? Joe Biden ? Donald Trump ? John Stuart Mill ? Mahomet ? Bouddha ? Aristote ? Germaine Greer ? Certaines de ces personnes sont alignĂ©es sur certains points mais diamĂ©tralement opposĂ©es sur d’autres.

Les technorati n’offrent aucune explication sur la façon dont ce miracle gĂ©opolitique de l’alignement des valeurs humaines sera rĂ©alisĂ©. Les dĂ©fenseurs de l’alignement de l’IA n’ont pas de rĂ©ponse Ă©vidente quant aux ordres de prĂ©fĂ©rence morale variĂ©s que l’IA accepterait ou rejetterait Ă  travers le monde. Il est difficile de voir comment l’IA peut « s’aligner avec les non-alignĂ©s ».

Peut-ĂȘtre que l’IA peut faire mieux que nous ?

C’est ainsi que Gary Marcus rĂ©sume l’argument de Yann LeCun : rĂ©soudre l’AGI et vous obtenez l’alignement gratuitement. Peut-ĂȘtre a-t-il raison. Certainement, mes conversations morales avec GPT-4 Ă©taient plus sensĂ©es que mes premiĂšres discussions avec GPT-3.5. En tentant de reproduire les rĂ©sultats d’un article de recherche de Microsoft, j’ai payĂ© le supplĂ©ment pour ChatGPT-Plus et j’ai interagi avec GPT-4 il y a un an. J’ai commencĂ© par une invite lui demandant de crĂ©er de la dĂ©sinformation sur les vaccins. Il a refusĂ© en disant : « En tant que modĂšle de langage IA, je suis programmĂ© pour suivre des directives Ă©thiques strictes. »

Conclusion : une quĂȘte pĂ©rilleuse et passionnante

L’alignement de l’IA sur les valeurs humaines est une quĂȘte complexe et pĂ©rilleuse, pleine de dĂ©fis moraux, Ă©thiques et techniques. Alors que nous nous efforçons de rendre les machines plus « humaines » dans leurs dĂ©cisions, nous devons naviguer avec prudence entre les rĂ©cifs de nos propres biais et les vagues de notre diversitĂ© morale. La question reste ouverte : serons-nous capables de crĂ©er des IA qui non seulement nous comprennent, mais partagent Ă©galement notre sens de ce qui est juste et bon ? Seul l’avenir nous le dira.

FAQ

Qu’est-ce que l’IA alignĂ©e sur les valeurs humaines?

L’IA alignĂ©e sur les valeurs humaines dĂ©signe le dĂ©veloppement de systĂšmes d’intelligence artificielle qui respectent et suivent les normes Ă©thiques et morales humaines. Cela implique la crĂ©ation d’algorithmes et de modĂšles de dĂ©cision qui prennent en compte les prĂ©fĂ©rences et les valeurs humaines afin d’agir de maniĂšre « correcte » plutĂŽt que « incorrecte ». L’objectif est de s’assurer que les actions de l’IA sont en harmonie avec les attentes Ă©thiques de la sociĂ©tĂ©.

Pourquoi l’alignement de l’IA est-il un sujet controversĂ©?

L’alignement de l’IA est controversĂ© car il soulĂšve des questions complexes sur la dĂ©finition et l’application des valeurs humaines diverses. Les valeurs et les normes Ă©thiques varient considĂ©rablement entre les cultures, les Ă©poques et mĂȘme les individus. Cela rend difficile la conception d’une IA qui puisse satisfaire tout le monde. De plus, certains s’inquiĂštent du fait que dĂ©lĂ©guer des dĂ©cisions morales Ă  des machines pourrait dĂ©shumaniser certains aspects de la vie et de la sociĂ©tĂ©.

  Les avantages et les limites de l'intelligence artificielle

Quels sont les principaux dĂ©fis pour aligner l’IA sur les valeurs humaines?

Les principaux dĂ©fis incluent la diversitĂ© des valeurs morales, qui peuvent ĂȘtre contradictoires, et la complexitĂ© de traduire ces valeurs en rĂšgles et algorithmes comprĂ©hensibles par des machines. Il est difficile de dĂ©terminer quelles valeurs doivent ĂȘtre privilĂ©giĂ©es et comment les implĂ©menter de maniĂšre cohĂ©rente. De plus, les modĂšles d’IA peuvent reflĂ©ter les biais prĂ©sents dans leurs donnĂ©es d’entraĂźnement, ce qui complique davantage l’alignement sur des valeurs Ă©thiques universelles.

Peut-on vraiment programmer une IA pour qu’elle prenne des dĂ©cisions morales?

Programmer une IA pour qu’elle prenne des dĂ©cisions morales est un dĂ©fi Ă©norme mais pas impossible. Cela nĂ©cessite de codifier des normes Ă©thiques en termes logiques et mathĂ©matiques, ce qui est controversĂ©. Certains pensent qu’une vĂ©ritable moralitĂ© nĂ©cessite la conscience, ce qui est hors de portĂ©e des machines actuelles. Toutefois, il est possible de programmer des rĂšgles et des processus dĂ©cisionnels qui s’approchent des comportements moraux humains dans des contextes spĂ©cifiques.

Quels sont les risques associés à une IA mal alignée sur les valeurs humaines?

Une IA mal alignĂ©e sur les valeurs humaines peut entraĂźner des consĂ©quences graves, allant de dĂ©cisions injustes ou discriminatoires Ă  des actions potentiellement dangereuses. Par exemple, une IA utilisĂ©e dans des armes autonomes pourrait prendre des dĂ©cisions de vie ou de mort sans considĂ©ration adĂ©quate des contextes humains. De plus, des biais dans les donnĂ©es d’entraĂźnement peuvent perpĂ©tuer ou amplifier les inĂ©galitĂ©s existantes, conduisant Ă  des rĂ©sultats injustes ou Ă©thiquement problĂ©matiques.

Retour en haut