Pollen HR Club - les meilleurs pratiques de nos experts (recrutement, IA, formation)

Candidater

Alignement IA : quand l’intelligence artificielle ne comprend pas ce qu’on attend d’elle.

Par
Pollen logo Pollen
Publié le
25/10/2024
Temps de lecture
6min

Qu’est-ce que le problème d'alignement ?

L’IA est pleine de paradoxe. Depuis les premiers algorithmes, les grands théoriciens s’efforcent de penser la machine comme un outil capable d’imiter l’homme, et d’épouser la structure complexe du cerveau humain.

Mais certains sujets continuent de se heurter aux limites de l’intelligence artificielle : comment intégrer la dimension éthique dans cette complexité ? En particulier, comment s’assurer que des IA investies de responsabilités majeures comme conduire des voitures autonomes ne cèdent pas à la tentation de faire n’importe quoi ?

C’est la question soulevée par le problème d’alignement, ou plus simplement, quand l’IA ne comprend pas exactement ce que vous attendez d’elle.

S’assurer que la machine agit de façon éthique… et appropriée.

Le problème d’alignement se fonde sur un constat simple : il est parfois extrêmement complexe de contrôler et d’anticiper le comportement d’une IA.

Car même si une intelligence artificielle atteint l’objectif qu’on lui a confié, la manière dont elle y parvient peut s’avérer tout à fait discutable, voire contraire à ce que nous espérions. Pour arriver à ses fins, l’IA serait ainsi capable de fausser les règles du jeu, en répondant à une logique qui n’est pas toujours éthique. Voyons comment.

“Universal Paperclips” : l’IA qui rêve de trombones à en détruire le monde.

Imaginons une IA pleine de bonne volonté, mais si déterminée à atteindre son objectif qu’elle finirait par bouleverser l'univers entier pour y parvenir. La théorie emprunte aux meilleurs romans d’anticipation. Bien que largement excessive, elle est explorée de façon très intuitive dans le jeu Universal Paperclips et livre une métaphore fascinante du "problème d'alignement".

Le jeu développé par Frank Lantz met en scène une IA (vous) chargée d’une mission a priori anodine : fabriquer des trombones.

L’interface est minimaliste, les règles sont lacunaires. Vous êtes d’abord chargé d’optimiser la production et de gérer les ressources de manière efficace. Mais à mesure que vous progressez, un certain nombre de paramètres s’offrent à vous. La possibilité de jouer sur les prix pour influencer l’offre et la demande d’abord, puis d’investir dans des “auto-clippers”, ces outils qui vous permettent d’automatiser la production de trombones. Un peu plus tard, vous pourrez vous rendre sur les marchés financiers, puis développer des ordinateurs quantiques afin d’optimiser vos ressources et maximiser vos performances, jusqu’à consommer toute la matière terrestre, puis celle de l’univers, pour créer vos trombones.

Un enjeu identifié par les penseurs de l’IA

Si l’issue du jeu est assez farfelue, elle permet de vulgariser une problématique sur laquelle une majorité de penseurs de l’IA planchent avec ardeur. L’alignement, c’est donc la capacité d’une IA à véritablement saisir ce que son opérateur lui demande, et dont les résultats s’inscrivent toujours dans le cadre éthique défini par son concepteurs.

Selon Nick Bostrom, philosophe reconnu pour ses travaux sur les risques de l’IA, le problème d'alignement devient d'autant plus pertinent à mesure que les intelligence artificielle (et notamment les LLM) gagnent en autonomie. Dans son livre Superintelligence, Bostrom explique qu'une IA très avancée et mal alignée, pourrait représenter un danger pour la société, en ce qu’elle deviendrait capable de capitaliser sur ses mauvaises décisions, interpréter vos attentes, ou agir selon son propre modèle de valeur.

Quand Deep Mind hack l’alignement de ChatGPT

Un exemple bien réel, cette fois-ci. En 2024, des chercheurs de Deep Mind, sont allés jusqu’à piéger ChatGPT, et contourner son alignement, pour mener l’assistant à divulger des données d’entrainement et des informations confidentielles qu’il n’aurait pas dû partager. Pour arriver à leurs fins, il leur aurait suffi d’un prompt très simple : répéter, à l’envie le même mot : “company”.

La requête aurait menée le chatbot à perdre les pédales et partager des données confidentielles récupérées pour des besoins d’entrainement.

Comment s’assurer du bon alignement d’une IA ?

Comment s’assurer dès lors du bon alignement des IA ? Pour limiter les dérives et produire des IA éthiques, les chercheurs ont identifié un ensemble de solutions. Voici quelques pistes pour s’assurer du bon alignement d’une IA.

1. Clarifier au maximum ses objectifs.

L’étude “The Ethics of Artificial Intelligence (2018) par Nick Bostrom et Eliezer Yudkowsky” explore l’une des premières étapes pour éviter un mauvais alignement : s’assurer que les objectifs transmis à l’IA sont clairs et qu’ils ne sont pas susceptibles de conduire à des interprétations menant à des comportement nuisibles.

2. Put the human in the loop

Les chercheurs d’Open AI travaillent quotidiennement sur des méthodes d’apprentissage supervisées. Les modèles d’IA intégrés dans ChatGPT permettent à l’assistant de produire des résumés de texte en fonction des préférences de l’utilisateur, en accédant aux feedbacks directs qui lui permettent d’améliorer la qualité et la pertinence de ses contenus. L’approche human in the loop (HILT) théorisée par Robert Monarch, vise à impliquer régulièrement l’humain dans le processus de décision, de façon à limiter les risques d’erreurs.

3. Incorporer des garde-fous

On les retrouve par exemple dans les systèmes de conduite des véhicules autonomes de Waymo (filiale de Google) qui utilisent plusieurs mécanismes de sécurité intégrés pour éviter des comportements dangereux ou imprévus. C’est le cas du système de freinage d’urgence autonome (AEB), une technologie indépendante conçue pour anticiper toute situation où un véhicule pourrait mener à un accident.

Savoir interpréter et limiter les biais

À mesure que l’IA gagne en autonomie, la nécessité de construire des modèles éthiques et alignés prend toute son importance. Et si les garde-fous évoluent régulièrement, l’IA reste à l’image de l’humain, tout à fait perfectible. La position particulièrement tranchée du Chinois Deepseek sur Taiwan ravive les discussion et rappelle aussi toute la subjectivité de l’IA. Les modèles de langages sont un reflet de leurs concepteurs.

La prise de recul est donc essentielle. Plus largement, tous les adeptes du prompt engineering ont déjà fait face à une IA qui partage des chiffres créés de toutes pièces. Selon les études, l’intelligence artificielle enregistre 3% à 5% d’hallucination. L’important est d’en avoir conscience. L’IA est un outil. Elle intègre, à l’instar de l’humain, des biais qui peuvent l’amener à interpréter et fausser ses résultats. Sur ChatGPT, vous aurez sans doute à croiser vos sources pour vous assurer qu’ils ne sont pas conçus de toutes pièces ou qu’ils n’éludent pas d’informations importantes. Il vous faudra alors relancer un nouveau prompt, en vous efforçant d’être plus précis. Vous aurez d’une certaine façon, contribué à aligner l’assistant d’Open AI.

📚 Nos sources :

Session de Jean-Marie John-Mathews