Une IA a caché des données à ses créateurs pour tricher lors de tâches qu’ils lui ont confiées


Selon votre degré de paranoïa, cette recherche de Stanford et Google sera terrifiante ou fascinante. Un agent d’apprentissage machine destiné à transformer des images aériennes en cartes routières et inversement s’est avéré tricher en cachant des informations dont il aurait besoin plus tard dans “un signal presque imperceptible, à haute fréquence”. Quelle malin !

Mais en fait, cet événement, loin d’illustrer une sorte d’intelligence maligne inhérente à l’IA, révèle simplement un problème avec les ordinateurs qui existe depuis leur invention : ils font exactement ce que vous leur dites de faire.

L’intention des chercheurs était, comme vous pouvez le deviner, d’accélérer et d’améliorer le processus de transformation de l’imagerie satellitaire en cartes précises de Google. À cette fin, l’équipe travaillait avec ce qu’on appelle un CycleGAN – un réseau neuronal qui apprend à transformer les images de type X et Y en images l’une dans l’autre, de façon aussi efficace et précise que possible, grâce à une grande quantité d’expériences.

Dans certains des premiers résultats, l’agent se portait bien, de manière suspecte. Ce qui a mis l’équipe au courant, c’est que, lorsque l’agent a reconstitué des photographies aériennes à partir de ses plans de rues, il y avait beaucoup de détails qui ne semblaient pas du tout figurer sur ces derniers. Par exemple, des puits de lumière sur un toit qui avaient été éliminés lors de la création du plan de la rue réapparaissaient par magie lorsqu’ils demandaient à l’agent de faire le processus inverse :

La carte originale, à gauche ; la carte des rues générée à partir de l’original, au centre ; et la carte aérienne générée uniquement à partir de la carte des rues. Notez la présence de points sur les deux cartes aériennes qui ne sont pas représentés sur la carte routière.

Bien qu’il soit très difficile d’examiner le fonctionnement interne des processus d’un réseau neuronal, l’équipe pouvait facilement vérifier les données générées. Et avec un peu d’expérimentation, ils ont découvert que le CycleGAN avait joué un petit tour.

L’objectif était de permettre à l’agent d’interpréter les caractéristiques de l’un ou l’autre type de carte et de les faire correspondre aux caractéristiques correctes de l’autre. Mais ce sur quoi l’agent était en fait noté (entre autres choses), c’était la proximité d’une carte aérienne par rapport à l’original et la clarté de la carte de la rue.

Il n’a donc pas appris à faire l’un à partir de l’autre. Il a appris à coder subtilement les caractéristiques de l’un dans les modèles de bruit de l’autre. Les détails de la carte aérienne sont secrètement inscrits dans les données visuelles réelles de la carte des rues : des milliers de petits changements de couleur que l’œil humain ne remarquerait pas, mais que l’ordinateur peut facilement détecter.

En fait, l’ordinateur est si bon à glisser ces détails dans les plans de rues qu’il a appris à encoder n’importe quelle carte aérienne dans n’importe quel plan de rues ! Il n’a même pas besoin de faire attention à la “vraie” carte routière – toutes les données nécessaires à la reconstitution de la photo aérienne peuvent être superposées sans danger à une carte routière complètement différente, comme l’ont confirmé les chercheurs :

La carte de droite a été encodée dans les cartes de gauche sans aucun changement visuel significatif.

Les cartes colorées en (c) sont une visualisation des légères différences que l’ordinateur a systématiquement introduites. Vous pouvez voir qu’ils forment la forme générale de la carte aérienne, mais vous ne le remarquerez jamais à moins qu’elle ne soit soigneusement soulignée et exagérée comme ceci.

Cette pratique d’encodage des données en images n’est pas nouvelle ; il s’agit d’une science établie appelée stéganographie, et elle est utilisée tout le temps pour, disons, filigraner des images ou ajouter des métadonnées comme les réglages de caméra. Mais un ordinateur qui crée sa propre méthode stéganographique pour éviter d’avoir à apprendre à exécuter la tâche à accomplir est plutôt nouveau. (En fait, la recherche est sortie l’année dernière, donc ce n’est pas nouveau, mais c’est plutôt récent.)

On pourrait facilement prendre cela comme un pas dans la narration “les machines deviennent plus intelligentes”, mais la vérité est que c’est presque le contraire. La machine, qui n’est pas assez intelligente pour faire le travail difficile de convertir ces types d’images sophistiqués les uns aux autres, a trouvé un moyen de tricher où les humains sont mauvais à la remarquer. Cela pourrait être évité avec une évaluation plus rigoureuse des résultats de l’agent, et il ne fait aucun doute que les chercheurs ont poursuivi dans cette voie.

Comme toujours, les ordinateurs font exactement ce qu’on leur demande, vous devez donc être très précis dans ce que vous leur demandez. Dans ce cas, la solution de l’ordinateur était intéressante et a mis en lumière une faiblesse possible de ce type de réseau neuronal – que l’ordinateur, s’il n’est pas explicitement empêché de le faire, trouvera essentiellement un moyen de se transmettre des détails dans l’intérêt de résoudre rapidement et facilement un problème donné.

Ce n’est vraiment qu’une leçon du plus vieil adage de l’informatique : PEBKAC. “Problem Exists Between Keyboard And Chair” Ou comme l’a dit HAL 9000 : “Ça ne peut être attribué qu’à une erreur humaine.”

L’article, “CycleGAN, a Master of Steganography”, a été présenté à la conférence Neural Information Processing Systems en 2017.

Lire aussi : Cette intelligence artificielle apprend le langage comme un enfant !

Source : TechCrunch – Traduit par Anguille sous roche

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *