Une IA de conversion de texte en image a créé son propre langage secret, selon un chercheur
Voici quelque chose de rassurant : les chercheurs qui utilisent l’intelligence artificielle (IA) par apprentissage automatique ne savent souvent pas précisément comment leurs algorithmes résolvent les problèmes qui leur sont confiés.
Prenez par exemple l’IA capable d’identifier une race à partir de radiographies alors qu’aucun humain ne peut voir comment, ou l’IA de Facebook qui a commencé à développer son propre langage. Le générateur de texte-image préféré de tous, DALLE-2, pourrait les rejoindre.
Giannis Daras, étudiant en doctorat d’informatique, a remarqué que le système DALLE-2, qui crée des images à partir d’un texte à saisir, renvoyait des mots absurdes sous forme de texte dans certaines circonstances.
“Une des limites connues de DALLE-2 est qu’il a du mal avec le texte”, écrit-il dans un article publié sur le serveur de préimpression Arxiv. “Par exemple, des invites textuelles telles que : ‘Une image du mot avion’ conduisent souvent à des images générées qui représentent du texte charabia.”
“Nous découvrons que ce texte produit n’est pas aléatoire, mais révèle plutôt un vocabulaire caché que le modèle semble avoir développé en interne. Par exemple, lorsqu’il est nourri de ce texte charabia, le modèle produit fréquemment des avions.”
Dans une illustration publiée sur Twitter, Daras explique que lorsqu’on lui demande de sous-titrer une conversation entre deux agriculteurs, il les montre en train de parler, mais les bulles sont remplies de ce qui ressemble à un non-sens complet.
A known limitation of DALLE-2 is that it struggles with text. For example, the prompt: "Two farmers talking about vegetables, with subtitles" gives an image that appears to have gibberish text on it.
However, the text is not as random as it initially appears… (2/n) pic.twitter.com/B3e5qVsTKu
— Giannis Daras (@giannis_daras) May 31, 2022
Cependant, Daras a eu l’idée de réinjecter ces mots absurdes dans le système, pour voir si l’IA leur avait attribué une signification propre. Il s’est alors rendu compte que les mots semblaient avoir leur propre signification pour l’IA : les agriculteurs parlaient de légumes et d’oiseaux.
We feed the text "Vicootes" from the previous image to DALLE-2. Surprisingly, we get (dishes with) vegetables! We then feed the words: "Apoploe vesrreaitars" and we get birds. It seems that the farmers are talking about birds, messing with their vegetables! (3/n) pic.twitter.com/OiU7NPTbor
— Giannis Daras (@giannis_daras) May 31, 2022
DALLE-2 has a secret language.
"Apoploe vesrreaitais" means birds.
"Contarra ccetnxniams luryca tanniounons" means bugs or pests.The prompt: "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" gives images of birds eating bugs.
A thread (1/n)🧵 pic.twitter.com/VzWfsCFnZo
— Giannis Daras (@giannis_daras) May 31, 2022
Si Daras a raison, il pense que cela aurait des implications en matière de sécurité pour le générateur texte-image.
“Le premier problème de sécurité est lié à l’utilisation de ces messages en charabia comme porte dérobée pour des attaques adverses ou des moyens de contourner le filtre”, écrit-il dans son article. “Actuellement, les systèmes de traitement du langage naturel filtrent les invites textuelles qui violent les règles de la politique et les invites en charabia peuvent être utilisées pour contourner ces filtres.”
“Plus important encore, les invites absurdes qui génèrent systématiquement des images remettent en question notre confiance dans ces grands modèles génératifs.”
Cependant – bien qu’il ait été démontré que d’autres algorithmes créent leurs propres langages – cet article n’a pas encore été examiné par des pairs, et d’autres chercheurs remettent en question les affirmations de Darras. L’analyste de recherche Benjamin Hilton a demandé au générateur de montrer deux baleines parlant de nourriture, avec des sous-titres. Après que les premiers résultats n’aient pas renvoyé de texte déchiffrable, charabia ou pas, il a continué jusqu’à ce qu’il le fasse.
And look, prompting DALL-E with "Evve waeles" gave me a picture of a delicious dessert!
But also – some footballers, some animals and a kettle?
(12/15) pic.twitter.com/jncHq0W13Q
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
“Qu’est-ce que j’en pense ?” Hilton a écrit sur Twitter. “‘Evve waeles’ est soit un non-sens, soit une corruption du mot ‘baleines’. Giannis a eu de la chance quand ses baleines ont dit ‘Wa ch zod rea’ et que cela a généré des images de nourriture.”
De plus, l’ajout d’autres expressions comme “rendu 3D” à d’autres des expressions donne des résultats différents, ce qui suggère qu’elles ne signifient pas systématiquement la même chose.
4) @giannis_daras says "Vicootes" means “vegetables”.
Again, yes, "Vicootes" does give us some vegetable dishes. But:
– “vicootes, cartoon” gives some weird characters
– “vicootes, 3d render” gives objects
– “vicootes, painting” gives flowers and landscapes(8/15) pic.twitter.com/oq0KBI4zjh
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
Il se pourrait que le langage soit plus proche du bruit, du moins dans certains cas. Nous en saurons plus lorsque l’article sera revu par les pairs, mais il se peut qu’il y ait encore quelque chose que nous ignorons.
M. Hilton a ajouté que la phrase “Apoploe vesrreaitais” renvoie à chaque fois des images d’oiseaux, “donc il y a certainement quelque chose à faire”.
Lire aussi : Tay : l’intelligence artificielle de Microsoft dérape sur Twitter
Source : IFLScience – Traduit par Anguille sous roche