Une IA de conversion de texte en image a créé son propre langage secret, selon un chercheur


Voici quelque chose de rassurant : les chercheurs qui utilisent l’intelligence artificielle (IA) par apprentissage automatique ne savent souvent pas précisément comment leurs algorithmes résolvent les problèmes qui leur sont confiés.

Prenez par exemple l’IA capable d’identifier une race à partir de radiographies alors qu’aucun humain ne peut voir comment, ou l’IA de Facebook qui a commencé à développer son propre langage. Le générateur de texte-image préféré de tous, DALLE-2, pourrait les rejoindre.

Giannis Daras, étudiant en doctorat d’informatique, a remarqué que le système DALLE-2, qui crée des images à partir d’un texte à saisir, renvoyait des mots absurdes sous forme de texte dans certaines circonstances.

“Une des limites connues de DALLE-2 est qu’il a du mal avec le texte”, écrit-il dans un article publié sur le serveur de préimpression Arxiv. “Par exemple, des invites textuelles telles que : ‘Une image du mot avion’ conduisent souvent à des images générées qui représentent du texte charabia.”

“Nous découvrons que ce texte produit n’est pas aléatoire, mais révèle plutôt un vocabulaire caché que le modèle semble avoir développé en interne. Par exemple, lorsqu’il est nourri de ce texte charabia, le modèle produit fréquemment des avions.”

Dans une illustration publiée sur Twitter, Daras explique que lorsqu’on lui demande de sous-titrer une conversation entre deux agriculteurs, il les montre en train de parler, mais les bulles sont remplies de ce qui ressemble à un non-sens complet.

Cependant, Daras a eu l’idée de réinjecter ces mots absurdes dans le système, pour voir si l’IA leur avait attribué une signification propre. Il s’est alors rendu compte que les mots semblaient avoir leur propre signification pour l’IA : les agriculteurs parlaient de légumes et d’oiseaux.

Si Daras a raison, il pense que cela aurait des implications en matière de sécurité pour le générateur texte-image.

“Le premier problème de sécurité est lié à l’utilisation de ces messages en charabia comme porte dérobée pour des attaques adverses ou des moyens de contourner le filtre”, écrit-il dans son article. “Actuellement, les systèmes de traitement du langage naturel filtrent les invites textuelles qui violent les règles de la politique et les invites en charabia peuvent être utilisées pour contourner ces filtres.”

“Plus important encore, les invites absurdes qui génèrent systématiquement des images remettent en question notre confiance dans ces grands modèles génératifs.”

Cependant – bien qu’il ait été démontré que d’autres algorithmes créent leurs propres langages – cet article n’a pas encore été examiné par des pairs, et d’autres chercheurs remettent en question les affirmations de Darras. L’analyste de recherche Benjamin Hilton a demandé au générateur de montrer deux baleines parlant de nourriture, avec des sous-titres. Après que les premiers résultats n’aient pas renvoyé de texte déchiffrable, charabia ou pas, il a continué jusqu’à ce qu’il le fasse.

“Qu’est-ce que j’en pense ?” Hilton a écrit sur Twitter. “‘Evve waeles’ est soit un non-sens, soit une corruption du mot ‘baleines’. Giannis a eu de la chance quand ses baleines ont dit ‘Wa ch zod rea’ et que cela a généré des images de nourriture.”

De plus, l’ajout d’autres expressions comme “rendu 3D” à d’autres des expressions donne des résultats différents, ce qui suggère qu’elles ne signifient pas systématiquement la même chose.

Il se pourrait que le langage soit plus proche du bruit, du moins dans certains cas. Nous en saurons plus lorsque l’article sera revu par les pairs, mais il se peut qu’il y ait encore quelque chose que nous ignorons.

M. Hilton a ajouté que la phrase “Apoploe vesrreaitais” renvoie à chaque fois des images d’oiseaux, “donc il y a certainement quelque chose à faire”.

Lire aussi : Tay : l’intelligence artificielle de Microsoft dérape sur Twitter

Source : IFLScience – Traduit par Anguille sous roche


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *