L’IA de génération de texte d’Elon Musk trop dangereuse pour être rendue publique


Selon ses créateurs

L’intelligence artificielle continue à bouleversé notre existence, à un rythme accéléré, par de nouvelles applications avancées auxquelles nous n’avions même pas eu le temps de penser. Ces applications sont mises au point par des chercheurs pour le bien des utilisateurs en leur facilitant de nombreuse tâches. Toutefois, elles peuvent aussi être utilisées à de mauvaises fins par certains acteurs malveillants épris du mal pour détruire ou pour se faire du profit au détriment des autres. Ce comportement pourrait pousser certains chercheurs à éviter de publier leurs recherches de peur qu’elles soient détournées de leur utilisation originelle.

C’est, par ailleurs, dans cette logique qu’OpenAI, la société à but non lucratif, soutenue par Elon Musk, a décidé de ne pas publier les résultats de ses recherches par crainte d’une utilisation abusive, selon un article du Guardian publié hier. Les créateurs d’un système révolutionnaire d’intelligence artificielle capable d’écrire des reportages et des œuvres de fiction, surnommés « deepfakes for text », se sont sentis obligés de renoncer à rendre publique leur œuvre, par crainte d’une éventuelle utilisation non recommandée, rompant ainsi avec leur procédure habituelle qui est de publier leur recherche ainsi que les codes sources afférentes.

En effet, le nouveau modèle d’IA mis au point par les chercheurs d’OpenAI, appelé GPT2, est si bon et le risque d’utilisation malveillante si élevé qu’ils comptent s’accorder plus de temps pour discuter des conséquences de cette avancée technologique avant de partager la recherche complète avec le public. « Cela semble bien réel », déclare David Luan, vice-président de l’ingénierie chez OpenAI, à propos du texte généré par le système. Lui et ses collègues chercheurs ont commencé à imaginer comment pareil système pourrait être utilisé à des fins hostiles. « Il se peut qu’une personne qui a des intentions malveillantes soit en mesure de produire de fausses actualités de haute qualité », dit Luan.

génération de texte

À cause de cette préoccupation, OpenAI a préféré publier un document de recherche sur ses résultats, plutôt que son modèle complet ni les 8 millions de pages Web qui ont servi à former le système. Le manque de cadre éthique fondamental, dont souffre la technologie IA et qui ne permet pas de définir à l’avance les implications des modèles IA formés, est à la base de l’hésitation de l’OpenAI et bien d’autres organisations.

OpenAI n’est pas la seule organisation à hésiter à partager ses recherches en matière de l’IA. Selon Wired, Google, aussi, a décidé le mois dernier de ne plus partager innocemment ni ses nouveaux résultats de recherche sur l’IA ni le code source. La firme a révélé dans un document de politique sur l’IA qu’elle avait imposé des contraintes aux logiciels de recherche qu’elle partageait en raison de craintes d’utilisation abusive. En décembre dernier, Google a également partagé, dans un billet de blog, des informations selon lesquelles la société ne proposera pas « d’API de reconnaissance faciale à usage général avant de résoudre d’importantes questions technologiques et stratégiques. »

La technologie de l’IA étant souvent utilisée de façon abusive pour aller contre les libertés des humains (par exemple, son utilisateur par les forces de l’ordre dans plusieurs pays), Microsoft s’est joint à un appel à la réglementation, en juillet dernier, pour limiter l’utilisation de la technologie de reconnaissance faciale, en exhortant le Congrès à étudier la technologie et à superviser son utilisation. Dans une autre intervention, le président de Microsoft a déclaré que sans la réglementation de la technologie de reconnaissance faciale, 2024 pourrait ressembler au roman « 1984 ».

Selon The Guardian, GPT2 d’OpenAI est un générateur de texte qui doit être alimenté en texte, de quelques mots à une page entière, et qui est capable d’écrire les phrases suivantes en fonction de ses prédictions sur ce qui devrait arriver ensuite. Selon The Guardian, le système repousse les limites de la génération de texte au-delà de ce que l’on croyait possible, tant sur le plan de la qualité de la production que sur le plan de la grande variété des utilisations possibles. Le système d’IA est capable d’écrire des passages plausibles qui correspondent à ce qui lui est donné à la fois dans le style et le sujet. Selon The Guardian, GPT2 montre rarement des textes hors contexte à la différence des systèmes d’IA antérieurs, comme oublier ce qui est écrit au milieu d’un paragraphe ou modifier la syntaxe des longues phrases.

Par exemple, Guardian a alimenté GPT2 avec les premiers paragraphes d’une de ses histoires sur Brexit, et, selon le quotidien, la production du système d’IA était de la prose de journal plausible, qui regorgeait de « citations » de Jeremy Corbyn, de mentions de la frontière irlandaise, et de réponses du porte-parole du Premier ministre.

Selon Jack Clark, directeur des politiques chez OpenAI, ce genre d’exemple montre comment une telle technologie pourrait bouleverser les processus derrière la désinformation en ligne, dont certaines utilisent déjà une forme d’automatisation.

Les préoccupations d’OpenAI peuvent être justifiées par l’utilisation des bots par les acteurs malveillants pour diffuser des fausses actualités sur Internet, GPT2 pouvant constituer un outil adapté à leur besogne. En effet, la période électorale 2016 aux Etats-Unis a été troublée par la prolifération des fausses nouvelles sur Internet. Les fausses informations pouvaient être non seulement sous forme de texte, mais également sous forme d’image et de vidéoclips trompeurs faits avec l’apprentissage machine, en combinant et superposant des images et des vidéos existantes sur des images ou des vidéos sources.

Formation du modèle génération de texte d’OpenAI

Selon les chercheurs, GPT2 est révolutionnaire à deux égards, du point de vue de la recherche. Le premier atout, c’est la taille, a expliqué Dario Amodei, directeur de recherche d’OpenAI. Les modèles « étaient 12 fois plus grands, et l’ensemble de données était 15 fois plus grand et beaucoup plus large » que l’ancien modèle d’IA à la fine pointe de la technologie. GPT2 a été formé sur un ensemble de données contenant environ 10 millions d’articles, sélectionnés en parcourant le site de nouvelles sociales Reddit pour les liens avec plus de trois votes, a rapporté The Guardian. Selon les chercheurs, la vaste collection de textes utilisée pour la formation pesait 40 Go.

L’autre atout, c’est la qualité. Le modèle a été formé en lui donnant plus de connaissances sur la façon de comprendre le texte écrit. GPT2 est beaucoup plus général que les modèles de texte précédents. En structurant le texte saisi, il peut effectuer des tâches telles que la traduction et la synthèse, et réussir des tests simples de compréhension de la lecture, souvent aussi bien ou mieux que d’autres outils d’IA conçus spécialement pour ces tâches.

La recherche d’OpenAI s’appuie sur une récente poussée de progrès dans le domaine des logiciels de traitement de texte, rendus possibles par les nouveaux systèmes d’apprentissage machine qui permettent de mieux rechercher dans le texte des indices contextuels sur la signification d’un mot, a rapporté Wired. Selon Hammond, cofondateur d’une startup appelée Narrative Science qui génère des documents commerciaux tels que des rapports financiers en traduisant les données en texte, le système D’IA d’OpenAI montre une fluidité impressionnante et pourrait être utile dans des projets créatifs.

OpenAI espère qu’en exprimant ses préoccupations au sujet de ses propres résultats de recherche, il pourra encourager les chercheurs en intelligence artificielle à être plus ouverts et réfléchis par rapport à ce qu’ils développent et publient.

Lire aussi : “Croyez-moi, l’IA est bien plus dangereuse que les armes nucléaires” – Elon Musk

Sources : Developpez.com par Stan AdkensThe Guardian, Wired


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *