Google indique qu’il va utiliser tout ce que vous allez publier en ligne comme données d’entraînement de son IA

6 juillet 2023

Dans une mise à jour de sa politique de confidentialité.

Google a mis à jour sa politique de confidentialité au cours du week-end, indiquant explicitement que l’entreprise se réserve le droit de récupérer à peu près tout ce que vous publiez en ligne pour créer ses outils d’IA. Si Google peut lire vos mots, supposez qu’ils appartiennent maintenant à l’entreprise et attendez-vous à ce qu’ils se nichent quelque part dans les entrailles d’un chatbot.

« Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l’entraînement de ses modèles d’IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d’IA de Cloud », indique la nouvelle politique de Google.

Le message est disponible à la section Conformité et coopération avec des organismes de réglementation dans la partie Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.

Pour ceux qui le souhaitent, Google conserve un historique des modifications apportées à ses conditions d’utilisation. Le nouveau langage modifie une politique existante, énonçant de nouvelles façons dont vos réflexions en ligne pourraient être utilisées pour le travail des outils d’IA de la grande enseigne de la technologie.

Auparavant, Google avait déclaré que les données seraient utilisées « pour les modèles de langage » plutôt que pour les « modèles d’IA », et là où l’ancienne politique vient de mentionner Google Translate, Bard et Cloud AI font maintenant leur apparition.

Il s’agit d’une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l’entreprise. Ici, il semble que Google se réserve le droit de récolter et d’exploiter les données publiées sur n’importe quelle partie du Web public, comme si l’ensemble d’Internet était le propre terrain de jeu de l’IA de l’entreprise.

Un nouveau langage qui n’est pas disponible dans le monde entier

Si ce passage de la modification est disponible en Amérique, cela n’est pas nécessairement (encore) le cas dans le reste du monde. Cela peut s’expliquer par le fait que les lois locales peuvent compliquer la tâche aux équipes juridiques de Google.

C’est la raison pour laquelle, bien que l’entreprise avait prévu de lancer Bard en UE en mi-juin, elle s’est heurtée au veto de la Commission irlandaise de protection des données (DCP), qui est le principal régulateur en matière de protection des données du bloc des 27. Ce revers a retardé une fois de plus la disponibilité à grande échelle de Bard dans l’UE, qui représente un marché de plus 450 millions de consommateurs. En attendant, le chatbot d’IA ChatGPT d’OpenAI est disponible sans restriction dans l’UE et sur tous les autres marchés dans le monde depuis son lancement en novembre dernier. L’absence de grands rivaux comme Bard permet à ChatGPT de s’imposer davantage.

Pour justifier son opposition au lancement de Bard dans l’UE, la DCP a expliqué que Google n’avait pas indiqué comment elle comptait se conformer aux règles de l’UE en matière de protection des données.

Néanmoins, il est probable que ce ne soit qu’une question de temps avant que cette politique ne s’applique partout dans le monde.

Quand votre contenu peut être utilisé pour former une IA

Cette pratique soulève de nouvelles et intéressantes questions de confidentialité. Les gens comprennent généralement que les messages publics sont publics. Aujourd’hui, il ne s’agit plus de savoir qui peut voir l’information, mais comment elle pourrait être utilisée. Il y a de fortes chances que Bard et ChatGPT aient ingéré vos articles de blog oubliés depuis longtemps ou vos critiques de restaurants vieilles de 15 ans. Pendant que vous lisez ceci, les chatbots pourraient régurgiter une version modifiée de l’assemblage vos mots d’une manière impossible à prévoir et difficile à comprendre.

L’une des complications les moins évidentes du monde post-ChatGPT est la question de savoir où les chatbots avides de données ont puisé leurs informations. Des entreprises telles que Google et OpenAI ont fait du scrapping sur de vastes portions d’Internet pour alimenter leurs robots. Il n’est pas du tout clair que ce soit légal, et les prochaines années verront les tribunaux se débattre avec des questions de droit d’auteur qui auraient semblé être de la science-fiction il y a quelques années. En attendant, le phénomène affecte déjà les consommateurs de manière inattendue.

Elon Musk réagit

Elon Musk, le propriétaire controversé de Twitter, a annoncé de nouvelles limites sur le nombre de tweets que les utilisateurs peuvent lire par jour, qu’ils soient connectés ou non. Il a attribué cette décision aux startups d’intelligence artificielle qui font du scrapping « d’énormes quantités de données » sur Twitter pour entraîner leurs modèles de langage.

Selon Musk, ces pratiques affectent l’expérience des utilisateurs réels et la stabilité du site. Il a donc décidé de mettre en place des paywalls pour permettre d’accéder aux tweets, en fonction du statut de vérification des comptes. Il assure que ce sont des limites « temporaires » sur le nombre de messages que les internautes peuvent lire.

Cependant, la plupart des experts informatiques ont convenu que la limitation du débit de lecture était plus probablement une réponse de crise à des problèmes techniques nés d’une mauvaise gestion, d’une incompétence ou des deux.

La réaction des internautes

Certains estiment qu’il n’y a vraiment rien de nouveau. Celui-ci par exemple explique :

Dans une certaine mesure, cela s’était déjà produit dans le passé.

Il existe partout du scrapping Web qui capture des informations Web accessibles au public, qu’il s’agisse de fragments d’informations spécifiques ou de pages Web entières, le tout devant être stocké sur divers ensembles de données, et il est probable que certains de vos messages sur les réseaux sociaux aient déjà été récupérés par l’un de ces outils.

Certains de ces outils de scrapping pourraient recueillir ces points de données à des fins d’analyse, peut-être que les entreprises qui négocient des actions, par exemple, pourraient utiliser les données afin d’évaluer la perception publique de diverses entreprises, qu’elles peuvent utiliser pour déterminer s’il faut ou non acheter, vendre ou conserver diverses actifs. D’autres outils peuvent également être utilisés pour stocker des parties d’Internet accessibles à tous, comme la Wayback Machine de l’Organisation des archives Internet.

Peut-être que la principale chose qui est importante serait le fait qu’une seule entreprise aurait accès à autant d’informations si facilement, que ce soit via des services en ligne qu’elle possède comme YouTube ou via ses propres outils de scrapping Web internes qu’elle peut utiliser pour accéder à de nombreux sites Web. Pour toute autre entreprise, elles pourraient avoir besoin d’utiliser des scripts personnalisés exécutés sur divers serveurs proxy afin de contourner les blocages des sites Web, et pourraient avoir besoin d’utiliser d’autres outils sophistiqués afin d’obtenir juste une fraction de ce que Google pourrait avoir entre les mains.

Bien sûr, prenez les informations ci-dessus comme bon vous semble. Ce qui sera en effet certain, du moins pour moi, c’est que le débat sur la vie privée et le droit d’auteur va devenir beaucoup plus intéressant.

D’autres ont joué la carte de l’humour. Parlant des éventuelles plaintes contre Google qui puise dans les publications des internautes, il dit « imaginez si nous commençons à être payés pour du shitposting », un autre de lui répondre « nous serions riches » et lui de rétorquer « et considéré comme un peu intelligent! ». Et un autre de s’amuser en disant « … soyons payés en utilisant l’IA pour publier pour nous ». Pour mémoire, le shitposting est une forme moderne de provocation sur Internet. Ce messages sont intentionnellement conçus pour faire dérailler les discussions.

Sources : Developpez – Google

Google indique qu’il va utiliser tout ce que vous allez publier en ligne comme données d’entraînement de son IA

Dans une mise à jour de sa politique de confidentialité.

Un nouveau langage qui n’est pas disponible dans le monde entier

Quand votre contenu peut être utilisé pour former une IA

Elon Musk réagit

La réaction des internautes

Vous aimerez aussi...

Laisser un commentaire Annuler la réponse

Rejoindre Telegram pour éviter la censure

Rejoindre VK pour contourner Facebook

Retrouver une navigation propre et sûre avec Brave

Presearch, le moteur de recherche neutre et respectueux de la vie privée

Catégories

Archives

Liens

Google indique qu’il va utiliser tout ce que vous allez publier en ligne comme données d’entraînement de son IA

Dans une mise à jour de sa politique de confidentialité.

Un nouveau langage qui n’est pas disponible dans le monde entier

Quand votre contenu peut être utilisé pour former une IA

Elon Musk réagit

La réaction des internautes

Vous aimerez aussi...

Les Français sous liberté surveillée… et conditionnelle ?

Des dizaines de personnes confondent un robot avec une femme – et elles pensent qu’elle est «sexy»

Rise, le court-métrage d’un avenir sombre entre l’Homme et les robots

Laisser un commentaire Annuler la réponse

Rejoindre Telegram pour éviter la censure

Rejoindre VK pour contourner Facebook

Retrouver une navigation propre et sûre avec Brave

Presearch, le moteur de recherche neutre et respectueux de la vie privée

Catégories

Archives

Liens