La nouvelle IA de Google apprend de son environnement et peut devenir très agressive

Des précautions ont été émises au sujet du système d’intelligence artificielle DeepMind de Google après la découverte que le robot avait la capacité d’apprendre indépendamment de sa propre mémoire et qu’il peut même devenir agressif dans certaines situations.

Un précédent avertissement sur l’avancement de l’intelligence artificielle a été émis l’année dernière par Stephen Hawking, prétendant que ce sera soit «la meilleure, ou la pire chose, qui ne soit jamais arrivé à l’humanité». Et il semble que ce scénario puisse devenir réalité si des précautions ne sont pas prises. Les résultats des tests de comportement récents du nouveau système DeepMind de Google ont démontré l’avancement indépendant des robots, et comment il pourrait même battre les meilleurs joueurs du monde à leur propre jeu, ainsi que trouver comment imiter sans faille une voix humaine.

Depuis, les chercheurs ont testé la volonté du robot à coopérer avec d’autres et ont annoncé leurs résultats en expliquant que lorsque DeepMind pense pouvoir perdre, il opte pour des stratégies qui ont été étiquetées comme «très agressives» pour lui permettre d’assurer sa victoire. Le test qui a conduit à cette découverte a été à travers un jeu informatique de «collecte de fruits». L’équipe Google a effectué 40 millions de tours du jeu simple qui a demandé à deux agents DeepMind de rivaliser entre eux, où ils ont dû récupérer autant de pommes virtuelles qu’ils le pouvaient. Les résultats ont démontré que tant qu’il y avait beaucoup de pommes pour les deux, il n’y avait pas de problème, mais dès que les pommes ont commencé à diminuer, les deux agents ont commencé à devenir très agressifs et a utilisé des faisceaux laser pour se frapper mutuellement hors du jeu afin de voler les pommes des adversaires pour eux-mêmes.

Ces résultats différaient des itérations «moins intelligentes» de DeepMind, qui ont choisi de ne pas utiliser les faisceaux laser lorsqu’ils ont reçu le même test, ce qui signifie qu’ils pourraient se retrouver avec des parts égales de pommes. Rhett Jones a rapporté pour Gizmodo que lorsque les chercheurs ont utilisé de plus petits réseaux DeepMind comme agents, il y avait une plus grande probabilité de coexistence pacifique. Cependant, au fur et à mesure que des réseaux plus complexes d’agents commençaient à apparaître, le sabotage était de plus en plus probable.

Les chercheurs ont alors suggéré que plus l’agent était intelligent, plus il était capable d’apprendre de son environnement, ce qui lui a permis d’utiliser des tactiques très agressives pour s’assurer d’être le meilleur. Joel Z Leibo, un membre de l’équipe, a déclaré à Matt Burgess chez Wired : «Ce modèle montre que certains aspects du comportement humain ressemblent à un produit de l’environnement et de l’apprentissage. Des politiques moins agressives émergent de l’apprentissage dans des environnements relativement abondants avec moins de possibilités d’actions coûteuses. La motivation de l’avidité reflète la tentation de prendre un rival et de recueillir toutes les pommes soi-même.”

Pour contrer cela, un autre jeu a été présenté aux agents, qui leur a enseigné que la coopération entre eux pourrait leur rapporter des récompenses plus élevées. Cela a été un succès et a démontré que lorsque les systèmes d’IA sont mis dans des situations différentes, il doit y avoir un équilibre qui signifie que l’atteinte d’un but peut bénéficier aux humains par-dessus tout et que la réalisation de cela serait le meilleur résultat pour eux. D’autres tests seront maintenant effectués pour s’assurer que les systèmes d’IA auront toujours les intérêts des gens à cœur.

Source : TruthTheory

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *