En observant les humains, les robots apprennent à effectuer des tâches complexes, telles que dresser une table


La formation de robots interactifs pourrait un jour être une tâche facile pour tout le monde, même pour ceux qui n’ont pas de connaissances en programmation.

Les roboticiens développent des robots automatisés qui peuvent apprendre de nouvelles tâches uniquement en observant les humains. À la maison, vous pourriez un jour montrer à un robot domestique comment effectuer des tâches de routine. Sur le lieu de travail, vous pourriez former des robots comme de nouveaux employés, en leur montrant comment effectuer de nombreuses tâches.

Pour concrétiser cette vision, les chercheurs du MIT ont conçu un système qui permet à ces types de robots d’apprendre des tâches compliquées qui, autrement, les empêcheraient d’accomplir un trop grand nombre de règles déroutantes. L’une de ces tâches consiste à mettre la table dans certaines conditions.

Au cœur du système “Planning with Uncertain Specifications” (PUnS), les chercheurs donnent aux robots la capacité de planifier à la manière d’un être humain et de pondérer simultanément de nombreuses exigences ambiguës – et potentiellement contradictoires – pour atteindre un objectif final. Ce faisant, le système choisit toujours l’action la plus probable à entreprendre, sur la base d’une “croyance” concernant certaines spécifications probables pour la tâche qu’il est censé accomplir.

Dans leur travail, les chercheurs ont compilé un ensemble de données contenant des informations sur la façon dont huit objets – tasse, verre, cuillère, fourchette, couteau, assiette, petite assiette et bol – peuvent être placés sur une table selon différentes configurations. Un bras robotique a d’abord observé des démonstrations humaines choisies au hasard pour mettre la table avec les objets. Ensuite, les chercheurs ont chargé le bras de mettre automatiquement la table dans une configuration spécifique, dans le cadre d’expériences réelles et de simulations, en se basant sur ce qu’il avait vu.

Pour réussir, le robot a dû peser de nombreux ordres de placement possibles, même lorsque les objets étaient volontairement retirés, empilés ou cachés. Normalement, tout cela confondrait trop les robots. Mais le robot des chercheurs n’a commis aucune erreur au cours de plusieurs expériences en situation réelle, et seulement une poignée d’erreurs sur des dizaines de milliers d’essais simulés.

“La vision est de mettre la programmation entre les mains d’experts du domaine, qui peuvent programmer les robots de manière intuitive, plutôt que de décrire des ordres à un ingénieur pour qu’il les ajoute à leur code”, explique le premier auteur Ankit Shah, étudiant diplômé du Department of Aeronautics and Astronautics (AeroAstro) et de Interactive Robotics Group, qui souligne que leur travail n’est qu’une étape dans la réalisation de cette vision. “De cette façon, les robots n’auront plus à effectuer des tâches préprogrammées. Les ouvriers d’usine peuvent apprendre à un robot à effectuer de multiples tâches d’assemblage complexes. Les robots domestiques peuvent apprendre à empiler des armoires, à charger le lave-vaisselle ou à mettre la table à partir de la maison.”

Shen Li, étudiant diplômé d’AeroAstro et du Interactive Robotics Group, et Julie Shah, chef du Interactive Robotics Group, professeur associé d’AeroAstro et du laboratoire d’informatique et d’intelligence artificielle, se joignent à M. Shah sur le sujet.

Les robots sont de bons planificateurs de tâches avec des “spécifications” claires, qui aident à décrire la tâche que le robot doit accomplir, en tenant compte de ses actions, de son environnement et de son objectif final. Apprendre à mettre la table en observant des démonstrations, c’est apprendre à mettre la table en observant des spécifications incertaines. Les articles doivent être placés à certains endroits, en fonction du menu et de l’endroit où les invités sont assis, et dans certains ordres, en fonction de la disponibilité immédiate d’un article ou des conventions sociales. Les approches actuelles de la planification ne sont pas en mesure de traiter de telles spécifications incertaines.

Une approche populaire de la planification est l’apprentissage par renforcement, une technique d’apprentissage par essais et erreurs qui récompense et pénalise les personnes qui agissent dans le cadre d’une tâche. Mais pour les tâches dont les spécifications sont incertaines, il est difficile de définir des récompenses et des pénalités claires. En bref, les robots n’apprennent jamais complètement le bien du mal.

Le système des chercheurs, appelé PUnS (pour Planning with Uncertain Specifications), permet à un robot d’avoir une “croyance” sur une série de spécifications possibles. La croyance elle-même peut ensuite être utilisée pour distribuer des récompenses et des pénalités. “Le robot couvre essentiellement ses paris en termes de ce qui est prévu dans une tâche, et prend des mesures qui satisfont sa croyance, au lieu que nous lui donnions une spécification claire”, explique Ankit Shah.

Le système est construit sur une logique temporelle linéaire (LTL), un langage expressif qui permet au robot de raisonner sur les résultats actuels et futurs. Les chercheurs ont défini des modèles dans la LTL qui modélisent diverses conditions temporelles, telles que ce qui doit se produire maintenant, doit se produire éventuellement et doit se produire jusqu’à ce que quelque chose d’autre se produise. L’observation par le robot de 30 démonstrations humaines pour mettre la table a permis d’obtenir une distribution de probabilité sur 25 formules LTL différentes. Chaque formule codait une préférence – ou une spécification – légèrement différente pour l’établissement de la table. Cette distribution de probabilité devient sa croyance.

“Chaque formule code quelque chose de différent, mais lorsque le robot considère différentes combinaisons de tous les modèles, et essaie de tout satisfaire ensemble, il finit par faire la bonne chose”, dit Ankit Shah.

Critères suivants

Les chercheurs ont également développé plusieurs critères qui guident le robot vers la satisfaction de l’ensemble des croyances sur ces formules candidates. L’un d’eux, par exemple, satisfait la formule la plus probable, ce qui écarte tout le reste, à l’exception du modèle ayant la plus grande probabilité. D’autres satisfont le plus grand nombre de formules uniques, sans tenir compte de leur probabilité globale, ou ils satisfont plusieurs formules qui représentent la probabilité totale la plus élevée. Un autre minimise simplement l’erreur, de sorte que le système ignore les formules ayant une forte probabilité d’échec.

Les concepteurs peuvent choisir l’un des quatre critères à prérégler avant la formation et les tests. Chacun a son propre compromis entre la flexibilité et l’aversion au risque. Le choix des critères dépend entièrement de la tâche à accomplir. Dans les situations critiques en matière de sécurité, par exemple, un concepteur peut choisir de limiter la possibilité d’échec. Mais lorsque les conséquences d’une défaillance ne sont pas aussi graves, les concepteurs peuvent choisir de donner aux robots une plus grande flexibilité pour essayer différentes approches.

Une fois les critères en place, les chercheurs ont développé un algorithme pour convertir la croyance du robot – la distribution de probabilité pointant vers la formule souhaitée – en un problème d’apprentissage de renforcement équivalent. Ce modèle permet de donner au robot une récompense ou une pénalité pour une action qu’il entreprend, en fonction de la spécification qu’il a décidé de suivre.

Dans les simulations demandant au robot de mettre la table dans différentes configurations, il n’a fait que six erreurs sur 20 000 essais. Dans des démonstrations en situation réelle, il a montré un comportement similaire à celui d’un humain. Si un objet n’était pas visible au départ, par exemple, le robot finissait de mettre le reste de la table sans l’objet. Puis, lorsque la fourchette était révélée, il la plaçait à la bonne place. “C’est là que la flexibilité est très importante”, dit Shah. “Sinon, il resterait bloqué lorsqu’il s’attend à placer une fourchette et ne finirait pas de mettre le reste de la table en place.”

Ensuite, les chercheurs espèrent modifier le système pour aider les robots à modifier leur comportement en fonction des instructions verbales, des corrections ou de l’évaluation des performances du robot par l’utilisateur. “Supposons qu’une personne montre à un robot comment mettre une table à un seul endroit. La personne peut dire : ‘Faites la même chose pour tous les autres endroits’ ou ‘Placez plutôt le couteau devant la fourchette'”, explique Shah. “Nous voulons développer des méthodes permettant au système de s’adapter naturellement pour traiter ces commandes verbales, sans avoir besoin de démonstrations supplémentaires.”

Lire aussi : Flippy le robot devient un nouveau chef Burger

Source : Tech Xplore – Traduit par Anguille sous roche


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *