Le modèle d’IA d’une étudiante en ingénierie transforme la langue des signes américaine en anglais en temps réel


Elle a publié sont travail sur GitHub.

Le modèle d’IA de Gupta peut détecter six signes ASL. Priyanjali Gupta/GitHub

Priyanjali Gupta, étudiante en ingénierie, n’a pas de grandes histoires à raconter sur l’inspiration de son modèle d’intelligence artificielle qui traduit immédiatement l’American Sign Language (ASL) en anglais.

Le facteur déterminant a été sa mère, qui lui a demandé “de faire quelque chose maintenant qu’elle étudie l’ingénierie”, une déclaration reprise par la plupart des mères indiennes. Gupta est une étudiante en troisième année d’informatique, spécialisée dans la science des données, de l’Institut de technologie de Vellore, dans le Tamil Nadu.

C’était en février 2021.

“Elle s’est moquée de moi. Mais elle m’a fait contempler ce que je pouvais faire avec mes connaissances et mon ensemble de compétences. Un beau jour, au milieu de conversations avec Alexa, l’idée d’une technologie inclusive m’a frappé. Cela a déclenché une série de plans”, a déclaré Gupta, de Delhi, à Interesting Engineering.

En février 2022, un an après la remarque de sa mère, Gupta a créé un modèle d’IA exploitant l’API de détection d’objets de Tensorflow. Il utilise l’apprentissage par transfert grâce à un modèle pré-entraîné appelé ssd_mobilenet. Sa publication sur LinkedIn est devenue virale, avec plus de 58 000 réactions et 1 000 personnes appréciant son idée, qui comble le fossé et crée une onde dans la technologie inclusive.

“L’ensemble de données est réalisé manuellement en exécutant le fichier Python Image Collection qui collecte les images de votre webcam pour ou tous les signes mentionnés ci-dessous dans la langue des signes américaine : Bonjour, Je t’aime, Merci, S’il te plaît, Oui et Non”, indique son post Github.

Mme Gupta attribue l’inspiration de son modèle à la vidéo de Nicholas Renotte, spécialiste des données, sur la détection en temps réel de la langue des signes.

“L’ensemble de données est réalisé manuellement avec une webcam d’ordinateur et des annotations données. Le modèle, pour l’instant, est entraîné sur des images uniques. Pour détecter des vidéos, le modèle doit être entraîné sur plusieurs images, ce pour quoi je suis susceptible d’utiliser un LSTM. Je suis actuellement en train de faire des recherches à ce sujet”, explique Mme Gupta. Les réseaux de mémoire à long et court terme, ou LSTM, ont été considérés comme une solution efficace pour résoudre les problèmes de prédiction de séquences en science des données.

Gupta reconnaît que créer un modèle d’apprentissage profond à partir de zéro pour la détection de signes n’est pas le plus facile. “Fabriquer un réseau neuronal profond uniquement pour la détection de signes est plutôt complexe”, a-t-elle déclaré à l’IE. Elle répond à l’un des commentaires dans le même sens : “Je ne suis qu’une étudiante amateur, mais j’apprends. Et je crois que, tôt ou tard, notre communauté open source, qui est beaucoup plus expérimentée que moi, trouvera une solution.”

Un petit pas vers l’inclusivité

Bien que l’ASL soit prétendument la troisième langue la plus utilisée aux États-Unis, derrière l’anglais et l’espagnol, les applications et technologies permettant de la traduire dans une autre langue n’ont pas encore rattrapé leur retard. Cependant, le Zoom Boom, qui a été accéléré par la pandémie, a mis la langue des signes sous les projecteurs. Ainsi, les chercheurs de Google AI ont présenté un modèle de détection de la langue des signes en temps réel, capable d’identifier les personnes qui signent avec une précision allant jusqu’à 91 %.

“Selon moi, les chercheurs et les développeurs font de leur mieux pour trouver une solution qui puisse être mise en œuvre. Toutefois, je pense que la première étape consisterait à normaliser les langues des signes et les autres modes de communication avec les personnes handicapées et à s’efforcer de combler le fossé de la communication”, déclare Mme Gupta.

Lire aussi : Ce nouveau café de Tokyo a des robots serveurs contrôlés à distance par des travailleurs handicapés

Source : Interesting Engineering – Traduit par Anguille sous roche


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *