L’IA traduit des messages de langues perdues depuis longtemps

Les chercheurs du MIT et de Google utilisent l’apprentissage profond pour déchiffrer les langues anciennes.

  • Des chercheurs du MIT et de Google Brain découvrent comment utiliser l’apprentissage profond pour déchiffrer les langues anciennes.
  • Cette technique peut être utilisée pour lire des langues mortes depuis longtemps.
  • La méthode s’appuie sur la capacité des machines à accomplir rapidement des tâches monotones.

Environ 6 500 à 7 000 langues sont actuellement parlées dans le monde. Mais c’est moins d’un quart de toutes les langues parlées au cours de l’histoire de l’humanité. Ce nombre total est d’environ 31 000 langues, selon certaines estimations linguistiques. Chaque fois qu’une langue est perdue, il en va de même de cette façon de penser, de se rapporter au monde. Les relations, la poésie de la vie décrite de façon unique à travers cette langue sont également perdues. Et si vous saviez lire les langues mortes ? Des chercheurs du MIT et de Google Brain ont créé un système basé sur l’intelligence artificielle qui permet d’y parvenir.

Bien que les langues changent, de nombreux symboles et la façon dont les mots et les caractères sont distribués demeurent relativement constants au fil du temps. À cause de cela, vous pourriez tenter de décoder une langue perdue depuis longtemps si vous compreniez sa relation avec une langue progénitrice connue. C’est ce qui a permis à l’équipe qui comprenait Jiaming Luo et Regina Barzilay du MIT et Yuan Cao du laboratoire d’intelligence artificielle de Google d’utiliser l’apprentissage automatique pour déchiffrer la langue grecque ancienne linéaire B (de 1400 av. J.-C.) et une langue ougaritique cunéiforme (ancien hébreu) qui a également plus de 3 000 ans.

Linéaire B a déjà été craqué par un humain – en 1953, il a été déchiffré par Michael Ventris. Mais c’était la première fois que le langage était compris par une machine.

L’approche des chercheurs s’est concentrée sur 4 propriétés clés liées au contexte et à l’alignement des caractères à déchiffrer – similarité distributionnelle, cartographie monotone des caractères, rareté structurelle et chevauchement important des caractères apparentés.

Ils ont formé le réseau d’IA à la recherche de ces traits, obtenant ainsi la traduction correcte de 67,3% des mots apparentés à linéaire B (mot d’origine commune) en leurs équivalents grecs.

Ce que l’IA peut potentiellement mieux faire dans de telles tâches, selon le MIT Technology Review, c’est qu’elle peut simplement adopter une approche de force brute qui serait trop épuisante pour les humains. Elle peut tenter de traduire les symboles d’un alphabet inconnu en le testant rapidement contre les symboles d’une langue après l’autre, en les faisant passer dans tout ce qui est déjà connu.

Prochaine étape pour les scientifiques ? Peut-être la traduction de linéaire A – la langue grecque ancienne que personne n’a réussi à déchiffrer jusqu’à présent.

Vous pouvez consulter leur article “Neural Decipherment via Minimum-Cost Flow : from Ugaritic to Linear B” ici.

Lire aussi : L’intelligence artificielle déchiffre les plus vieux écrits du monde

Source : Big Think – Traduit par Anguille sous roche

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *