L’intelligence artificielle déchiffre les plus vieux écrits du monde


Ces dernières années, l’apprentissage machine s’est concentré sur des questions telles que le transport, les réseaux sociaux ou les assistants virtuels comme Siri et Alexa.

Les scientifiques cherchent constamment à élargir le champ d’application de cette invention incroyable, qui permet au logiciel d’améliorer progressivement ses actions en s’appuyant sur les connaissances acquises au fil des ans.

L’apprentissage machine, également appelé intelligence artificielle en raison de sa capacité à effectuer des tâches avec son propre jugement, a fait l’objet de louanges et de controverses.

Tablette de liste de synonymes cunéiformes de la Bibliothèque d’Ashurbanipal. Période néo-assyrienne (934 av. J.-C. – 608 av. J.-C.). Photo par Fæ CC BY-SA 3.0

Cependant, les algorithmes sophistiqués qui ont servi à vous fournir des annonces sur les réseaux sociaux pourraient avoir un grand avenir en philologie, archéologie et linguistique.

Selon Émilie Pagé-Perron, candidate au doctorat en assyriologie à l’Université de Toronto, nous sommes peut-être plus près que nous ne le pensions de déchiffrer de nombreuses tablettes cunéiformes du Moyen-Orient écrites en sumérien et en akkadien, qui ont toutes plusieurs milliers d’années.

Une inscription akkkadienne

Pagé-Perron est responsable du projet de traduction automatique et d’analyse automatisée des langues cunéiformes, qui se déroule actuellement à Francfort, Toronto et Los Angeles, en utilisant des efforts combinés pour créer un programme capable de traduire les tablettes d’argile.

Ces reliques de langues anciennes imprimées en cunéiforme sont parmi les plus anciens documents écrits connus de l’humanité et étaient surtout utilisés en Mésopotamie (l’Irak actuel) il y a plus de 5 000 ans.

Règles cunéiformes définies pour le jeu royal d’Ur. Les plus anciennes règles connues pour un jeu de plateau (177 av. J.-C.).

Si l’on peut penser que ces scientifiques ne manipulent qu’une poignée de textes, il existe en fait plus de 500 000 tablettes cunéiformes conservées et dispersées dans le monde entier, dont environ 369 000 sont numérisées.

Calendrier zodiacal du cycle de la Vierge. Tablette d’argile de l’époque séleucide, fin du 1er millénaire av. J.-C., copie d’un ancien original. Du site de l’ancienne ville d’Ourouk, en Mésopotamie du Sud (aujourd’hui l’Irak). Photo par Applejuice – Propre travail CC BY-SA 4.0

Bien qu’un grand nombre de tablettes d’argile puissent être visionnées, seul un nombre limité d’entre elles ont été traduites jusqu’à présent. Les textes font allusion à une civilisation avancée qui utilisait le langage écrit dans une large mesure – de l’administration aux mythes, aux prières et à la poésie. En fait, l’épopée de Gilgamesh a été enregistrée pour la première fois en utilisant cette méthode.

Les scientifiques qui développent actuellement le programme qui passerait au crible les centaines de milliers de textes cunéiformes non traduits utilisent un échantillon de 67 000 documents administratifs, dont ils espèrent que le logiciel “apprendra” à déchiffrer les autres.

Tablette d’argile néo-assyrienne. Épopée de Gilgamesh, Tablette 11.

Mais ce n’est pas une tâche facile. Dans une entrevue accordée à CBC en décembre, Émilie Pagé-Perron a décrit en détail le processus d’élaboration du programme :

“Nous utilisons deux méthodes différentes, donc nous entraînons nos algorithmes sur un ensemble spécifique que nous avons créé manuellement, mais nous utilisons aussi des méthodes qui ne nécessitent pas de formation. Nous utilisons les deux et nous essayons de trouver les meilleures méthodes dans les deux camps. Et à la fin du projet, nous espérons les fusionner dans un pipeline qui rendra les meilleurs résultats de traduction automatique possibles.”

Reçu de bière Alulu vers 2050 av. J.-C. de la ville sumérienne d’Umma dans l’Irak ancien.

Il est en effet difficile de traiter de si gros volumes de données, et même si difficile qu’il s’avère impossible pour les chercheurs de le faire. Le nombre de personnes qui connaissent ces langues est très faible et il faudrait des années pour ne traduire qu’une petite fraction d’entre elles.

C’est pourquoi l’AI absorbe les références linguistiques et culturelles des textes écrits en langue sumérienne ancienne datant du 21ème siècle avant J.-C., afin de fournir une base pour une traduction future.

Comprimés miniatures d’argile de Babylone. Photo par M. Kate CC BY-SA 3.0

Ces énormes portions de textes serviront plus tard à des fins comparatives ainsi qu’à produire diverses données statistiques, ce qui est, selon Pagé-Perron, l’objectif premier du projet.

Pendant que les scientifiques continuent d’élaborer les outils avec lesquels le cunéiforme sera traduit, ils ont l’intention de révéler l’ensemble des textes au public, dans l’espoir de fournir des informations à des experts dans d’autres domaines comme l’économie ou la politique.

Parallèlement à la recherche, ils mettent également au point une interface accessible et facile à utiliser qui hébergera les données et les offrira en accès libre sous licence MIT.

Le projet étant déjà en cours, Émilie Pagé-Perron prévoit que les deux équipes termineront leurs recherches d’ici juin, alors que l’ensemble du projet devrait être officiellement fonctionnel en août.

Lire aussi : En Grèce, découverte de la plus vieille trace manuscrite de L’Odyssée d’Homère sur une tablette antique

Source : The Vintage News – Traduit par Anguille sous roche


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *