Microsoft dévoile VALL-E, une IA de synthèse vocale qui peut être entraînée en 3 secondes seulement


L’IA arrive-t-elle maintenant pour les artistes vocaux ?

Des chercheurs de la société Microsoft ont dévoilé leur dernier générateur de synthèse vocale, VALL-E, qui peut être entraîné à imiter la voix de n’importe qui en trois secondes seulement. Contrairement aux précédents générateurs de voix qui avaient un son robotique, VALL-E a un son naturellement humain, et ce n’est peut-être pas une très bonne chose.

Les générateurs de synthèse vocale, qui ont donné une voix à l’un des plus grands esprits de la planète, Stephen Hawking, ont parcouru un long chemin. De la lecture de messages sur votre smartphone à la lecture des pages d’un livre, ces services sont désormais partout et utilisés par tous.

De grandes entreprises technologiques telles que Google, Meta et Microsoft ont également travaillé dans ce domaine pour rendre leurs produits plus accessibles. Cependant, ces produits n’ont pas pour but d’imiter la voix de l’utilisateur et nécessitent d’innombrables heures de formation pour y parvenir.

Les capacités époustouflantes de VALL-E

Les générateurs de TTS traditionnels s’appuient sur la manipulation de formes d’onde pour synthétiser la parole. VALL-E, en revanche, génère des codecs audio discrets à partir du texte et des invites audio et les utilise pour les faire correspondre à ce qu’il sait de la façon dont la voix sonnerait si elle prononçait d’autres phrases.

L’équipe de recherche affirme que l’invite audio, dans ce cas, pourrait être aussi courte que trois secondes, et que cela suffirait à VALL-E pour faire son travail. Cela fait de VALL-E un générateur de TTS “zero-shot”, où le logiciel observe des échantillons qu’il n’a pas observés pendant la formation.

Il est intéressant de noter que l’entraînement de VALL-E a été effectué à l’aide de LibriLight, une bibliothèque audio constituée par Meta et contenant près de 60 000 heures de discours en langue anglaise provenant des livres audio LibriVox disponibles dans le domaine public.

Ce que VALL-E réussit à faire, c’est de faire correspondre l’échantillon audio de trois secondes à la voix de l’une des 7 000 personnes qu’il a entraînées, puis de prononcer le texte avec une voix similaire à celle des données d’entraînement afin d’obtenir une réponse mimétique précise.

Microsoft affirme que VALL-E peut non seulement simuler les voix dans un environnement acoustique, comme un appel téléphonique, mais aussi délivrer le discours en fonction de l’émotion utilisée dans l’invite du locuteur, ce qui le rend beaucoup plus personnalisé et naturel.

Ce que cela pourrait donner

Bien qu’il s’agisse d’un grand bond en avant pour la technologie, il n’est pas très surprenant. Cela peut s’expliquer par le fait qu’elle suit de près le succès de ChatGPT, dont l’algorithme est capable de rédiger des dissertations pour des étudiants, et pourrait aussi bien écrire cet article s’il n’était pas si occupé.

L’autre produit d’OpenAI, DALL:E, peut produire des images en réponse à des demandes de texte, et maintenant la technologie de Microsoft pourrait faire revivre la voix d’un acteur décédé depuis longtemps dans un futur film. L’intérêt de ces technologies semble être de permettre aux entreprises d’économiser de l’argent en ne payant qu’une fraction de ce qu’elles paient à un être humain.

Cependant, la technologie pourrait également être utilisée pour usurper la présence d’un autre humain en lançant un appel de détresse ou en accédant à des informations sensibles verrouillées par des mots de passe vocaux. Microsoft détient peut-être actuellement les clés permettant d’éviter une telle manipulation, mais comme nous l’avons déjà vu avec les technologies d’IA, il ne faut pas longtemps pour qu’elles soient copiées et appliquées à des fins néfastes.

Lire aussi : L’IA créatrice d’images DALLE-2 peut désormais être utilisée par tout le monde

Source : Interesting Engineering – Traduit par Anguille sous roche


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *