Fausses voix : L’IA sera bientôt capable de copier n’importe quelle voix humaine


“La plus grande perte causée par l’IA sera la destruction totale de la confiance dans tout ce que vous voyez ou entendez”, dit un article de Wired, composant probablement l’une des phrases les plus profondes que j’aie jamais lues dans un article grand public.

Presque tous les types d’entités qui contrôlent notre monde, les entreprises, les universités et les gouvernements travaillent déjà “d’arrache-pied” pour analyser et comprendre parfaitement la voix humaine afin de la reproduire. Alors que d’innombrables luttes de pouvoir sur le développement d’une technologie particulière se sont déroulées au cours du siècle dernier, il semble qu’une course au décodage de la voix humaine est en cours.

Imaginez un monde où le son de la voix d’une personne n’est pas une preuve solide de la personne qui parle : où vous pourriez entendre un membre de votre famille parler d’une autre partie de la maison et penser qu’il est là, mais ce n’est pas le cas. Un robot copie leur voix et ils sont ailleurs.

Des pays comme les États-Unis, la Chine et l’Estonie sont entrés dans ce territoire, et des entités qui s’approchent du pouvoir de petits pays comme Facebook, Google, Apple et Amazon tentent d’imiter parfaitement les voix des individus.

Il n’est déjà pas très difficile de créer une voix artificielle, puis de la faire absorber et reproduire des mots et des phrases, comme nos smartphones le font actuellement (comme Siri). Selon Wired :

“Faire une voix naturelle implique des algorithmes beaucoup plus complexes et coûteux sur le plan informatique. Mais cette technologie est maintenant disponible.

Comme tout orthophoniste peut en témoigner, la voix humaine est bien plus qu’une vibration des cordes vocales. Ces vibrations sont causées par l’air qui s’échappe de nos poumons et qui force nos plis vocaux à s’ouvrir, un processus qui produit des tonalités aussi uniques qu’une empreinte digitale à cause des milliers de formes d’onde qui sont évoquées simultanément et en chœur. Mais l’unicité d’une voix est aussi liée à des qualités que nous considérons rarement, comme l’intonation, l’inflexion et le rythme.”

Les facteurs énumérés ci-dessus et plus encore contribuent à la mosaïque qui est la voix humaine d’un individu.

Fondamentalement, si un gouvernement ou une institution a de l’argent, ils peuvent payer les chercheurs pour poursuivre la tâche ardue d’énumérer tous les facteurs qui font de la voix humaine ce qu’elle est (inflexion, rythme, intonation), et puis ils peuvent développer cette technologie pour imiter la voix d’une personne.

Un des logiciels mis au point par Adobe s’appelle “Photoshop of soundwaves” : c’est Project Voco.

Il fonctionne en substituant des formes d’onde aux pixels, pour créer essentiellement un pont entre les enregistrements vocaux et imiter une voix humaine à un son naturel.

Adobe croit que si suffisamment de discours d’une personne peuvent être enregistrés (ou récoltés par la surveillance, bien sûr), on pourrait tout simplement couper et coller la parole artificielle dans un enregistrement.

On dit que les premiers résultats d’Adobe avec le logiciel sont inquiétants.

Suite de l’article de Wired, qui est étonnamment exact :

“D’ici 2018, un acteur malfaisant peut facilement créer une imitation vocale assez bonne pour tromper, confondre, énerver ou mobiliser le public. La plupart des citoyens à travers le monde seront tout simplement incapables de discerner la différence entre un faux Trump ou n’importe qui et le vrai.

Si l’on considère la méfiance généralisée des médias, des institutions et des gardiens experts, la contrefaçon audio peut être plus que perturbatrice. Ça pourrait déclencher des guerres. Imaginez les conséquences de la fabrication audio d’un leader mondial faisant des remarques belliqueuses, soutenues par une vidéo truquée. En 2018, les citoyens (ou les généraux militaires) pourront-ils déterminer que c’est faux ?”

Source : The Mind Unleashed


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *