Nossas
Publicações

Sua voz pode ser clonada

Voice

Matéria de James Vincent, publicada no site THE VERGE.

Na semana passada, uma startup canadense chamada Lyrebird revelou seu primeiro produto: um conjunto de algoritmos que a empresa alega poder clonar a voz de qualquer pessoa ouvindo apenas um minuto de áudio de amostra.

Alguns anos atrás isso seria impossível, mas a proeza analítica da aprendizagem mecânica provou ser um ajuste perfeito para as idiossincrasias da fala humana. Usando inteligência artificial, empresas como a Google foram capazes de criar vozes sintetizadas incrivelmente “life-like”, enquanto a Adobe revelou seu próprio protótipo de software chamado Project VoCo que pode editar o discurso humano como Photoshop ajusta imagens digitais.

Mas enquanto o Project VoCo requer pelo menos 20 minutos de áudio de amostra antes que ele possa imitar uma voz, o Lyrebird reduz esses requisitos para apenas 60 segundos. Os resultados certamente não são indistinguíveis da fala humana, mas eles são impressionantes mesmo assim, e sem dúvida melhorarão com o tempo. Ouça aqui as vozes sintetizadas de Donald Trump, Barack Obama e Hillary Clinton discutindo a startup.

Lyrebird diz que seus algoritmos também podem alterar a emoção do discurso que ele cria, deixando os clientes fazerem as vozes parecerem zangadas, simpáticas ou estressadas. A fala resultante pode ser colocada em uma ampla gama de usos, diz Lyrebird, incluindo leitura de livros com vozes famosas, para dispositivos conectados de qualquer tipo, para síntese de voz para pessoas com deficiência, para filmes de animação ou para estúdios de videogame. “É preciso um pouco de poder de computação para gerar uma voz de impressão, mas uma vez feito, o discurso é fácil de fazer – Lyrebird pode criar mil frases em menos de meio segundo.

Há usos mais preocupantes também. Já sabemos que os geradores sintéticos de voz podem enganar o software biométrico usado para verificar a identidade. Programas de AI podem gerar fotos e videos falsos muito convincentes de qualquer pessoa. Por exemplo, esta pesquisa de 2016 usa mapeamento 3D para transformar vídeos de políticos famosos, incluindo George W. Bush e Vladimir Putin, em “fantoches” em tempo real. Combine isso com um sintetizador de voz realista e você poderia ter um vídeo no Facebook de Donald Trump anunciando que os EUA estão bombardeando a Coréia do Norte viralizado antes que você saiba.

Em uma seção de “Ética” no site da empresa, os fundadores da Lyrebird (três estudantes universitários da Universidade de Montréal) reconhecem que sua tecnologia “levanta importantes questões sociais”, inclusive questionando a veracidade das gravações de áudio usadas no tribunal. “Isto poderia potencialmente ter conseqüências perigosas tais como fraude e problemas causado pelo roubo de identidade de alguma outra pessoa,” escrevem.

Sua solução é liberar a tecnologia publicamente e torná-la “disponível para qualquer pessoa”. Dessa forma, dizem eles, o dano será diminuído porque “todos logo estarão cientes de que tal tecnologia existe”. Falando a The Verge, Alexandre de Brébisson, da Lyrebird, acrescenta: “A situação é comparável ao Photoshop. As pessoas estão agora cientes de que as fotos podem ser falsificadas. Acho que no futuro, as gravações de áudio vão se tornar cada vez menos confiáveis ​​[como evidência].”

Por enquanto, a tecnologia Lyrebird ainda está em desenvolvimento, e a empresa não quer discutir preços. Mas de Brébisson diz que mais de 6.000 pessoas já se inscreveram para acesso antecipado às suas APIs, e o Lyrebird está trabalhando para melhorar seus algoritmos, incluindo adicionar suporte para diferentes idiomas como o francês. “Esta tecnologia vai acontecer”, diz de Brébisson. “Se não somos nós, será outra pessoa.”