A “google” chinesa, Baidu, acaba de lançar um documento que mostra o seu mais recente desenvolvimento em Inteligência Artificial (IA): um programa que pode clonar vozes depois de analisar até um clip de segundos de duração, usando uma rede neural.
Não só o software consegue imitar uma voz, como pode alterá-la para refletir outro género ou mesmo um sotaque diferente. Pode ouvir alguns dos exemplos gerados aqui, hospedados no GitHub.
As iterações anteriores desta tecnologia permitiram a clonagem de voz depois de os sistemas analisarem amostras de voz mais longas. Em 2017, a equipa de pesquisa Baidu Deep Voice introduziu tecnologia que poderia clonar vozes com 30 minutos de material de treino.
A Adobe tem um programa chamado VoCo que pode imitar uma voz com apenas 20 minutos de áudio. Uma inicialização canadiana, chamada Lyrebird, pode clonar uma voz com apenas um minuto de áudio.
A inovação do Baidu reduziu ainda mais esse tempo para poucos segundos. Enquanto no início isso pode parecer uma atualização de tecnologia que se tornou popular nos anos 90, com a ajuda de “Home Alone 2” e “Scream”, existem realmente algumas aplicações nobres para essa tecnologia.
Por exemplo: imagine o seu filho ouvir uma história contada com a sua voz, enquanto está longe, ou ter uma voz duplicada criada para uma pessoa que não consegue falar.
Esta tecnologia também pode ser usada para criar assistentes digitais personalizados e serviços de tradução de voz mais naturais. No entanto, como em muitas tecnologias, a clonagem de voz também vem com o risco de ser abusada, ou simplesmente mal usada.
A New Scientist informa que o programa foi capaz de produzir uma voz que enganou o software de reconhecimento de voz com uma precisão de mais de 95% nos testes. Os seres humanos até avaliaram a voz clonada com uma pontuação de 3.16 em 4. Isso poderia abrir a possibilidade de fraude assistida por IA.
Existem programas que podem usar a IA para substituir ou alterar – e até mesmo gerar a partir do zero – os rostos dos indivíduos em vídeos. Agora, isso é principalmente usado na internet para trazer gargalhados aos utilizadores ao inserir Nicolas Cage na série Senhor dos Anéis.
Mas, com a tecnologia que pode clonar vozes, em breve podemos ser bombardeadas com mais “notícias falsas” de políticos a fazer ou dizer coisas que na verdade não fizeram.
Já é muito fácil enganar pessoas usando apenas a palavra escrita ou ferramentas como o Photoshop. Se tecnologias como esta da Baidu forem colocadas nas mãos erradas, pode haver ainda mais problemas.
ZAP // Science Alert