Uma equipa de investigadores criou um programa autónomo que analisa o movimento nas frames de um vídeo e cria os seus próprios efeitos sonoros artificiais para combinar com a cena.
Muitos dos efeitos sonoros que ouvimos nos filmes e na televisão são, na verdade, recriados e editados posteriormente por artistas de Foley, que produzem os sons, usando uma grande quantidade de objetos à sua disposição.
Agora, os investigadores estão a tentar criar uma Inteligência Artificial geradora de efeitos sonoros para ver se consegue fazer o seu trabalho suficientemente bem para enganar a população humana.
“Adicionar efeitos sonoros na pós-produção usando Foley tem sido uma parte intrínseca das trilhas sonoras de filmes e televisão desde os anos 1930”, explicou Jeff Prevost, professor da Universidade do Texas, que co-criou o AutoFoley, de acordo com a IEEE Spectrum. “Os filmes pareceriam vazios e distantes sem a camada controlada de uma trilha sonora realista. No entanto, o processo de síntese de som Foley, portanto, adiciona tempo e custos significativos à criação de um filme”.
Prevost e Sanchita Ghose, estudante de doutoramento, começaram a criar um programa de aprendizagem de máquina em várias camadas. Os investigadores criaram dois modelos diferentes que podem ser usados na primeira etapa, que envolve identificar as ações num vídeo e determinar o som apropriado.
O primeiro modelo de aprendizado de máquina extrai recursos de imagem de frames de vídeos de ação em movimento rápido para determinar um efeito de som apropriado. O segundo modelo analisa a relação temporal de um objeto em frames separados. Usando o raciocínio relacional para comparar diferentes frames ao longo do tempo, o segundo modelo pode antecipar que ação está a acontecer no vídeo.
Numa etapa final, o som é sintetizado para corresponder à atividade ou movimento previsto por um dos modelos. Prevost e Ghose usaram o AutoFoley para criar som para 1.000 clipes de filme curtos capturando uma série de ações comuns, como a queda de chuva, o galope de um cavalo e o tique-taque de um relógio.
A análise mostra que o AutoFoley é melhor na produção de sons onde o tempo não precisa de se alinhar perfeitamente com o vídeo. Porém, é mais provável que o programa fique fora de sincronia com um vídeo quando as cenas visuais contêm ações aleatórias com variação no tempo.
Prevost e Ghose inquiriram 57 estudantes universitários locais em que vídeos achavam que estavam incluídas trilhas sonoras originais. Ao avaliar as trilhas sonoras geradas pelo primeiro modelo, 73% dos alunos escolheu o clipe AutoFoley sintetizado como a peça original em vez do clipe de som verdadeiro. Ao avaliar o segundo modelo, 66% escolheu o AutoFoley em vez do som original.
“Uma limitação na nossa abordagem é o requisito de que o assunto da classificação esteja presente em toda a sequência de quadros do vídeo”, disse Prevost, acrescentando que o AutoFoley depende de um conjunto de dados com categorias limitadas de Foley.
Embora a patente do AutoFoley ainda esteja nos estágios iniciais, Prevost considera que estas limitações serão abordadas em investigações futuras.
O AutoFoley foi descrito num estudo publicado em 25 de junho na revista científica IEEE Transactions on Multimedia.
Terá a ver com a aproximação ao Sol..