Cientistas conseguiram extrair sons de uma imagem parada

Matthew Modoono / Northeastern University

Investigadores da Universidade Northeastern desenvolveram um método para extrair áudio de imagens estáticas e vídeos sem som — um conceito inspirado pela série de ficção científica Fringe.

Segundo um novo estudo, quando tiramos uma fotografia com um smartphone, as vibrações da nossa voz podem causar pequenas distorções na luz capturada pela lente — que são suficientes para extrair da imagem o som correspondente.

O estudo, liderado por Kevin Fu, professor de Engenharia e Ciência de Computadores da Northeastern University, foi apresentado no Simpósio IEEE 2023 sobre Segurança e Privacidade e também está disponível no servidor de pré-impressão arXiv.

Na maioria dos smartphones modernos usa tecnologias de estabilização de imagem para reduzir a trepidação da câmara, explica Fu numa nota de imprensa publicada no site da universidade.

Quando um ruído ocorre perto da lente da câmara, as molas do mecanismo de estabilização vibram, alterando subtilmente a luz capturada — e o obturador de varrimento da câmara, que analisa a imagem uma fila de pixeis de cada vez, amplifica essa vibração.

Aplicando um algoritmo de machine learning chamado “Side Eye“, os investigadores conseguiram extrair áudio destas fotografias.

A ideia foi inspirada num episódio da série de ficção científica “Fringe”, no qual os personagens principais — uma equipa de investigadores ao serviço do FBI — extraia ficheiros de áudio de um painel de vidro fundido. Quando o episódio foi emitido, alguns críticos classificaram a cena como “uma técnica pseudo-científica”.

Mas Kevin Fu discordou.

Testes realizados em dez smartphones diferentes mostraram que o sistema poderia reconhecer números falados com 80,66% de precisão, identificar oradores com 91,28% de precisão e até adivinhar o género dos oradores com 99,67% de precisão.

Esta tecnologia pode ter vastas aplicações, particularmente na resolução de questões judiciais — onde pode vir a ser usada, por exemplo, para confirmar alibis.

No entanto, suscita também preocupações importantes relacionadas com questões de cibersegurança e privacidade.

Com efeito, indivíduos mal intencionados poderiam eventualmente extrair informações de áudio a partir de imagens ou vídeos que originalmente não tinham captado intencionalmente qualquer áudio.

A equipa de investigadores está assim a considerar várias soluções para este problema, como o reforço das molas nos mecanismo de estabilização de imagem ou a aleatoriedade do método de captura de pixels do obturador de varrimento.

Na prática, os investigadores criaram um monstrinho no laboratório… e já estão à procura de uma trela para o poder levar a passear.

ZAP //

Subscreva aqui a newsletter ZAP

Siga-nos no WhatsApp

Siga-nos no Google News

1 Comment

ze tuga diz:

1 Outubro, 2023 às 11:16

” e até adivinhar o género dos oradores com 99,67% de precisão.” Gostei desse adivinhar. Consegue então adivinhar o género se é de patos ou de galináceos, ou de suínos ou caprinos.
Porque será que duvido desse adivinhar.

Responder