Vibrações dos telemóveis permitem decifrar e escutar conversas à distância

Uma equipa de investigadores recorreu a um sensor de radar de micro-ondas para recolher conversas a partir das vibrações de smartphones e adaptou um modelo de reconhecimento de voz de grande escala integrado com Inteligência Artificial, para transcrever essas vibrações em discurso reconhecível.

Uma forma emergente de vigilância, conhecida como wireless-tapping, explora a possibilidade de descodificar remotamente conversas a partir das minúsculas vibrações produzidas pelo altifalante de ouvido de um telemóvel.

Com o objetivo de proteger a privacidade dos utilizadores contra potenciais agentes mal-intencionados, uma equipa de investigadores da Penn State Uiversity, nos EUA, demonstrou que é possível gerar transcrições de chamadas telefónicas a partir de medições de radar realizadas até três metros  de distância de um telefone.

Embora a precisão ainda seja limitada — cerca de 60% para um vocabulário de até 10.000 palavras — as conclusões levantam questões importantes sobre riscos futuros para a privacidade.

Os resultados do estudo foram apresentados num artigo recentemente publicado na Proceedings of WiSec 2025.

O trabalho baseia-se num projeto de 2022 no qual a equipa utilizou um sensor de radar e software de reconhecimento de voz que permitiu identificar remotamente 10 palavras, letras e números pré-definidos, com uma precisão de até 83%.

“Quando falamos ao telemóvel, tendemos a ignorar as vibrações que passam pelo altifalante de ouvido e fazem vibrar todo o aparelho”, explica Suryoday Basak, doutorando em Ciências da Computação da Penn State e primeiro autor do artigo, em comunicado da universidade.

“Se capturarmos essas mesmas vibrações usando radares remotos e recorrermos a machine learning para nos ajudar a compreender o que está a ser dito, utilizando pistas contextuais, conseguimos determinar conversas inteiras. Ao percebermos o que é possível, podemos ajudar o público a estar consciente dos potenciais riscos”, acrescenta o investigador.

Basak e o seu orientador, Mahanth Gowda, professor associado Engenharia da Computação e coautor do artigo, usaram um sensor de radar de ondas milimétricas para explorar o potencial de dispositivos compactos, baseados em radar, que poderiam ser miniaturizados para caber dentro de objetos do quotidiano, como canetas.

As ondas milimétricas são um tipo de micro-ondas na gama de frequências entre 300 MHz e 300 GHz (comprimentos de onda de 1 m a 1 mm), normalmente presentes em dispositivos usados em carros autónomos, detetores de movimento e redes 5G.

Os investigadores sublinharam que o seu sistema experimental tem apenas fins de investigação, tendo sido desenvolvido de forma preventiva, antecipando o que agentes mal-intencionados poderiam criar.

No decurso do estudo, os investigadores adaptaram então o Whisper, um modelo de reconhecimento de fala de código aberto, alimentado por inteligência artificial, para descodificar as vibrações em transcrições de discurso reconhecível.

“Nos últimos três anos, houve uma enorme explosão nas capacidades da IA e nos modelos de reconhecimento de fala de código aberto”, disse Basak. “Podemos usar estes modelos, mas eles estão mais orientados para discurso limpo ou contextos do dia a dia, por isso precisamos de os adaptar para reconhecer dados de radar de baixa qualidade e ‘ruidosos’.”

Para transformar dados ruidosos em fala reconhecível sem ter que treinar novamente todo o modelo, os investigadores recorreram a um método de adaptação denominado low-rank adaptation, que lhes permitiu especializar o modelo para dados de radar treinando apenas 1% dos parâmetros do Whisper.

Para registar as vibrações, a equipa posicionou um sensor de radar de ondas milimétricas a alguns metros do telefone, captando vibrações subtis na superfície enquanto a fala era reproduzida pelo altifalante de ouvido.

Para analisar os dados, introduziram o sinal captado por radar na sua versão personalizada do modelo Whisper, obtendo até 60% de precisão. Segundo os investigadores, a precisão da transcrição poderia ser melhorada com correções manuais baseadas no contexto, ajustando palavras ou expressões específicas, quando existe conhecimento prévio da conversa.

“O resultado foram transcrições de conversas, com expectativa de alguns erros, o que já representa uma melhoria significativa em relação à versão de 2022, que só produzia algumas palavras”, afirmou Gowda. “Mas mesmo conseguir captar correspondências parciais, como palavras-chave, pode ser útil num contexto de segurança.”

Os investigadores compararam as capacidades do modelo à leitura labial: embora esta permita captar apenas cerca de 30% a 40% das palavras proferidas, muitas pessoas que a utilizam recorrem a pistas contextuais para decifrar o suficiente para participar numa conversa.

“Tal como os leitores labiais conseguem interpretar conversas com informação limitada, a saída do nosso modelo, combinada com informação contextual, pode permitir-nos deduzir partes de uma conversa telefónica a alguns metros de distância”, concluiu Basak.

ZAP //

Deixe o seu comentário

Your email address will not be published.