O tempo em que os sistemas de reconhecimento de voz eram sinónimo de palavras completamente trocadas parece ter chegado ao fim. Segundo a Microsoft, a sua tecnologia de reconhecimento de voz já está ao nível dos humanos… ou acima deles.
O reconhecimento de voz é uma tecnologia que há décadas alimenta a imaginação dos utilizadores, e que aos poucos se vai popularizando entre mais e mais pessoas.
Noutros tempos, era algo que podia ser utilizado apenas em situações mais específicas – por exemplo, para pessoas com mobilidade reduzida que preferissem falar a escrever num teclado – e o processo obrigava a sessões de treino para reconhecer a voz cada utilizador.
Actualmente, o reconhecimento de voz já é algo que está ao alcance de um toque num botão nos nossos smartphones, e que conta com todo o poder das “clouds” para uma maior eficiência.
Basta prestar atenção ao processo – por exemplo, na pesquisa por voz da Google – para se constatar que palavras que são inicialmente reconhecidas de forma errada são corrigidas imediatamente, recorrendo ao contexto da frase.
A afirmação da Microsoft de que o seu reconhecimento de voz está ao nível dos humanos, ao ponto de até cometer menos erros na transcrição de conversas do que um profissional, apenas comprova que a utilização da voz como forma de interacção com os computadores se irá tornar cada vez mais importante.
Indirectamente, irá também promover uma alteração profunda a nível dos interfaces – e dos próprios dispositivos.
Coisas que se poderiam considerar essenciais, como ecrãs e teclados, poderão ser dispensados, e os dispositivos mobile do futuro poderão converter-se em simples auriculares que nos permitam ouvir e falar e, caso necessário, apresentar informação visual em qualquer ecrã que esteja por perto.
De facto existe uma evolução significativa, mas daí a afirmar que o “Reconhecimento de voz já está ao nível dos humanos ” vai um distância enorme. Faltam aspectos como:
– Em que idioma ou idiomas é feito um reconhecimento mais ou menos válido;
– Interferências (como por exemplo ruído ou dialecto) interferem
Quando um reconhecimento puder diferenciar entre duas vozes aquela que lhe está a ser dirigida, independentemente do idioma, então aí será verdade. Até lá somente miragem.
Sou sou Thales, estudante de Meca tronica, e a mais ou menos 8 meses criei meus primeiros dispositivos de reconhecimento de voz, embora seja uma tecnologia muito mais comum no Japão, a verdade é que essa tecnologia está apenas engatinhando, ainda não há interface realmente interativa com humanos, porque assim como a audição humana, ainda existe a dificuldade de interpretação de sotaques, idiomas, e locais com ruídos fazem o sistema simplesmente ficar instável ou não funcionar… Como acionar um comando dentro de uma fábrica barulhenta por exemplo, ou ainda dentro de uma festa?
Como identificar quando duas pessoas falam ao mesmo tempo?
São questões que são extremamente difíceis de serem solucionadas, sem contar que enquanto há som ou ruído o software continua fazendo a varredura tentando identificar o que está sendo “dito”, ligar o som de casa, batedeiras, etc nem pensar