A Inteligência Artificial está ainda mais perto de ser humana

O desenvolvimento da inteligência artificial depende da aprendizagem das máquinas. De certa forma, as máquinas precisam de aprender a aprender. E se a melhor forma de aprender é através dos nossos erros, estão no caminho certo.

Um novo algoritmo permite que a Inteligência Artificial (IA) aprenda com os seus próprios erros, quase como os seres humanos fazem.

Este avanço acontece graças a um novo algoritmo de código aberto chamado Hindsight Experience Replay (HER), desenvolvido por investigadores da empresa OpenAI, com sede nos EUA. Nos últimos meses, investigadores da OpenAI têm se concentrado no desenvolvimento do processo de aprendizagem da inteligência artificial.

O algoritmo ajuda um agente de IA a “olhar para trás” em retrospetiva, por assim dizer, à medida que completa uma tarefa. De acordo com a OpenAI, a máquina passa a interpretar as falhas como sucessos, para chegar ao resultado pretendido no início da tarefa.

“O ponto chave da HER é algo o que os humanos fazem intuitivamente: mesmo que não tenhamos sucesso num objetivo específico, pelo menos conseguimos um objetivo diferente. Então, por que não apenas fingir que queríamos atingir esse objetivo para começar, em vez do que pretendemos alcançar originalmente?”, explicam os investigadores.

“Ao fazer a substituição, o algoritmo de aprendizagem de reforço pode obter um sinal de aprendizagem, uma vez que alcançou um objetivo, esmo que não fosse esse o que pretendia originalmente. Se repetirmos esse processo, eventualmente aprenderemos a alcançar objetivos arbitrários, incluindo os objetivos que realmente queríamos alcançar”, assinalam.

Isso significa que todas as tentativas falhadas da inteligência artificial funcionam como outro objetivo “virtual” não planeado.

Acontece algo parecido connosco quando estamos a aprender. Quando tentamos andar de bicicleta pela primeira vez, não nos conseguimos equilibrar corretamente. Mesmo assim, essas tentativas ensinam-nos o que não fazer e o que evitar. Cada fracasso aproxima-nos do objetivo. É assim que os seres humanos aprendem – e agora as máquinas também.

Com a HER, o OpenAI quer que as suas inteligências artificiais aprendam da mesma forma. Ao mesmo tempo, o método tornar-se-á uma alternativa ao sistema de recompensas usual envolvido em modelos de reforço de aprendizagem.

Para ensinar a IA a aprender por conta própria, ela tem que trabalhar com um sistema de recompensas. Os sistemas usados hoje ou dão cookies para a inteligência artificial quando esta alcança o objetivo – e não quando não alcança, ou dão cookies dependendo de quão perto a IA está de atingir o seu objetivo.

Nenhum dos métodos é perfeito. O primeiro não dá espaço para a aprendizagem, enquanto o segundo pode ser bastante complicado de implementar.

Ao tratar cada tentativa como um objetivo em retrospetiva, HER dá a um agente de IA uma recompensa mesmo quando na verdade ele não conseguiu realizar a tarefa especificada. Isso ajuda a inteligência artificial a aprender mais rápido e com maior qualidade.

No vídeo abaixo, é possível ver como isso funciona na prática. São mostradas diversas tarefas feitas pela HER e por outra inteligência artificial. A aprendizagem do novo sistema tem resultados muito melhores.

Este método não significa que o HER facilita completamente a aprendizagem. “Aprender com HER em robôs reais ainda é difícil, pois ainda requer uma quantidade significativa de amostra”, aponta Matthias Plappert, da OpenAI.

Em qualquer caso, como as simulações da OpenAI demonstraram, esta pode ser bastante útil para “encorajar” os agentes de IA para aprender com os seus erros.

PARTILHAR

1 COMENTÁRIO

RESPONDER

Febre do lítio pede licença para chegar a Portugal

Com o potencial de ter as maiores reservas da Europa, a febre do lítio chegou a Portugal, onde se registaram duas dezenas de solicitações de prospecção este ano, embora as empresas mineiras continuem à espera …

Virgin Galactic abre as portas do primeiro aeroporto espacial do mundo

A empresa norte-americana Virgin Galactic, do bilionário Richard Branson, está a preparar o primeiro aeroporto espacial comercial do mundo, tendo revelado esta semana algumas das imagens daquelas que vão ser as instalações. O aeroporto, localizado …

A Internet está a regar esta planta há três anos

A comunidade online do Reddit tem tratado de uma planta durante três anos. Os utilizadores escolhem diariamente se a planta de ou não ser regada. Tudo começou com uma pequena brincadeira no Reddit, um dos maiores …

O pulmão de um chinês colapsou (e a culpa foi do karaoke)

O pulmão de um homem de 65 anos, na China, colapsou após ter tentado atingir uma nota alta durante uma intensa sessão de karaoke. O homem, residente em Nanchang, na província de Jiangxi, teria estado a …

"Emergência nacional". Deputados pedem a Boris que convoque imediatamente o Parlamento

Mais de 100 deputados britânicos pediram, numa carta divulgada este domingo, ao primeiro-ministro Boris Johnson para convocar imediatamente o Parlamento e voltar a debater o Brexit. As férias de verão do Parlamento terminam normalmente a 03 …

Rambo Luso. Há um português a viver na selva venezuelana há 25 anos

Há 25 anos que o português António Pestana Drumond realiza expedições às regiões de selva do Delta Amacuro e do Parque Nacional Canaima, leste da Venezuela, onde é conhecido pelos indígenas locais como o Rambo …

Já é possível saber se alguém está a mentir. Basta olhar nos olhos

Os olhos não mentem. Pelo menos é o que acham os investigadores da Universidade de Stirling, na Escócia, que criaram uma prova que diz se a pessoa está a mentir ou não com a monitorização …

A NASA detetou (e mediu) o primeiro choque interplanetário

A Multiscale Magnetospheric Mission (MMS) da agência espacial norte-americana conseguir fazer as primeiras medições de um choque interplanetário. Em comunicado, a NASA explica que os choques interplanetários são um tipo de choque sem colisão, no …

Quem ganhou a Segunda Guerra Mundial? Aliados e Eixo dizem que foram eles próprios

Em média, tanto os cidadãos de países dos Aliados como cidadãos de países do Eixo dizem que foram eles mesmos os vencedores da Segunda Guerra Mundial. Se perguntarmos a qualquer um dos poucos veteranos remanescentes da …

Norte-americano passou 30 anos na prisão por erro. Vai ser indemnizado em 10 milhões

Um norte-americano que há 30 anos foi erradamente condenado a 57 anos de prisão por violação e roubo vai agora receber uma indemnização de quase 10 milhões de dólares, avança o jornal New York Post. …