A empresa de inteligência artificial da Google, DeepMind, desenvolveu uma Inteligência Artificial que aprendeu sozinha a andar, correr, saltar e escalar, sem nenhuma orientação prévia.
Para tal, os cientistas do Google usaram uma aprendizagem de reforço, a prática de ensinar e orientar o comportamento através um sistema em que o comportamento desejável produz recompensas e o comportamento indesejável não.
No seu nível mais básico, o sistema funciona da seguinte forma: quanto mais rápido a Inteligência Artificial se movimenta através do terreno, maiores são as recompensas, sendo que foram adicionados incentivos e penalidades em níveis mais complexos.
Foram utilizadas três figuras diferentes em três ambientes diferentes, com níveis de complexidade variáveis: o “caminhante planar”, o “quadrúpede” e o “humanóide”.
A DeepMind utiliza soluções criativas para contornar os obstáculos apresentados mas, na maioria das vezes, o movimento que fornece a solução mais eficiente não possui um aspecto exactamente natural.
Um dos três estudos publicados pela empresa foca-se na definição do objetivo e descreve uma rede neural capaz de ensinar máquinas a navegar por percursos complexos usando um objetivo muito simples: o progresso horizontal.
Como os agentes tinham apenas o objetivo de ultrapassar os obstáculos e não instruções específicas sobre como se devem mover, o sistema de aprendizagem pode ser usado para agentes de qualquer tipo – desde aqueles que imitam comportamento humano, até outros tipos de robôs, como a aranha.
Mas, como não recebem instruções detalhadas, as Inteligências Artificiais podem desenvolver métodos extremamente ineficientes de se movimentar. Por isso, o segundo estudo realizado pela Deep Mind pretende usar de dados de captura de movimentos de humanos a andar para ensinar as máquinas a andar correctamente.
No entanto, as maneiras estranhas de andar que os robôs desenvolvem podem ser úteis em algumas situações, portanto o terceiro estudo divulgado pela empresa foca-se na transição entre comportamentos diferentes.
Para tal, a DeepMind criou um modelo que permite que os sistemas aprendam a imitar comportamentos observados. Assim, se um dos sistemas aprende, por exemplo, a andar em percursos inclinados, o outro consegue aprender a mesma coisa ao observar o primeiro. E não só: o robô também consegue entender quando tem de mudar de comportamento.
Os estudos foram elaborados com base em simulações mas, segundo os especialistas, a existência dos modelos de aprendizagem que permitem ensinar este tipo de movimentos a Inteligências Artificiais é um avanço muito importante.
ZAP // Hypescience
Qualquer dia apanham-no a fumar.