Técnicas usadas em treino de cães podem ser usadas em robôs

Técnicas de treino regularmente usadas para ensinar cães foram agora usadas por uma equipa de investigadores, que mostrou que estes métodos também podem ser usados em robôs. Desta forma o robô Spot conseguiu aprender em dias o que normalmente demora um mês a adquirir.

Através do reforço positivo – uma abordagem bastante familiar quem já usou guloseimas para mudar o comportamento de um cão – a equipa melhorou a capacidade de Spot.

Andrew Hundt, do Laboratório de Robótica e Interação Computacional da Universidade Johns Hopkin, explica que “a questão aqui era como fazer com que o robô aprendesse algumas habilidades”, então o autor do estudo revela que “tive cães, então sei que a estratégia das recompensas funciona, por isso essa foi a inspiração para desenvolver o algoritmo de aprendizagem”.

Ao contrário dos humanos e animais que nascem com cérebros altamente intuitivos, os computadores são um autêntico quadro em branco e devem adquirir tudo do zero. Contudo, esta aprendizagem geralmente é realizada com tentativa e erro.

A equipa conseguiu criar um sistema de recompensas que é aplicado no robô da mesma forma que era usado num cão. Por exemplo, enquanto um cão pode ganhar um biscoito depois de realizar uma tarefa bem, o robô ganha pontos numéricos.

Para conseguir empilhar blocos o robô Spot precisava aprender como se concentrar em ações construtivas. Conforme o robô explorava os blocos, ia aprendendo rapidamente que comportamentos corretos deveria ter para que o empilhamento rendesse uma alta pontuação, sabendo que os incorretos não lhe atribuíam pontos.

Por exemplo, não agarrar um bloco ou derrubar uma torre deles não dava direito a pontos. A pontuação máxima foi atingida quando Spot conseguiu colocar o último bloco no topo de uma torre de quatro blocos.

A tática de treino funcionou. Para além de ser eficaz foi rápida pois demorou apenas alguns dias para ensinar ao robô o que normalmente era ensinado em semanas. Segundo Hundt, o robô está programado para querer alcançar a pontuação mais alta. Desta forma aprende rapidamente o comportamento certo para obter a melhor recompensa.

De acordo com o Futurity, o reforço positivo não funcionou apenas para ajudar o robô a aprender a empilhar blocos, mas também na execução de outras tarefas. A capacidade de aprender com os erros em todos os tipos de situações ajudou a que o robô possa se adaptar a novos ambientes.

A equipa acredita que esta descoberta pode ajudar a treinar robôs domésticos para lavar a loiça ou ajudar idosos a viver de forma independente. Os especialistas garantem que o objetivo é desenvolver robôs que possam realizar tarefas complexas.

Para já os investigadores não sabem como programar tarefas como essas. “Mas um trabalho como este mostra-nos que existe uma promessa na ideia de que os robôs podem aprender como realizar essas tarefas do mundo real e de uma forma segura e eficiente ”, revela o investigador no estudo que realizou e que foi publicado na IEEE Xplore em agosto.

ZAP //