Técnicas de treino regularmente usadas para ensinar cães foram agora usadas por uma equipa de investigadores, que mostrou que estes métodos também podem ser usados em robôs. Desta forma o robô Spot conseguiu aprender em dias o que normalmente demora um mês a adquirir.
Através do reforço positivo – uma abordagem bastante familiar quem já usou guloseimas para mudar o comportamento de um cão – a equipa melhorou a capacidade de Spot.
Andrew Hundt, do Laboratório de Robótica e Interação Computacional da Universidade Johns Hopkin, explica que “a questão aqui era como fazer com que o robô aprendesse algumas habilidades”, então o autor do estudo revela que “tive cães, então sei que a estratégia das recompensas funciona, por isso essa foi a inspiração para desenvolver o algoritmo de aprendizagem”.
Ao contrário dos humanos e animais que nascem com cérebros altamente intuitivos, os computadores são um autêntico quadro em branco e devem adquirir tudo do zero. Contudo, esta aprendizagem geralmente é realizada com tentativa e erro.
A equipa conseguiu criar um sistema de recompensas que é aplicado no robô da mesma forma que era usado num cão. Por exemplo, enquanto um cão pode ganhar um biscoito depois de realizar uma tarefa bem, o robô ganha pontos numéricos.
Para conseguir empilhar blocos o robô Spot precisava aprender como se concentrar em ações construtivas. Conforme o robô explorava os blocos, ia aprendendo rapidamente que comportamentos corretos deveria ter para que o empilhamento rendesse uma alta pontuação, sabendo que os incorretos não lhe atribuíam pontos.
Por exemplo, não agarrar um bloco ou derrubar uma torre deles não dava direito a pontos. A pontuação máxima foi atingida quando Spot conseguiu colocar o último bloco no topo de uma torre de quatro blocos.
A tática de treino funcionou. Para além de ser eficaz foi rápida pois demorou apenas alguns dias para ensinar ao robô o que normalmente era ensinado em semanas. Segundo Hundt, o robô está programado para querer alcançar a pontuação mais alta. Desta forma aprende rapidamente o comportamento certo para obter a melhor recompensa.
De acordo com o Futurity, o reforço positivo não funcionou apenas para ajudar o robô a aprender a empilhar blocos, mas também na execução de outras tarefas. A capacidade de aprender com os erros em todos os tipos de situações ajudou a que o robô possa se adaptar a novos ambientes.
A equipa acredita que esta descoberta pode ajudar a treinar robôs domésticos para lavar a loiça ou ajudar idosos a viver de forma independente. Os especialistas garantem que o objetivo é desenvolver robôs que possam realizar tarefas complexas.
Para já os investigadores não sabem como programar tarefas como essas. “Mas um trabalho como este mostra-nos que existe uma promessa na ideia de que os robôs podem aprender como realizar essas tarefas do mundo real e de uma forma segura e eficiente ”, revela o investigador no estudo que realizou e que foi publicado na IEEE Xplore em agosto.