Quando o ser humano começa a andar, em geral, cai várias vezes depois dos primeiros passos, aprendendo por meio da experimentação, da tentativa e do erro. Esse processo, chamado de aprendizado por reforço, foi adaptado matematicamente e o algoritmos vêm sendo empregados em softwares de máquinas e robôs para que eles possam interagir com o ambiente e aprender com essas experiências como se fossem humanos. Uma pesquisa da Escola Politécnica (Poli) da USP pretende justamente ensinar máquinas e robôs a aprenderem novas habilidades.
O doutorando Ruben Glatt está desenvolvendo a pesquisa Melhorando a Aprendizagem por Reforço Aprofundada por meio da Transferência de Conhecimento, sob orientação da professora do Departamento de Engenharia de Computação e Sistemas Digitais da Poli, Anna Helena Reali Costa. O projeto acaba de ser contemplado com um investimento de US$ 23,4 mil do Google Research Awards in Latin America.
Ensinar a aprender é um paradigma comum na Pedagogia, por exemplo. Agora está sendo aplicado à informática, nas áreas de inteligência digital e cibernética. Se existe, por exemplo, um robô que sabe se locomover dentro da universidade para fazer entregas, como um office boy, mas ele é deslocado posteriormente para fazer limpeza em um shopping, não será preciso jogar fora todas as habilidades que ele tinha, já que há similaridade de tarefas: a navegação (locomoção) em ambientes internos, construídos e frequentados por pessoas, o trabalho em locais diferentes, etc.
“Nosso objetivo é agilizar o aprendizado do robô na realização da próxima tarefa, usando o conhecimento da tarefa anterior, daí chamarmos de transferência de conhecimento, na qual a máquina ou robô usa o conhecimento aprendido na tarefa anterior para acelerar o aprendizado na nova tarefa”, afirma a docente. Entretanto, é muito difícil definir o nível adequado de abstração do conhecimento para que possa ser mais bem reaproveitado. Para resolver esse gargalo tecnológico, Glatt está utilizando um tipo de aprendizado chamado de deep-learning, que aprende vários níveis de representações diretamente dos dados.
Observação e aprendizado
A Google comprou uma empresa que utiliza o deep-learning, a DeepMind, fundada em 2011 no Reino Unido, cujo negócio é desenvolver algoritmos que permitam que simuladores, jogos, sites de e-commerce e outros sistemas aprendam com o comportamento das pessoas. As pesquisas da Google envolvendo o tema já resultaram em um dispositivo que consegue identificar um gato em uma imagem que contém vários objetos, incluindo nela o animal. Atualmente, a empresa testa o algoritmo com máquinas que jogam games eletrônicos.
A pesquisa em desenvolvimento na Poli atende justamente essa linha de investigação científica da empresa. “Estamos fazendo testes envolvendo jogos do Atari, videogame popular nos anos 1980 no Brasil. Queremos que a máquina aprenda vários jogos e que ela fique cada vez mais rápida quando mudamos o jogo, sem necessidade de termos de reprogramá-la. Ela aprende sozinha o que precisa para jogar cada vez melhor”, destaca.
O deep-learning entra, então, para organizar os conhecimentos relevantes que devem ser transferidos quando se muda o jogo e, aliado ao princípio do aprendizado com reforço, faz com que a máquina jogue melhor e ganhe cada vez mais, maximizando medidas de desempenho como fazer mais pontos, fazer mais rápido, passar mais fases etc.
Esse projeto foi um dos 12 selecionados pelo Google para receber recursos do programa de Bolsas de Pesquisa Google para a América Latina, que distribuirá US$ 1 milhão entre pesquisadores da região. Além do projeto da Poli, a empresa selecionou outras sete pesquisas brasileiras, duas do México, uma do Chile e uma da Colômbia.
Da Assessoria de Imprensa da Poli
Mais informações: (11) 5549-1863 / 5081-5237.