Por Jeremy Kahn.
Talvez os androides não sonhem com ovelhas elétricas, como o escritor de ficção científica Philip Dick imaginou. Mas o mais novo sistema de inteligência artificial da DeepMind, uma divisão do Google, de fato sonha, pelo menos metaforicamente, em encontrar maçãs em um labirinto.
Pesquisadores da DeepMind escreveram em um artigo científico publicado na internet na quinta-feira que deram um salto na velocidade e no desempenho de um sistema de aprendizagem de máquina. Isso foi possível, entre outras coisas, dando à tecnologia atributos que funcionam de maneira similar à forma como se imagina que os animais sonham.
O artigo explica como o novo sistema da DeepMind — chamado agente Unsupervised Reinforcement and Auxiliary Learning, ou Unreal — aprendeu a dominar um jogo de labirinto tridimensional chamado Labyrinth dez vezes mais rapidamente que o melhor software de IA existente. Ele agora pode jogar esse jogo a 87 por cento do desempenho dos seres humanos especialistas, afirmaram os pesquisadores da DeepMind.
“Nosso agente é muito mais rápido de treinar e requer muito menos experiência do mundo para treinar, por isso utiliza os dados com muito mais eficiência”, escreveram os pesquisadores da DeepMind, Max Jaderberg e Volodymyr Mnih, por e-mail. Eles disseram que o Unreal possibilitará que os pesquisadores da DeepMind realizem experimentos com novas ideias muito mais rapidamente porque o sistema leva menos tempo para ser treinado. A DeepMind já viu seus produtos de IA obterem resultados altamente respeitáveis ensinando a si mesmos a jogar videogames, principalmente o antigo jogo Breakout, do Atari.
Labirinto e maçãs
O Labyrinth é um ambiente de jogo desenvolvido pela DeepMind vagamente inspirado no estilo de design usado pela famosa série de videogame Quake. Trata-se de uma máquina que tem que atravessar caminhos em um labirinto, marcando pontos ao colher maçãs.
Um dos meios utilizados pelos pesquisadores para obter seus resultados foi fazer com que o Unreal assistisse novamente às suas próprias tentativas anteriores no jogo, concentrando-se especialmente nas situações em que havia marcado pontos. No artigo, os pesquisadores compararam isso à maneira como “os animais sonham com acontecimentos em que obtiveram recompensas positivas ou negativas com mais frequência”.
Os pesquisadores também ajudaram o sistema a aprender mais rapidamente solicitando que ele maximizasse vários critérios diferentes ao mesmo tempo, e não que apresentasse apenas sua pontuação geral no jogo. Um desses critérios tinha a ver com o quanto ele podia fazer seu ambiente visual mudar realizando diversas ações. “A ênfase está em aprender como suas ações afetam o que você vai ver”, disseram Jaderberg e Mnih. Eles afirmaram que isso também é semelhante ao modo como os recém-nascidos aprendem a controlar o próprio ambiente para obter recompensas – como uma maior exposição a estímulos visuais, com um objeto brilhante ou colorido, que eles acham agradável ou interessante.
Jaderberg e Mnih, que estão entre os sete cientistas que trabalharam no artigo, disseram que é “cedo demais para falar sobre aplicações do Unreal ou de sistemas similares no mundo real”.
Entre em contato conosco e assine nosso serviço Bloomberg Professional.