Isso é conhecido como teoria da disponibilidade, um termo cunhado pelo psicólogo James J. Gibson. Segundo ele, quando seres inteligentes olham para o mundo, percebem não apenas objetos e suas relações, mas também suas possibilidades. Em outras palavras, a cadeira “oferece” a possibilidade de sentar. A água “oferece” a possibilidade de nadar. A teoria poderia explicar em parte por que a inteligência animal é tão generalizável – no geral, sabemos imediatamente como nos relacionarmos com novos objetos porque reconhecemos suas possibilidades.
A ideia: os pesquisadores da DeepMind agora estão usando esse conceito para desenvolver uma nova abordagem para o reinforcement learning (em português, aprendizado por esforço). No reinforcement learning (RL) típico, um agente aprende por tentativa e erro, começando com a suposição de que qualquer ação é possível. Um robô aprendendo a mover-se do ponto A para o ponto B, por exemplo, pressupõe que ele possa se mover através de paredes ou móveis até que falhas repetidas digam o contrário. A ideia é que, se o robô aprendesse primeiro as possibilidades de seu ambiente, ele eliminaria imediatamente uma fração significativa das tentativas fracassadas que teria que executar. Isso tornaria seu processo de aprendizagem mais eficiente e ajudaria a generalizar – ou seja, conseguir utilizar as habilidades aprendidas – em diferentes ambientes.
Os experimentos: os pesquisadores montaram um cenário virtual simples. Eles colocaram um agente virtual em um ambiente 2D com uma parede no meio e fizeram com que o agente explorasse sua amplitude de movimento até descobrir as possibilidades do que ele poderia fazer em seu entorno. Os pesquisadores então deram ao agente um conjunto de objetivos simples a serem alcançados por meio do RL, como mover um objeto para a direita ou para a esquerda. Eles descobriram que, em comparação com um agente que não havia aprendido as possibilidades, o agente virtual evitava qualquer movimento que o impedisse de ser bloqueado pela parede no meio do movimento. Assim, ele pôde ser configurado para cumprir seu objetivo com mais eficiência.
Por que é importante: o trabalho ainda está em estágio inicial; portanto, os pesquisadores usaram apenas um ambiente simples e objetivos primitivos. Mas a esperança deles é que seus experimentos iniciais ajudem a estabelecer uma base teórica para expandir a iniciativa para ações muito mais complexas. No futuro, eles veem essa abordagem permitindo que um robô avalie rapidamente se pode, por exemplo, despejar líquido em um copo. Tendo desenvolvido uma compreensão geral de quais objetos oferecem a possibilidade de reter líquidos e quais não, ele não precisará repetidamente errar o copo e derramar líquidos por toda a mesa para aprender como atingir seu objetivo.
Exploramos mais sobre esse assunto em nosso último podcast, entendendo quais são os novos caminhos para o desenvolvimento das IAs.
Confira: Como a psicologia pode ajudar no treinamento de inteligências artificiais