No verão de 2021, a OpenAI fechou discretamente sua equipe de robótica, anunciando que o progresso estava sendo sufocado pela falta de dados necessários para treinar robôs em como se mover e raciocinar usando Inteligência Artificial.
Agora, três dos primeiros cientistas pesquisadores da OpenAI dizem que a startup que eles criaram em 2017, chamada Covariant, resolveu esse problema e revelou um sistema que combina as habilidades de raciocínio de grandes modelos de linguagem com a destreza física de um robô avançado.
O novo modelo, chamado RFM-1, foi treinado com base em anos de dados coletados da pequena frota de robôs de coleta de itens da Covariant que clientes como Crate & Barrel e Bonprix usam em armazéns em todo o mundo, além de palavras e vídeos da internet. Nos próximos meses, o modelo será lançado para os clientes da Covariant. A empresa espera que o sistema se torne mais capaz e eficiente à medida que for implantado no mundo real.
Então, o que ele pode fazer? Em uma demonstração da qual participei na semana passada, os cofundadores da Covariant, Peter Chen e Pieter Abbeel, mostraram como os usuários podem solicitar o modelo usando cinco tipos diferentes de entrada: texto, imagens, vídeo, instruções de robôs e medições.
Por exemplo, mostre a ele a imagem de uma lixeira cheia de equipamentos esportivos e diga para ele pegar o pacote de bolas de tênis. O robô pode, então, pegar o item, gerar uma imagem de como a lixeira ficará depois que as bolas de tênis forem retiradas ou criar um vídeo que mostre uma visão panorâmica de como o robô ficará ao realizar a tarefa.
Se o modelo previr que não conseguirá segurar o item adequadamente, ele poderá até mesmo digitar de volta: “Não consigo segurar bem. Você tem alguma dica?” Uma resposta poderia aconselhá-lo a usar um número específico de ventosas em seus braços para que ele consiga agarrar melhor o objeto — oito contra seis, por exemplo.
Isso representa um avanço, segundo Chen, em robôs que podem se adaptar ao seu ambiente usando dados de treinamento em vez do código complexo e específico da tarefa que alimentava a geração anterior de robôs industriais. É também um passo em direção aos locais de trabalho onde os gerentes podem emitir instruções em linguagem humana sem se preocupar com as limitações do trabalho humano. (“Embale 600 kits de preparação de refeições para macarrão com pimenta vermelha usando a seguinte receita. Não faça pausas!”)
Lerrel Pinto, pesquisador que dirige o laboratório de robótica e IA de uso geral da Universidade de Nova York e não tem vínculos com a Covariant, diz que, embora os roboticistas já tenham construído robôs multimodais básicos e os tenham usado em ambientes de laboratório, a implantação de um robô em escala capaz de se comunicar de tantos modos representa um feito impressionante para a empresa.
Para superar seus concorrentes, a Covariant terá de obter dados suficientes para que o robô se torne útil na natureza, disse Pinto. Os pisos dos armazéns e as docas de carga são os locais onde ele será testado, interagindo constantemente com novas instruções, pessoas, objetos e ambientes.
“Os grupos que treinarão bons modelos serão aqueles que tiverem acesso a grandes quantidades de dados de robôs ou recursos para gerar esses dados”, diz ele.
A Covariant diz que o modelo tem uma capacidade de raciocínio “semelhante à humana”, mas tem suas limitações. Durante a demonstração, na qual eu podia ver uma transmissão ao vivo de um robô da Covariant, bem como uma janela de bate-papo para me comunicar com ele, Chen me convidou a pedir ao modelo o que eu quisesse. Quando pedi ao robô que “devolvesse a banana ao Tote Dois”, ele teve dificuldade em refazer seus passos, o que o levou a pegar uma esponja, depois uma maçã e uma série de outros itens antes de finalmente realizar a tarefa da banana.
“Ele não entende o novo conceito”, disse Chen como explicação, “mas é um bom exemplo – ele pode não funcionar bem ainda em lugares onde você não tem bons dados de treinamento”.
O novo modelo da empresa incorpora uma mudança de paradigma que se espalha pelo mundo da robótica. Em vez de ensinar a um robô como o mundo funciona manualmente, por meio de instruções como equações físicas e códigos, os pesquisadores estão ensinando-o da mesma forma que os humanos aprendem: por meio de milhões de observações.
O resultado “pode realmente funcionar como um cérebro flexível muito eficaz para resolver tarefas arbitrárias do robô”, disse Chen.
É provável que o campo de atuação das empresas que usam IA para alimentar sistemas robóticos mais ágeis fique cada vez mais lotado este ano. No início de março, a startup de robótica humanoide Figure AI anunciou que faria uma parceria com a OpenAI e arrecadou US$ 675 milhões de gigantes da tecnologia como Nvidia e Microsoft. Marc Raibert, fundador da Boston Dynamics, iniciou recentemente uma iniciativa para integrar melhor a IA à robótica.
Isso significa que os avanços no aprendizado de máquina provavelmente começarão a se traduzir em avanços na robótica. No entanto, algumas questões ainda não foram resolvidas. Se grandes modelos de linguagem continuarem a ser treinados em milhões de palavras sem compensar os autores dessas palavras, talvez seja de se esperar que modelos de robótica também sejam treinados em vídeos sem pagar seus criadores. E se os modelos de linguagem alucinam e perpetuam preconceitos, que equivalentes surgirão na robótica?
Enquanto isso, a Covariant continuará avançando, com o objetivo de fazer com que o RFM-1 aprenda e se aperfeiçoe continuamente. Por fim, os pesquisadores pretendem fazer com que o robô treine em vídeos que o próprio modelo cria – o tipo de meta-aprendizado que não apenas faz minha cabeça girar, mas também desperta a preocupação com o que acontecerá se os erros cometidos pelo modelo se agravarem. Porém, com tanta necessidade de mais dados de treinamento, os pesquisadores consideram isso quase inevitável.
“O treinamento com base nisso será uma realidade”, diz Abbeel. “Se conversarmos novamente daqui a meio ano, é sobre isso que estaremos falando.”
Veja mais da OpenAI: