Desde o lançamento do ChatGPT, nossa interação com ferramentas de Inteligência Artificial (IA) se tornou algo mais intuitivo e constante do que nunca.
No entanto, interagir com robôs ainda é algo incomum para a maioria das pessoas. A menos que você esteja envolvido em cirurgias complexas ou trabalhando no setor de logística, é possível que o robô mais avançado que você vá encontrar na sua rotina diária seja um simples aspirador de pó (e se você estiver se sentindo jovem, quero lembrá-lo que o primeiro Roomba foi lançado há 22 anos).
Mas isso está prestes a mudar. Os especialistas em robótica estão confiantes de que alcançarão algo que o setor tem perseguido por décadas ao adotar novas técnicas de IA: robôs mais habilidosos e capacitados para se locomover livremente em meio a ambientes desconhecidos e enfrentar desafios inéditos.
“É como estar amarrado na frente de um foguete”, diz Russ Tedrake, vice-presidente de pesquisa em robótica no Instituto de Pesquisa Toyota (TRI, pela sigla em inglês), ao comentar sobre o ritmo atual de crescimento do campo. Tedrake relata ter observado muitos ciclos de otimismo e pessimismo em relação ao avanço robótico, mas nenhum comparável a este que estamos vivendo. “Trabalho na área há mais de 20 anos. Isso é diferente”, comenta ele.
Mas algo está freando esse foguete: a limitação no acesso aos conjuntos de dados essenciais para ensinar os robôs a entenderem e reagir adequadamente ao ambiente físico em que operam. Eles são muito mais difíceis de serem obtidos do que os usados para treinar os modelos de IA mais avançados, como o GPT, que basicamente são conteúdos textuais, imagens e vídeos retirados da internet. Programas de simulação podem auxiliar os robôs a aprenderem como interagir com lugares e objetos, mas os resultados ainda tendem a ser afetados pelo que se chama “lacuna entre simulação e realidade”, ou seja, pelas falhas que surgem quando os robôs passam a operar no mundo real ao invés da simulação.
Por enquanto, ainda é necessário ter acesso a dados reais do mundo físico para treinar robôs. Esses dados são relativamente escassos e costumam exigir muito mais tempo, esforço e o uso de equipamentos caros para serem obtidos. Essa escassez é um dos principais obstáculos que atualmente estão limitando o avanço na área da robótica.
Como resultado, as principais empresas e laboratórios estão em uma acirrada competição para encontrar métodos inovadores e mais eficientes de coletar os dados de que precisam. Isso resultou em práticas curiosas, como usar braços robóticos para virar panquecas durante horas, assistir a milhares de horas de vídeos explícitos de cirurgias retirados do YouTube, ou enviar pesquisadores para diversos Airbnbs para que eles pudessem filmar cada cantinho dos lugares. Durante esse processo, eles estão se deparando com os mesmos tipos de problemas de privacidade, ética e direitos autorais que os profissionais do setor de chatbots.
A nova demanda por dados
Por décadas, os robôs foram treinados para realizar tarefas específicas como pegar bolinhas de tênis ou dar uma cambalhota. Ao contrário dos humanos, que aprendem sobre o mundo por meio da observação e tentativa e erro, muitos robôs usavam equações e códigos para entender o mundo. Esse método, além de lento, também os impedia de simplesmente transferir seus conhecimentos e habilidades aprendidos em uma tarefa para a execução de outra diferente.
Mas agora os avanços no campo da IA estão acelerando uma mudança que já havia começado: possibilitar que os robôs aprendam sozinhos com o uso de dados, tornando-os quase como autodidatas. Assim como um modelo de linguagem pode aprender com um acervo completo de histórias, modelos de robôs podem ser expostos a algumas centenas de vídeos ou demonstrações de uma pessoa lavando um prato sujo de ketchup com a ajuda de pinças robóticas, por exemplo, e depois imitar a tarefa sem precisar passar por uma programação detalhada sobre qual seria a aparência específica do ketchup ou como ligar uma torneira. Essa inovação está promovendo um progresso mais rápido e resultando em máquinas mais versáteis e capazes de aprender e adaptar-se a novas tarefas de forma mais eficiente e generalizada.
Atualmente, todas as principais empresas e laboratórios estão buscando maneiras de fazer com que os robôs utilizem a IA para pensar de forma lógica e executar novas tarefas. O sucesso dessas organizações dependerá da capacidade dos pesquisadores de encontrar uma variedade suficientemente ampla de dados para refinar e aprimorar os modelos de IA que controlam os robôs, além de desenvolver novas formas de usar o reinforcement learning para que eles identifiquem e corrijam erros e possam reforçar os comportamentos corretos.
“Há uma corrida para descobrir qual será a próxima grande fonte de dados,” compartilha Pras Velagapudi, diretor de tecnologia da Agility Robotics, fabricante de um robô humanoide que opera em armazéns para clientes como a Amazon. As respostas para essa questão ajudarão a definir em quais áreas as máquinas do futuro se destacarão e que funções poderão desempenhar em nossos lares e locais de trabalho.
Dados de treinamento de alta qualidade
Para entender como os especialistas em robótica estão adquirindo dados para seus projetos, imagine um açougue. Você encontra uma variedade de cortes disponíveis, alguns são de alta qualidade e mais caros, enquanto os outros são mais simples e acessíveis, básicos do dia a dia. Você também encontra pedaços de carne que sobram após os cortes principais terem sido feitos, as aparas e sobras que ficam menos visíveis, armazenadas em uma área menos acessível do açougue e que requerem um chef criativo para transformá-los em algo delicioso. Todos eles são utilizáveis em algum grau, mas nem todos são iguais.
Para se ter uma ideia de como os dados de alta qualidade são interpretados pelos robôs, pense nos métodos adotados pelo TRI. Em meio a um espaçoso laboratório em Cambridge, Massachusetts (EUA), e equipado com braços robóticos, computadores e uma variedade aleatória de objetos do cotidiano comum como pás de lixo e batedores de ovos, os pesquisadores ensinam novas tarefas aos robôs por meio de teleoperação, gerando como resultado o que é chamado de dados de demonstração. Pense, por exemplo, em um humano usando um braço robótico para virar uma panqueca 300 vezes em uma tarde.
Em seguida, o modelo analisa e processa esses dados durante a noite, e, muitas vezes, diz o TRI, no dia seguinte o robô já é capaz de executar as tarefas de forma autônoma. Durante as demonstrações, os pesquisadores realizam várias repetições enquanto controlam o robô remotamente, o que gera uma quantidade significativa de dados para treinamento que auxiliam o robô a realizar as atividades com precisão e eficiência.
O problema é que criar essa variedade de dados leva uma eternidade, e é algo limitado pelo número de robôs caros que você pode bancar. Assim, para obter dados de treinamento de qualidade de forma mais barata e eficiente, Shuran Song, diretor do Laboratório de Robótica e Integração de IA da Universidade de Stanford (EUA), projetou um dispositivo que pode ser mais facilmente manuseado e construído por um custo significativamente menor em comparação com outras opções disponíveis. Basicamente, ele é uma espécie de pregador de plástico leve capaz de coletar dados enquanto você o utiliza para realizar atividades cotidianas, como quebrar um ovo ou arrumar a mesa. Em seguida, os dados coletados por ele podem ser usados para treinar robôs a imitarem essas tarefas de forma independente. Isso demonstra que com a utilização de dispositivos mais simples como este o processo de coleta de dados pode ser acelerado.
Iniciativas de código aberto
Recentemente, os profissionais de robótica adotaram outro método para obter mais dados de teleoperação: compartilhar o que coletaram uns com os outros, o que simplifica o trabalhoso processo de terem que criar sozinhos conjuntos de dados.
A Base de Dados Distribuída de Interação Robótica (tradução livre para Distributed Robot Interaction Dataset, DROID), publicada em março, foi criada por pesquisadores de 13 instituições, incluindo empresas como a Google DeepMind e as principais universidades dos EUA como a Stanford e Carnegie Mellon. Ela contém em seu conjunto 350 horas de dados gerados por humanos realizando tarefas que vão desde fechar uma máquina de waffles até limpar uma mesa. Como os dados foram coletados usando componentes comuns no mundo da robótica, os pesquisadores podem utilizá-los para criar modelos de IA e, em seguida, testá-los em equipamentos que já possuem.
A iniciativa se baseia no sucesso da Open X-Embodiment Collaboration, um projeto similar conduzido pela Google DeepMind que reuniu dados sobre 527 habilidades coletadas a partir de uma variedade de tipos diferentes de hardware. O conjunto ajudou a construir o modelo RT-X da Google DeepMind, capaz de transformar instruções de texto (por exemplo, “Mova a maçã para a esquerda da lata de refrigerante”) em movimentos físicos.
Segundo Lerrel Pinto, pesquisador à frente do Laboratório de Robótica e IA de Uso Geral na Universidade de Nova York (EUA), modelos de robótica criados com dados de código aberto como estes podem ser impressionantes. No entanto, eles não conseguem funcionar em uma variedade suficientemente ampla de situações para competir frente a frente com os modelos proprietários desenvolvidos pelas principais empresas privadas. Os recursos disponíveis em código aberto não são suficientes para que os laboratórios construam modelos altamente versáteis e sofisticados que alcancem o padrão de excelência esperado: isto é, robôs que possam realizar uma grande variedade de tarefas capazes de entender instruções por texto, imagem e vídeo.
“A maior limitação são os dados”, diz ele. Apenas empresas ricas têm o suficiente.
Essas empresas têm uma vantagem que está se solidificando ainda mais ao longo do tempo. Em sua constante busca por mais dados de treinamento, as empresas privadas de robótica que possuem grandes bases de clientes contam com uma arma não tão secreta assim: seus próprios robôs são máquinas de coleta de dados em funcionamento contínuo.
A empresa de robótica Covariant, fundada em 2017 por pesquisadores da OpenAI, utiliza robôs treinados para identificar e pegar itens em armazéns de empresas como Crate & Barrel e Bonprix. Essas máquinas, por sua vez, ficam constantemente coletando imagens, que são então enviadas de volta para a Covariant. Cada vez que o robô falha em pegar uma garrafa de shampoo, por exemplo, isso se torna um ponto de dados valioso para o sistema de aprendizado dele, que utiliza essa informação para melhorar seu desempenho futuro, possibilitando que, da próxima vez, ele consiga pegar o shampoo corretamente. Como resultado, cria-se um extenso conjunto de dados proprietários coletados pelas próprias máquinas da empresa.
Este conjunto de dados é uma das razões pelas quais, no início deste ano, a Covariant conseguiu lançar um foundation model poderoso, reconhecido por sua versatilidade de aplicações. Com ele, os clientes podem interagir com os robôs comerciais da empresa da mesma forma que conversam com um chatbot: você pode fazer perguntas, mostrar fotos e instruí-lo a gravar um vídeo seu movendo um item de uma caixa para outra. Essas interações dos clientes com o modelo, chamado RFM-1, geram ainda mais dados para contribuir com sua melhoria.
Peter Chen, cofundador e CEO da Covariant, diz que expor esses robôs a uma série de objetos e situações é crucial para o sucesso do modelo. “Nossos robôs estão operando nos setores de vestuário, produtos farmacêuticos, cosméticos e alimentos frescos”, diz ele. “É uma das características exclusivas do nosso conjunto de dados”. O próximo passo será expandir a frota para atender mais setores e até mesmo capacitar o modelo de IA para dar suporte a diferentes tipos de máquinas, como os humanoides, diz Chen.
Aprendendo com vídeos
Devido à escassez de dados de teleoperações de alta qualidade e do mundo real para o treinamento de robôs, alguns especialistas da área estão propondo deixar totalmente de lado o uso desse método de coleta. E se ao invés disso os robôs conseguissem simplesmente aprender assistindo vídeos de pessoas?
Os dados de vídeo, diferente dos de teleoperação, são mais fáceis de produzir; no entanto, eles não contêm informações “cinemáticas” detalhadas que mapeiam os movimentos precisos de um braço robótico enquanto ele se move.
Pesquisadores da Universidade de Washington (EUA) e da Nvidia desenvolveram uma solução alternativa: eles construíram um aplicativo de celular que permite às pessoas treinarem robôs usando Realidade Aumentada (AR, pela sigla em inglês). Assim, os usuários conseguem gravar vídeos de si mesmos realizando tarefas simples com as mãos, como pegar uma xícara, e o programa de AR interpreta essas ações e as transforma em pontos de referência para o software do robô aprender.
A Meta AI está adotando um método de coleta de dado semelhante, mas em uma escala maior, por meio de seu projeto Ego4D, um conjunto de dados que consiste em mais de 3.700 horas de vídeo gravado por pessoas ao redor do mundo enquanto realizam uma variedade de atividades, desde assentar tijolos até jogar basquete ou amassar massa de pão. Esse conjunto de dados é categorizado por tarefa e inclui milhares de anotações que detalham o que está acontecendo em cada cena. Por exemplo, as anotações podem descrever quando uma erva daninha é removida de um jardim ou quando um pedaço de madeira é completamente lixado.
Ao aprender a partir de dados de vídeo, os robôs podem ser expostos a uma gama muito mais ampla de tarefas do que seria possível apenas com a teleoperação humana (imagine a massa de um croissant sendo dobrada por meio de braços robóticos). Isso é importante porque assim como os poderosos modelos de linguagem precisam de dados complexos e diversos para aprender, os especialistas só podem desenvolver modelos de IA igualmente poderosos ao expor os robôs a uma variedade extensa de tarefas.
Com isso em mente, alguns pesquisadores estão enfrentando um desafio ao tentar extrair informações úteis de uma fonte de dados abundantes, porém de baixa qualidade: o YouTube. Com milhares de horas de vídeo sendo enviadas a cada minuto, há uma enorme quantidade de conteúdo disponível. No entanto, o problema é que a maior parte é bastante inútil para uma máquina. Isso ocorre porque os vídeos não estão rotulados com os tipos de informações de que os robôs precisam, como marcações adicionadas aos vídeos para indicar partes importantes, objetos ou ações, além de dados que descrevem os movimentos físicos dos objetos ou das pessoas no vídeo.
“Você pode dizer [a um robô], “ah, essa pessoa está jogando um frisbee com o cachorro dela””, diz Chen, da Covariant, falando de um típico vídeo que pode ser encontrado no YouTube. “Mas é muito difícil dizer “Bem, quando essa pessoa joga o frisbee, então, essas são a aceleração e a rotação, e é por isso que ele voa desta maneira”.
No entanto, algumas tentativas têm se mostrado promissoras. Durante seu período de pós-doutorado em Stanford, o pesquisador de IA, Emmett Goodman, investigou como a IA poderia ser implementada na sala de cirurgia para torná-las mais seguras e previsíveis. No entanto, um dos principais desafios encontrados por ele foi a falta de dados adequados para isso. Nas cirurgias minimamente invasivas (conhecidas como cirurgias laparoscópicas), por exemplo, os cirurgiões frequentemente utilizam braços robóticos equipados com câmeras para manipular as ferramentas inseridas no corpo através de incisões muito pequenas. Elas captam imagens que podem ser usadas para treinar modelos de IA, desde que quaisquer informações pessoais identificáveis tenham sido removidas dos dados. Por outro lado, em cirurgias abertas tradicionais, os cirurgiões utilizam suas próprias mãos em vez de braços robóticos. Isso resulta em uma quantidade muito menor de dados disponíveis para se treinar modelos de IA.
“Esse é o principal desafio que enfrentamos em termos de desenvolvimento da IA no contexto de cirurgias abertas tradicionais e o motivo dele ser mais lento”, diz ele. “Como podemos coletar esses dados de forma eficaz?”
Para lidar com essa questão, Goodman treinou um modelo de IA com milhares de horas de vídeos de cirurgias abertas disponibilizados no YouTube gravados por médicos usando câmeras portáteis ou suspensas. As informações identificáveis desses materiais foram removidas para proteger a privacidade dos pacientes. Conforme descrito em um artigo na revista médica JAMA em dezembro de 2023, o modelo dele conseguia identificar segmentos específicos dos procedimentos cirúrgicos nos vídeos. Isso criou as condições necessárias para a geração de dados de treinamento valiosos para os sistemas de IA no campo médico, embora Goodman reconheça os desafios significativos que ainda precisam ser superados para implementar essa abordagem em uma escala maior, como, por exemplo, garantir a privacidade do paciente e obter o consentimento informado das pessoas, isto é, onde todos os detalhes relevantes, incluindo riscos, alternativas e consequências são passados ao paciente e consentidos por ele.
Fronteiras legais desconhecidas
É provável que, em algum momento, onde quer que os profissionais da área busquem suas novas fontes de dados de treinamento, eles tenham que enfrentar grandes disputas legais.
Os desenvolvedores de grandes modelos de linguagem já estão se deparando com desafios relacionados à questão de créditos e direitos autorais. Um processo movido pelo New York Times, por exemplo, alega que o ChatGPT copia o estilo distintivo e marcante de suas reportagens ao gerar um texto. O diretor técnico da OpenAI recentemente causou polêmica ao afirmar que a ferramenta de geração de vídeo da empresa, Sora, foi treinada com dados disponíveis publicamente, o que gerou críticas do CEO do YouTube, que disse que se Sora usou os vídeos do YouTube para ser treinado, então isso seria uma violação dos termos de serviço da plataforma.
“Estamos diante de uma área que apresenta grandes incertezas jurídicas”, diz Frank Pasquale, um professor na Faculdade de Direito de Cornell. Isso ocorre porque não está claro se as empresas de robótica podem usar material protegido por direitos autorais em seus conjuntos de treinamento, assim como essa é uma dúvida que ronda outras do campo de IA. Não sabemos se essa prática é permitida pela doutrina do uso justo, um conceito da legislação dos EUA que permite o uso de material protegido por direitos autorais em um conjunto restrito de circunstâncias (uso livre) sem autorização ou a necessidade de pagamento de tributos ao autor. Um exemplo muitas vezes citado pelas empresas de tecnologia e pelos simpatizantes da prática é o caso de 2015 do Google Books, no qual os tribunais concluíram que o Google não violou as leis de direitos autorais ao criar um acervo de dados pesquisáveis de milhões de livros. Esse precedente legal pode favorecer sutilmente as empresas de tecnologia, observa Pasquale.
É muito cedo para saber se os desafios legais irão desacelerar o avanço do setor de robótica, já que os casos relacionados à IA são complexos e continuam sem uma jurisprudência definida para orientar futuros casos ou situações semelhantes. Mas é seguro dizer que os pesquisadores de robótica que vasculham o YouTube ou outras fontes de vídeos na internet em busca de dados de treinamento estarão se aventurando em um território legal relativamente desconhecido.
A próxima era
Nem todos os especialistas da área acreditam que os dados são o elemento determinante para o grande avanço da robótica. Alguns argumentam que, se construirmos um mundo virtual suficientemente adequado para os robôs aprenderem, talvez não precisemos de dados de treinamento do mundo real. Por que investir esforços no treinamento de um robô em um ambiente físico para virar panquecas em uma cozinha, por exemplo, se ele poderia ser treinado em uma simulação digital de uma Waffle House?
Por um bom tempo, os especialistas em robótica têm recorrido a programas de simulação que recriam digitalmente os ambientes pelos quais os robôs transitam, muitas vezes reproduzindo detalhes como a textura do piso ou as sombras projetadas pelas luzes do teto. Entretanto, por mais sofisticadas que sejam as reproduções, os profissionais da área sempre se depararam com o desafio de lidar com essa discrepância entre a simulação e o mundo real para treinar máquinas.
Atualmente, essa discrepância está diminuindo. Os avanços na tecnologia em termos de geração de imagens e aumento da velocidade dos processadores dos computadores estão tornando as simulações visuais e computacionais mais realistas. A Nvidia, que utilizou sua experiência em gráficos de videogames para desenvolver o Isaac Sim, sua principal ferramenta de simulação robótica, anunciou em março que empresas líderes em robótica humanoides, como a Figure e Agility, estão utilizando o programa para desenvolver seus próprios foundation models. Essas empresas criam réplicas virtuais de seus robôs no simulador e, em seguida, testam e exploram suas capacidades em uma variedade de ambientes e tarefas.
O vice-presidente de robótica e de edge computing na Nvidia, Deepu Talla, faz uma previsão ousada de que o método de treinamento por simulação será tão eficaz quanto, se não mais eficaz do que, o treinamento tradicional em ambientes reais. É extremamente mais barato, diz ele.
“Estamos falando de praticamente uma proporção de um milhão para um, ou até mais, em relação à quantidade de treinamento que poderá ser feita em simulação,” ele explica. “Porque temos os recursos disponíveis para isso”.
Embora os modelos possam ser habilidosos na resolução de alguns problemas “cognitivos”, como aprender novas tarefas, há uma série de desafios para alcançar esse sucesso de forma eficaz e segura em um contexto real, diz Aaron Saunders, diretor de tecnologia da Boston Dynamics. Estamos longe de construir um hardware que possa detectar diferentes tipos de materiais, limpar e higienizar, ou usar uma quantidade controlada de força em determinadas situações.
“Ainda há uma parte significativa da equação que precisa ser resolvida em relação a como programar os robôs para agir com base em toda essa informação levantada e interagir com o mundo real”, diz ele.
Se conseguirmos resolver esse problema, como seria o futuro da robótica? Seria possível observar robôs ágeis auxiliando indivíduos com deficiências físicas a se deslocarem em suas residências, drones autônomos que eliminam a poluição ou resíduos perigosos, ou robôs cirúrgicos que realizam incisões microscópicas, reduzindo o risco de complicações durante operações. No entanto, apesar de todas essas visões otimistas, também encontramos questões controversas surgindo. O uso da IA pelos militares em todo o mundo está se intensificando e o surgimento de armas autônomas levanta questões preocupantes.
As instituições e empresas prontas para liderar a competição na busca por dados atualmente englobam startups de robôs humanoides que conquistaram o coração dos investidores (a Figure AI recentemente recebeu um aporte financeiro de US$ 675 milhões por meio de uma rodada de financiamento), empresas comerciais com grandes frotas de robôs coletando dados, e empresas de drones beneficiadas por significativos investimentos militares. Enquanto isso, laboratórios acadêmicos menores estão fazendo mais com menos para criar conjuntos de dados que se equiparam aos que estão disponíveis para as grandes empresas de tecnologia.
Mas o que está claro para todas as pessoas com quem conversei é que estamos apenas no início da corrida pela obtenção de dados robóticos. Como o caminho certo a seguir não é óbvio, todos os especialistas da área que se prezam estão explorando todos os métodos possíveis para ver o que funciona melhor.
“Não existe um consenso real” no campo da robótica, diz Benjamin Burchfiel, um pesquisador sênior da área no Instituto de Pesquisa Toyota. “E isso não é algo necessariamente ruim”.