Nos dois anos desde que a OpenAI lançou seu modelo de linguagem GPT-3, a maioria dos grandes laboratórios de Inteligência Artificial desenvolveram seus próprios simuladores de linguagem. O Google, o Facebook e a Microsoft, bem como um punhado de empresas chinesas, criaram Inteligência Artificiais (IAs) que podem gerar um texto convincente, conversar com humanos, responder perguntas e muito mais.
Conhecidos como grandes modelos de linguagem (LLMs, pela sua sigla em inglês) devido ao enorme tamanho das redes neurais que os sustentam, eles se tornaram uma tendência dominante em IA, mostrando tanto seus pontos fortes, como a notável capacidade das máquinas de usar a linguagem, quanto seus pontos fracos, especialmente os preconceitos inerentes à IA e a quantidade insustentável de poder de computação que pode consumir.
Até agora, a DeepMind tem se destacado por sua ausência no campo. Mas a empresa com sede no Reino Unido, responsável por algumas das conquistas mais impressionantes em IA, incluindo AlphaZero e AlphaFold, repentinamente entrou neste terreno com a publicação simultânea de três novos estudos sobre os grandes modelos de linguagem de IA. O principal resultado da DeepMind é uma IA com uma reviravolta: seu aprimoramento consiste em uma memória externa na forma de um vasto banco de dados que contém fragmentos de texto, que a IA usa como uma espécie de folha de consulta para gerar novas frases.
Chamado de RETRO (abreviação para Retrieval-Enhanced Transformer), a IA corresponde ao desempenho das redes neurais 25 vezes maior que o seu tamanho, reduzindo o tempo e o custo necessários para treinar modelos muito grandes. Os pesquisadores também afirmam que o banco de dados torna mais fácil analisar o que a IA aprendeu, o que pode ajudar a filtrar preconceitos e linguagem tóxica.
“Ser capaz de pesquisar as coisas na hora, em vez de ter que memorizar tudo, muitas vezes pode ser útil, como é para os humanos”, diz Jack Rae da DeepMind, chefe de pesquisa de LLMs da empresa.
Os modelos de linguagem geram um texto ao prever quais palavras vêm a seguir em uma frase ou conversa. Quanto maior o modelo, mais informações sobre o mundo ele pode aprender durante o treinamento, o que torna suas previsões melhores. O GPT-3 tem 175 bilhões de parâmetros, que são os valores em uma rede neural que armazenam dados e são ajustados conforme o modelo aprende. O modelo de linguagem Megatron-Turing da Microsoft tem 530 bilhões de parâmetros. Mas os LLMs também exigem grande capacidade de computação para serem treinados, o que os coloca fora do alcance da maioria das organizações, exceto as mais ricas.
Com o RETRO, a DeepMind tentou reduzir o custo do treinamento sem reduzir a quantidade de dados que a IA aprende. Os pesquisadores treinaram o modelo em um vasto conjunto de dados de artigos de notícias, páginas da Wikipedia, livros e texto do GitHub, um repositório de código online. O conjunto de dados contém texto em 10 idiomas, incluindo inglês, espanhol, alemão, francês, russo, chinês, suaíli e urdu.
A rede neural do RETRO tem apenas 7 bilhões de parâmetros. Mas o sistema compensa isso com um banco de dados contendo cerca de 2 trilhões de passagens de texto. A rede neural e o banco de dados são treinados ao mesmo tempo.
Quando o RETRO gera um texto, ele usa o banco de dados para pesquisar e comparar passagens semelhantes àquela que está escrevendo, o que torna suas previsões mais precisas. Terceirizar parte da memória da rede neural para o banco de dados permite que o RETRO faça mais com menos.
A ideia não é nova, mas esta é a primeira vez que um sistema de pesquisa foi desenvolvido para um LLM, e a primeira vez que esta abordagem mostrou corresponder ao desempenho das melhores IAs de linguagem existentes.
Maior nem sempre é melhor
O RETRO baseia-se em dois estudos complementares lançados pela DeepMind, um analisando como o tamanho de um modelo afeta seu desempenho e outro, os danos potenciais causados por esses IAs.
Para estudar o tamanho, a DeepMind construiu um LLM chamado Gopher, com 280 bilhões de parâmetros, que superou os modelos mais avançados em 82% dos mais de 150 desafios de linguagem comuns usados para teste. Os pesquisadores então compararam-no com o RETRO e descobriram que o modelo de 7 bilhões de parâmetros correspondiam ao desempenho de Gopher na maioria das tarefas.
O estudo de ética é uma pesquisa abrangente de problemas bem conhecidos inerentes a LLMs. Esses modelos captam preconceitos, desinformação e linguagem tóxica, como discurso de ódio, dos artigos e livros nos quais são treinados. Como resultado, às vezes eles produzem declarações prejudiciais, refletindo o que encontraram no texto de treinamento, sem saber o que isso significa. “Mesmo um modelo que imitasse perfeitamente os dados seria tendencioso”, diz Rae.
De acordo com a DeepMind, o RETRO pode ajudar a resolver esse problema porque é mais fácil ver o que a IA aprendeu examinando o banco de dados do que estudando a rede neural. Em teoria, isso pode permitir que você filtre exemplos de linguagem prejudicial ou compare-os com outras não prejudiciais. Mas a DeepMind ainda não testou essa afirmação. “Não é um problema totalmente resolvido e o trabalho está em andamento para lidar com esses desafios”, disse Laura Weidinger, uma cientista pesquisadora da DeepMind.
O banco de dados também pode ser atualizado sem retreinar a rede neural. Isso significa que novas informações, como quem ganhou o US Open, podem ser adicionadas rapidamente e informações desatualizadas ou falsas podem ser removidas.
Sistemas como o RETRO são mais transparentes do que os modelos de caixa preta como o GPT-3, diz Devendra Sachan, estudante de doutorado na Universidade McGill, no Canadá. “Mas isso não é uma garantia de que irá prevenir a toxicidade e o preconceito”. Sachan desenvolveu um precursor do RETRO em uma colaboração anterior com a DeepMind, mas ele não estava envolvido neste último trabalho
Para Sachan, consertar o comportamento prejudicial dos modelos de linguagem requer uma curadoria cuidadosa dos dados de treinamento antes do início dele. Ainda assim, sistemas como o RETRO podem ajudar: “É mais fácil adotar essas diretrizes quando um modelo faz uso de dados externos para suas previsões”, diz ele.
A DeepMind pode estar atrasada para o debate. Mas, ao invés de tentar superar a concorrência em seu próprio campo de jogo, está nivelando-o com uma abordagem alternativa. “Este é o futuro dos LLMs”, diz Sachan.