O Google DeepMind lançou em fevereiro a próxima geração de seu poderoso modelo de Inteligência Artificial Gemini, que tem uma capacidade aprimorada de trabalhar com grandes quantidades de vídeo, texto e imagens.
É um avanço em relação às três versões do Gemini 1.0 que o Google anunciou em dezembro, variando em tamanho e complexidade do Nano ao Pro e ao Ultra. (A empresa lançou o Gemini 1.0 Pro e 1.0 Ultra em muitos de seus produtos na primeira quinzena do mês). Agora, o Google está lançando uma prévia do Gemini 1.5 Pro para desenvolvedores e clientes corporativos selecionados. A empresa diz que o Gemini 1.5 Pro de nível intermediário corresponde ao modelo anterior de nível superior, o Gemini 1.0 Ultra, em termos de desempenho, mas usa menos poder de computação (sim, os nomes são confusos!).
Crucialmente, o modelo 1.5 Pro pode lidar com quantidades muito maiores de dados dos usuários, incluindo prompts maiores. Embora cada modelo de IA tenha um limite máximo para a quantidade de dados que pode digerir, a versão padrão do novo Gemini 1.5 Pro pode lidar com entradas de até 128.000 tokens, que são palavras ou partes de palavras nas quais um modelo de IA divide as entradas. Isso está no mesmo nível da melhor versão do GPT-4 (GPT-4 Turbo).
No entanto, um grupo limitado de desenvolvedores poderá enviar até 1 milhão de tokens para o Gemini 1.5 Pro, o que equivale a aproximadamente uma hora de vídeo, 11 horas de áudio ou 700.000 palavras de texto. Esse é um salto significativo que possibilita fazer coisas que nenhum outro modelo é capaz de fazer atualmente.
Em um vídeo de demonstração exibido pelo Google, usando a versão de um milhão de tokens, os pesquisadores alimentaram o modelo com uma transcrição de 402 páginas da missão de pouso na Lua da Apollo. Em seguida, eles mostraram ao Gemini um esboço feito à mão de uma bota e pediram que ele identificasse o momento na transcrição que o desenho representava.
“Este é o momento em que Neil Armstrong aterrissou na Lua”, respondeu corretamente o chatbot. “Ele disse: ‘Um pequeno passo para o homem, um salto gigante para a humanidade’.”
O modelo também foi capaz de identificar momentos de humor. Quando os pesquisadores pediram que encontrasse um momento engraçado na transcrição de Apollo, ele escolheu quando o astronauta Mike Collins se referiu a Armstrong como “o Czar”. (Provavelmente não foi a melhor frase, mas você entendeu).
Em outra demonstração, a equipe fez o upload de um filme mudo de 44 minutos com Buster Keaton e pediu à IA que identificasse quais informações estavam em um pedaço de papel que, em algum momento do filme, é retirado do bolso de um personagem. Em menos de um minuto, o modelo encontrou a cena e lembrou corretamente o texto escrito no papel. Os pesquisadores também repetiram uma tarefa semelhante do experimento Apollo, pedindo ao modelo que encontrasse uma cena do filme com base em um desenho. Ele também concluiu essa tarefa.
O Google afirma que submeteu o Gemini 1.5 Pro à bateria usual de testes que utiliza ao desenvolver modelos de linguagem de grande porte, incluindo avaliações que combinam texto, código, imagens, áudio e vídeo. A empresa constatou que o 1.5 Pro superou o 1.0 Pro em 87% dos benchmarks e se equiparou mais ou menos ao 1.0 Ultra em todos eles, usando menos poder de computação.
A capacidade de lidar com entradas maiores, segundo o Google, é resultado do progresso no que é chamado de arquitetura de mistura de especialistas. Uma IA que utiliza esse design divide sua rede neural em partes, ativando apenas as partes que são relevantes para a tarefa em questão, em vez de acionar toda a rede de uma só vez. (O Google não é o único a usar essa arquitetura; a empresa francesa de IA Mistral lançou um modelo que a utiliza, e há rumores de que o GPT-4 também emprega essa tecnologia).
“De certa forma, ela funciona como o nosso cérebro, onde nem todo o cérebro é ativado o tempo todo”, diz Oriol Vinyals, líder da equipe de aprendizagem profunda da DeepMind. Essa compartimentalização economiza o poder de computação da IA e pode gerar respostas mais rápidas.
“Esse tipo de fluidez, indo e voltando entre diferentes modalidades, e usando isso para pesquisar e entender, é muito impressionante”, diz Oren Etzioni, ex-diretor técnico do Allen Institute for Artificial Intelligence, que não esteve envolvido no trabalho. “Isso é algo que eu nunca vi antes.”
Uma IA capaz de operar em várias modalidades se assemelharia mais à maneira como os seres humanos se comportam. “As pessoas são naturalmente multimodais”, diz Etzioni; podemos alternar sem esforço entre falar, escrever e desenhar imagens ou gráficos para transmitir ideias.
No entanto, Etzioni advertiu que não se deve tirar muito significado dos acontecimentos. “Há uma frase famosa”, diz ele. “Nunca confie em uma demonstração de IA.”
Por um lado, não está claro o quanto os vídeos de demonstração deixaram de fora ou selecionaram de várias tarefas (de fato, o Google foi criticado por seu lançamento inicial do Gemini por não divulgar que o vídeo foi acelerado). Também é possível que o modelo não seja capaz de replicar algumas das demonstrações se o texto de entrada for ligeiramente ajustado. Os modelos de IA em geral, diz Etzioni, são frágeis.
O lançamento do Gemini 1.5 Pro é limitado a desenvolvedores e clientes corporativos. O Google não especificou quando ele estará disponível para um lançamento mais amplo.