A OpenAI finalmente revelou o GPT-4, um grande modelo de linguagem de última geração que, segundo rumores, estava em desenvolvimento durante grande parte do ano passado. Imaginava-se que o último sucesso surpresa da empresa localizada em São Francisco (EUA), o ChatGPT, seria uma façanha difícil de se superar, mas a OpenAI tornou o GPT-4 ainda maior e melhor.
No entanto, a OpenAi não revelou o quão maior ele é e por que é melhor. O GPT-4 é o lançamento mais sigiloso que a empresa já fez, marcando sua transição integral de um laboratório de pesquisa sem fins lucrativos para uma empresa de tecnologia com fins lucrativos.
“Isso é algo que, você sabe, não podemos comentar neste momento”, disse o cientista-chefe da OpenAI, Ilya Sutskever, quando falei com membros da equipe GPT-4 em uma videochamada uma hora após o anúncio. “O mercado é bastante competitivo”.
O GPT-4 é um grande modelo de linguagem multimodal, o que significa que ele pode gerar resultados para textos e imagens. Envie a ele uma foto do interior da sua geladeira e pergunte o que você poderia fazer com o que tem lá dentro, e o GPT-4 tentará criar receitas que usem os ingredientes retratados. Também é ótimo para explicar piadas, diz Sutskever: “Se você mostrar um meme, ele pode dizer por que é engraçado.”
O acesso ao GPT-4 para uso limitado apenas a conteúdos de texto estará disponível para usuários que se inscreverem na lista de espera e para assinantes da versão paga premium, o ChatGPT Plus.
“As melhorias contínuas em vários aspectos são notáveis”, diz Oren Etzioni, do Allen Institute for AI. “O GPT-4 é agora o padrão pelo qual todos os modelos de linguagem natural de base serão avaliados”.
“Um bom modelo multimodal tem sido a meta suprema de muitos grandes laboratórios de tecnologia nos últimos dois anos”, diz Thomas Wolf, cofundador da Hugging Face, a startup de IA por trás do grande modelo de linguagem de código aberto BLOOM. “Mas tinha permanecido algo difícil de alcançar”.
Em teoria, a combinação de texto e imagens poderia permitir que modelos multimodais entendessem melhor o mundo. “Eles poderiam conseguir resolver pontos fracos dos modelos de linguagem tradicionais, como o raciocínio espacial”, diz Wolf.
Ainda não está claro se isso é verdade para o GPT-4. O novo modelo da OpenAI parece ser melhor em alguns raciocínios básicos do que o ChatGPT, ao resolver quebra-cabeças simples, como resumir blocos de texto em palavras que começam com a mesma letra. Durante a chamada com a OpenAI, o GPT-4 resumiu o anúncio do site da OpenAI usando palavras que começavam com g em inglês: “GPT-4, crescimento geracional inovador (groundbreaking generational growth), obtém notas maiores (gains greater grades). Barreiras de proteção (Guardrails), orientação (guidance) e ganhos obtidos (gains garnered). Gigantesco (Gigantic), inovador (groundbreaking) e globalmente talentoso (globally gifted)”. Em outra demonstração, o GPT-4 pegou um documento sobre impostos e respondeu a perguntas sobre ele, explicando os motivos de suas respostas.
Ele também supera o ChatGPT em testes humanos, incluindo o Uniform Bar Exam, similar a prova da OAB no Brasil, onde o GPT-4 foi superior ao ChatGPT, classificando-se em uma posição mais elevada. O mesmo ocorreu na Olimpíada de Biologia, onde o GPT-4 obteve um desempenho excepcionalmente alto, em contraste com o ChatGPT, que ficou atrás em termos de pontuação. “É emocionante ver como a avaliação do desempenho desses modelos agora está começando a ser orientada pelos mesmos critérios que os humanos usam para si mesmos”, diz Wolf. Mas ele acrescenta que, sem conhecimento dos detalhes técnicos, é difícil avaliar o quão impressionantes são esses resultados.
Segundo a OpenAI, o GPT-4 tem um desempenho melhor do que o ChatGPT, que é baseado no GPT-3.5, uma versão da tecnologia anterior da empresa, porque é um modelo maior com mais parâmetros, isto é, valores em uma rede neural ajustados durante o treinamento. Isso segue uma tendência importante que a empresa descobriu com seus modelos anteriores. Por exemplo, o GPT-3 superou o GPT-2 porque era mais de 100 vezes maior, com 175 bilhões de parâmetros contra 1,5 bilhão do GPT-2. “Essa fórmula fundamental não mudou muito nos últimos anos”, diz Jakub Pachocki, um dos desenvolvedores do GPT-4. “Mas ainda é como construir uma nave espacial, onde você precisa acertar todos esses pequenos componentes e garantir que nenhum deles falhe”.
Mas a OpenAI optou por não revelar o tamanho do GPT-4. Ao contrário de seus lançamentos anteriores, a empresa não revelou nada sobre como o GPT-4 foi construído. Nem os dados, a quantidade de capacidade de processamento computacional ou as técnicas de treinamento. “A OpenAI agora é uma empresa totalmente fechada com comunicação científica semelhante a comunicados de imprensa sobre seus produtos”, diz Wolf.
A OpenAI diz que passou seis meses tornando o GPT-4 mais seguro e preciso. Segundo a empresa, o GPT-4 tem 82% menos probabilidade do que o GPT-3.5 de responder a solicitações de conteúdo que o OpenAI não permite e 60% menos probabilidade de inventar coisas.
A OpenAI diz que alcançou esses resultados usando a mesma abordagem do ChatGPT, usando reinforcement learning por meio de feedback humano. Isso envolve pedir a avaliadores humanos para pontuar diferentes respostas do modelo e usar essas pontuações para melhorar a produção futura.
A equipe até usou o GPT-4 para aprimorar a si mesmo, pedindo ao modelo que gerasse entradas (inputs) que levassem a respostas tendenciosas, imprecisas ou ofensivas e, em seguida, corrigindo o modelo para que recusasse tais entradas no futuro.
O GPT-4 pode ser o melhor grande modelo de linguagem multimodal já construído. Mas não está em uma classe à parte, como o GPT-3 estava quando apareceu pela primeira vez em 2020. Muita coisa aconteceu nos últimos três anos. Hoje, o GPT-4 está ao lado de outros modelos multimodais, incluindo o Flamingo da DeepMind. Além disso, a Hugging Face está trabalhando em um modelo multimodal de código aberto que será gratuito para outros usarem e adaptarem, diz Wolf.
Diante dessa concorrência, a OpenAI está tratando este lançamento mais como uma prévia de produto do que como uma atualização de pesquisa. As primeiras versões do GPT-4 foram compartilhadas com alguns dos parceiros da OpenAI, incluindo a Microsoft, que confirmou hoje março que usou uma versão do GPT-4 para criar o Bing Chat. A OpenAI também está trabalhando com a Stripe, Duolingo, Morgan Stanley e o governo da Islândia (que está usando o GPT-4 para preservar o idioma islandês), entre outros.
Muitas outras empresas estão esperando na fila: “Os custos para inicializar um modelo dessa escala estão fora do alcance da maioria das empresas, mas a abordagem adotada pela OpenAI tornou os grandes modelos de linguagem muito acessíveis para as startups”, diz Sheila Gulati, cofundadora da empresa de investimentos Tola Capital. “O GPT-4 irá impulsionar uma grande onda de inoção nas startups”.
Nunca antes uma nova Inteligência Artificial (IA) tão poderosa passou do estágio de uso em laboratório para produto voltado para o consumidor tão rapidamente. (Em outras notícias, o Google anunciou que está disponibilizando seu próprio grande modelo de linguagem, o PaLM, para desenvolvedores terceirizados e lançando recursos de chatbot para o Google Docs e Gmail. Além disso, a empresa de IA Anthropic anunciou um novo grande modelo de linguagem chamado Claude, que já vem sendo testado por várias empresas, incluindo a Notion e Quora.)
No entanto, grandes modelos de linguagem permanecem substancialmente falhos. O GPT-4 ainda pode gerar texto tendencioso, falso e odioso, e também pode ser hackeado para burlar suas barreiras de proteção. Embora a OpenAI tenha melhorado essa tecnologia, ela não a consertou totalmente. A empresa afirma que seus testes de segurança foram suficientes para que o GPT-4 seja usado em aplicativos de terceiros. Mas também está preparada para eventuais surpresas.
“Segurança não é uma coisa binária, é um processo”, diz Sutskever. “As coisas ficam complicadas sempre que você atinge um nível de novas capacidades. Muitos desses recursos agora são amplamente conhecidos, mas tenho certeza de que alguns ainda serão surpreendentes”.
Até mesmo Sutskever sugere que, às vezes, é preferível ir mais devagar com os lançamentos: “Seria extremamente desejável alcançar um cenário onde as empresas criassem algum tipo de processo que permitisse lançamentos mais lentos de modelos com esses recursos completamente sem precedentes”.