OpenAI lança nova versão de seu modelo GPT

Banner indicando a posição do botão de download do artigo em formato pdf

A OpenAI acaba de lançar o GPT-4o, um novo tipo de modelo de IA com o qual você pode se comunicar em tempo real por meio de conversas de voz ao vivo, transmissões de vídeo do seu celular e texto. Disponibilizado gratuitamente para todos — embora os usuários dos planos pagos possam fazer mais solicitações —, o modelo é acessível tanto pelo aplicativo GPT quanto pela interface web.

A CTO da OpenAI, Mira Murati, liderou a demonstração ao vivo do novo lançamento um dia antes de o Google revelar suas próprias inovações em inteligência artificial na sua conferência principal, o I/O, na terça-feira, 14 de maio.

O GPT-4 já oferecia capacidades semelhantes, permitindo aos usuários várias formas de interagir com os modelos de IA da OpenAI. No entanto, essas interações estavam separadas em diferentes sistemas, resultando em tempos de resposta mais longos e, presumivelmente, custos computacionais mais altos. O GPT-4o agora unificou essas capacidades em um único modelo, que Murati chamou de “omnimodelo”. Isso significa respostas mais rápidas e transições mais suaves entre tarefas, segundo ela.

O resultado, segundo a demonstração da empresa, é um assistente conversacional similar ao Siri ou Alexa, mas capaz de lidar com prompts de comando muito mais complexos.

“Estamos olhando para o futuro da interação entre nós e as máquinas”, disse Murati na demonstração. “Achamos que o GPT-4o realmente está mudando esse paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural.”

Barret Zoph e Mark Chen, ambos pesquisadores da OpenAI, apresentaram várias aplicações para o novo modelo. A mais impressionante foi sua habilidade com conversas ao vivo: você podia interromper o modelo durante suas respostas, e ele parava, ouvia e ajustava o curso da interação.

A OpenAI também mostrou a capacidade de mudar o tom do modelo. Chen pediu ao modelo para ler uma história de ninar “sobre robôs e amor”, rapidamente exigindo uma voz mais dramática. O modelo ficou progressivamente mais teatral até que Murati pediu que ele mudasse rapidamente para uma voz de robô convincente (o que ele fez com excelência). Embora houvesse algumas pausas curtas durante a conversa enquanto o modelo raciocinava sobre o que dizer a seguir, destacou-se como uma conversa de IA surpreendentemente natural.

O modelo também pode raciocinar sobre problemas visuais em tempo real. Usando seu celular, Zoph filmou-se escrevendo uma equação de álgebra (3x + 1 = 4) em uma folha de papel, com o GPT-4o acompanhando. Ele instruiu o modelo a não fornecer respostas, mas sim a orientá-lo como um professor faria.

“O primeiro passo é colocar todos os termos com x de um lado”, disse o modelo em um tom amigável. “Então, o que você acha que devemos fazer com esse +1?”

Como as gerações anteriores do GPT (sigla em inglês para Generative Pre-trained Transformer, ou Transformador Pré treinado Generativo, na tradução em português), o GPT-4o armazena registros das interações dos usuários com ele, o que significa que o modelo “tem um senso de continuidade em todas as suas conversas”, de acordo com Murati. Outros novos destaques incluem tradução ao vivo, a habilidade de pesquisar nas conversas anteriores do usuário com o modelo e a capacidade de buscar informações em tempo real.

Como é comum em demonstrações ao vivo, houve falhas e glitches. A voz do GPT-4o pode soar estranha durante a conversa e ele comentou sobre a roupa de um dos apresentadores, mesmo sem ser solicitado. Mas recuperou-se bem quando os demonstradores disseram ao modelo que ele havia cometido um erro. Ele parece ser capaz de responder de forma útil e rápida em vários formatos que outros modelos ainda não unificaram de maneira eficaz.

Anteriormente, muitos dos recursos mais poderosos da OpenAI, como raciocinar sobre imagens e vídeos, estavam atrás de um paywall. O GPT-4o marca a primeira vez em que esses recursos estão abertos ao público em geral, embora ainda não esteja claro quantas interações é possível ter com o modelo antes de ser cobrado. A OpenAI diz que assinantes pagantes “continuarão a ter até cinco vezes os limites de capacidade dos nossos usuários gratuitos.”

Por James O’Donnell, Repórter de inteligência artificial da MIT Technology Review, com foco nas promessas e riscos de tecnologias como veículos autônomos, robôs cirúrgicos e chatbots.

Assine

GPT-4o da OpenAI permite interações por voz ou vídeo no mesmo modelo

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Por que a ‘Cúpula Dourada’ de Trump é mais uma tirada diretamente dos filmes

Quando a tecnologia encontra a religião: como as igrejas usam dados e IA

Último vídeo

A nova fronteira do controle de peso

A nova fronteira do controle de peso

Da disruptura tecnológica à alimentar

A restrição calórica pode ajudar animais a viver mais. E quanto aos humanos?

Estamos descobrindo mais sobre os efeitos dos medicamentos para perda de peso no corpo

Novos rumos na regulamentação de alimentos e medicamentos sob a administração Trump

A verdadeira jornada do peso: para onde ele vai quando você o perde?

Medicamentos para perda de peso estão entre as 10 Tecnologias Inovadoras de anunciadas em 2024

Q+A Maria Edna de Melo — Comer é um ato instintivo

Confiabilidade, o elo frágil da matriz elétrica

‘Escudo de silício’ de Taiwan pode estar enfraquecendo

Guerra conectada: o papel da internet por satélite nas batalhas modernas

Orquestrar a inovação: os bastidores técnicos, humanos e regulatórios da transformação energética

Policrise ou Polipreparação? Conheça as metadisrupções

Forçar grandes modelos de linguagem a serem malignos durante o treinamento pode torná-los mais amigáveis no longo prazo

Este radar quântico pode detectar objetos enterrados

Como juízes pioneiros estão usando a Inteligência Artificial

Nossos tópicos

Newsletter

Conecte-se

Assine nossa newsletter

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos