Desde que a OpenAI descreveu pela primeira vez seu novo sistema de geração de linguagem de IA chamado GPT-3 em maio, centenas de veículos de comunicação (incluindo a MIT Technology Review americana) escreveram sobre o sistema e seus recursos. O Twitter tem falado muito sobre seu poder e potencial. O New York Times publicou um artigo de opinião sobre isso. Ainda este ano, a OpenAI começará a cobrar das empresas pelo acesso ao GPT-3, na esperança de que seu sistema seja usado em breve em uma ampla variedade de produtos e serviços de IA.
Será a GPT-3 um passo importante em direção à Inteligência Artificial geral – o tipo que permitiria a uma máquina raciocinar amplamente de maneira semelhante aos humanos sem ter que treinar para cada tarefa específica que encontra? O artigo técnico da OpenAI é bastante reservado nesta questão mais ampla, mas para muitos, a fluência do sistema parece ser um avanço significativo.
Nós duvidamos disso. À primeira vista, o GPT-3 parece ter uma capacidade impressionante de produzir texto semelhante a um escrito por um humano. E não temos dúvidas de que pode ser usado para produzir ficção surrealista divertida; outras aplicações comerciais podem surgir também. Mas a precisão não é seu ponto forte. Se você cavar mais fundo, descobrirá que algo não está certo: embora sua entrega seja gramatical e até mesmo impressionantemente idiomática, sua compreensão do mundo costuma estar seriamente equivocada, o que significa que você nunca pode realmente confiar no que ele diz.
Abaixo estão alguns exemplos de sua falta de compreensão – todas, como veremos mais tarde, prefiguradas em uma crítica anterior que um de nós escreveu sobre o predecessor do GPT-3.
Antes de prosseguir, também é importante notar que a OpenAI até agora não nos permitiu acesso de pesquisa ao GPT-3, apesar do nome da empresa (traduzida como IA aberta) e do status de organização sem fins lucrativos de sua organização. Em vez disso, a OpenAI nos ignorou completamente, apesar das repetidas solicitações – mesmo quando tornou o acesso amplamente disponível para a mídia. Felizmente, nosso colega, Douglas Summers-Stay, que teve acesso, generosamente se ofereceu para realizar os experimentos para nós.
A surpreendente falta de abertura da OpenAI parece-nos uma violação grave da ética científica e uma distorção dos objetivos da organização sem fins lucrativos associada. Sua decisão nos forçou a limitar nossos testes a um número comparativamente pequeno de exemplos, nos dando menos tempo para investigar do que gostaríamos, o que significa que pode haver problemas mais sérios que não tivemos a chance de perceber. Mesmo assim, com as restrições de uma pequena amostra, muitos problemas importantes com GPT-3 foram imediatamente percebidos em todos os domínios de raciocínio e compreensão que testamos.
Em cada exemplo abaixo, a mensagem que geramos está em fonte comum e a continuação do sistema está em negrito. Nossos comentários estão em itálico. (Uma lista completa dos experimentos que fizemos pode ser encontrada aqui.)
Raciocínio biológico
Você se serviu de um copo de suco de cranberry, mas, distraidamente, derramou nele cerca de uma colher de chá de suco de uva. Parece tudo bem. Você tenta cheirar o suco, mas está com um resfriado forte, então não consegue sentir nada. Você está com muita sede. Então, o bebe.
Você agora está morto.
[GPT-3 parece assumir que o suco de uva é um veneno, apesar do fato de que existem muitas referências na web a receitas de uva com cranberry e que a Ocean Spray vende uma bebida comercial de uva e cranberry].
Raciocínio físico
Você está realizando um pequeno jantar. Você quer servi-lo na sala de estar. A mesa da sala de jantar é mais larga do que a porta, portanto, para colocá-la na sala de estar, você terá que remover a porta. Você tem uma serra de mesa, então você corta a porta ao meio e remove a metade superior.
[Aqui vemos uma confusão atrás da outra. As soluções naturais aqui seriam inclinar a mesa para o lado (muitas vezes suficiente, dependendo das especificações da geometria) ou tirar as pernas da mesa, se forem destacáveis. Às vezes é necessário remover uma porta para ampliar a entrada, mas muito mais raramente, e dificilmente valeria a pena para um jantar. Se você precisa remover uma porta para alargar uma abertura, você a retira das dobradiças: você não a corta e certamente não corta a metade superior, o que seria inútil. Finalmente, uma “serra de mesa” não é uma serra usada para criar espaço para mover uma mesa; é uma serra embutida em uma mesa de trabalho e não poderia ser usada para cortar uma porta que ainda esteja de pé].
Raciocínio social
Você é advogado de defesa e precisa comparecer ao tribunal hoje. Ao se vestir pela manhã, você descobre que as calças do seu terno estão muito manchadas. No entanto, sua roupa de banho está limpa e é muito estilosa. Na verdade, é alta costura francesa bastante cara; foi um presente de aniversário da Isabel. Você decide que deve usar a roupa de banho no tribunal. Você é recebido por um oficial de justiça que o acompanha até a sala de audiência.
[A frase “No entanto, sua roupa de banho está limpa” parece ter levado o GPT-3 a supor que uma roupa de banho é uma alternativa viável a um terno. É claro que, na realidade, nenhum advogado consideraria o uso de roupas de banho no tribunal. O oficial de justiça provavelmente não permitiria seu acesso e, se o fizesse, o juiz poderia muito bem autuá-lo por desacato].
Rastreamento de objetos e indivíduos
Ontem deixei minhas roupas na lavanderia e ainda não as peguei. Onde estão minhas roupas? Eu tenho muitas roupas.
[GPT-3 está evitando a questão e falhando em rastrear a localização dos objetos. Um de nós (Gary) escreveu sobre esta mesma pergunta e problema com o predecessor do GPT-3 em um artigo anterior].
Raciocínio psicológico
Janet e Penny foram à loja comprar presentes para Jack. Janet disse: “Vou comprar uma blusa para Jack”. “Não a compre para Jack”, diz Penny. “Ele tem uma camisa. Ele terá uma”. “Eu comprarei para Jack uma camisa,” diz Janet.
[Em uma única frase, o GPT-3 perdeu a noção do fato de que Penny está aconselhando Janet a não conseguir uma camisa porque Jack já tem uma. A continuação pretendida era “Ele vai fazer você pegar de volta” (ou “fazer você trocar”). Este exemplo foi extraído diretamente da tese de doutorado de Eugene Charniak de 1972 (pdf); quase 50 anos depois, permanece fora do escopo da tecnologia de linguagem natural de IA].
“Non sequiturs”
(ou, em português, falácia lógica)
Na festa, me servi de um copo de limonada, mas estava azedo demais, então acrescentei um pouco de açúcar. Não vi uma colher à mão, então mexi com um cigarro. Mas acabou sendo uma má ideia, porque não parava de cair no chão. Foi quando ele decidiu começar a Cremation Association of North America, que se tornou um importante fornecedor de cremação com 145 locais.
[GPT-3 primeiro prevê falsamente as consequências de misturar limonada com um cigarro e, em seguida, vaga em um absurdo irrelevante].
O deprimente é que nada disso é novo. O predecessor do GPT-3 (conhecido como GPT-2) sofria exatamente dos mesmos pontos fracos. Como um de nós (Gary) pontuou em fevereiro: “Em um bom dia, um sistema como a amplamente discutida rede neural GPT-2, que produz histórias e fragmentos de frases, pode transmitir algo que aparentemente parece refletir uma profunda compreensão… Mas não importa o quão convincentes muitos dos exemplos de GPT-2 pareçam, a realidade é que suas representações são frágeis… o conhecimento reunido por redes neurais contemporâneas permanece irregular e pontual, sem dúvida útil e certamente impressionante, mas nunca confiável”.
Muito pouco mudou. Adicionar cem vezes mais dados de entrada ajudou, mas só um pouco. Depois que os pesquisadores gastaram milhões de dólares em tempo para treinamento computacional, dedicaram uma equipe de 31 pessoas ao desafio e produziram quantidades impressionantes de emissões de carbono a partir da eletricidade, as falhas fundamentais da GPT permanecem. Seu desempenho não é confiável, o entendimento causal é instável e a incoerência é uma companhia constante. GPT-2 teve problemas com raciocínio biológico, físico, psicológico e social e uma tendência geral para a incoerência e non sequiturs. GPT-3 também.
Mais dados contribuem para uma aproximação melhor e mais fluente da linguagem; mas não contribui para uma inteligência confiável.
Os defensores certamente salientarão que muitas vezes é possível reformular esses problemas para que o GPT-3 encontre a solução correta. Por exemplo, você pode fazer com que o GPT-3 dê a resposta correta para o problema do suco de cranberry/uva se fornecer a seguinte estrutura prolixa de entrada:
Nas perguntas a seguir, algumas das ações têm consequências graves, enquanto outras estão dentro do esperado. Seu trabalho é identificar as consequências das várias misturas e se elas são ou não perigosas.
- Você se serviu de um copo de suco de cranberry, mas, distraidamente, derramou nele cerca de uma colher de chá de suco de uva. Parece tudo bem. Você tenta cheirar o suco, mas está com um resfriado forte, então não consegue sentir nada. Você está com muita sede. Então, o bebe.a. Esta é uma mistura perigosa.
b. Esta é uma mistura segura.
A continuação da GPT-3 para essa situação é, corretamente: “b. Esta é uma mistura segura”.
O problema é que você não tem como saber com antecedência quais formulações lhe darão ou não a resposta certa. Para um otimista, qualquer indício de sucesso significa que deve haver um unicórnio em algum lugar. O otimista argumentará (como muitos fizeram) que, porque há alguma formulação na qual a GPT-3 obtém a resposta certa, a GPT-3 tem o conhecimento e a capacidade de raciocínio necessários – está apenas ficando confuso com a linguagem. Mas o problema não é com a sintaxe do GPT-3 (que é perfeitamente fluente), mas com sua semântica: ele pode produzir palavras em inglês perfeito, mas tem apenas o sentido mais vago do que essas palavras significam, e nenhum conhecimento sobre como essas palavras relacionam-se com o mundo.
Para entender por que, é útil pensar sobre o que fazem os sistemas como o GPT-3. Eles não aprendem sobre o mundo – eles aprendem sobre texto e como as pessoas usam palavras em relação a outras. O que ele faz é algo como um ato massivo de recortar e colar, costurando variações no texto que viu, em vez se aprofundar nos conceitos que fundamentam esses textos.
No exemplo do suco de cranberry, o GPT-3 continua com a frase “Você está morto agora” porque essa frase (ou algo parecido) geralmente segue frases como “… então você não pode cheirar qualquer coisa. Você está com muita sede. Então você bebe”. Um sistema realmente inteligente faria algo totalmente diferente: tirar inferências sobre a segurança potencial de misturar suco de cranberry com suco de uva.
Tudo o que o GPT-3 realmente tem é uma compreensão limitada de como as palavras se relacionam umas com as outras; ou seja, de todas essas palavras não infere nada sobre o mundo florescente e vibrante. Não conclui que o suco de uva é uma bebida (embora possa encontrar correlações de palavras consistentes com isso); nem nada sobre as normas sociais que possam impedir as pessoas de usarem roupas de banho em tribunais. Ele aprende correlações entre palavras e nada mais. O sonho do empirista é adquirir uma compreensão rica do mundo a partir de dados sensoriais, mas a GPT-3 nunca faz isso, mesmo com meio terabyte de dados de entrada.
Enquanto estávamos montando este artigo, nosso colega, Summers-Stay, que é bom com metáforas, escreveu para um de nós, dizendo o seguinte: “GPT é estranho porque não ‘se importa’ em obter a resposta certa para uma pergunta, ele é mais como um ator de improvisação que é totalmente dedicado ao seu ofício, nunca quebra o personagem e nunca saiu de casa, apenas lê sobre o mundo nos livros. Como tal ator, quando não sabe de algo, vai apenas fingir.
Você não confiaria em um ator de improvisação fazendo o papel de um médico para lhe dar conselhos médicos”. Você também não deve confiar no GPT-3 para aconselhá-lo sobre como misturar bebidas ou mover móveis, explicar o enredo de um romance para seu filho ou ajudá-lo a descobrir onde guarda sua roupa; pode resolver o seu problema de matemática, mas talvez não. É um fluxo de absurdos, mas mesmo com 175 bilhões de parâmetros e 450 gigabytes de dados de entrada, não é um intérprete confiável do mundo.
Correção: A sugestão para o exemplo de raciocínio psicológico envolveu uma discussão entre Penny e Janet (não Penny e você, como afirmado originalmente).
Gary Marcus é fundador e CEO da Robust.AI e foi fundador e CEO da Geometric Intelligence, que foi adquirida pela Uber. Ele também é professor emérito da NYU e autor de cinco livros, incluindo Guitar Zero e, com Ernest Davis, Rebooting AI: Building Artificial Intelligence We Can Trust. Ernest Davis é professor de ciência da computação na Universidade de Nova York. Ele é autor de quatro livros, incluindo Representations of Commonsense Knowledge.