Padrões ocultos intencionalmente enterrados em textos gerados por Inteligência Artificial (IA) podem servir como marcadores característicos e permitir que eles sejam identificados, nos possibilitando dizer se as palavras que estamos lendo são escritas por um humano ou não.
Essas espécies de “marcas d’água” são invisíveis ao olho humano, mas permitem que os computadores detectem se o texto foi provavelmente criado por um sistema de IA. Se incorporados em grandes modelos de linguagem, eles podem ajudar a conter alguns dos problemas que esses modelos já causaram.
Por exemplo, desde que o chatbot ChatGPT da OpenAI foi lançado em novembro, alunos já começaram a usá-lo para que a IA escrevesse suas redações para eles. O site de notícias CNET usou o ChatGPT para escrever artigos, somente para, em meio a acusações de plágio, emitir correções. Construir essa espécie de marca d’água em tais sistemas antes de serem lançados pode ajudar a resolver esses problemas.
Em estudos, essas marcas d’água já foram usadas para identificar com quase certeza se um texto foi gerado por IA. Pesquisadores da Universidade de Maryland (EUA), por exemplo, conseguiram identificar o texto criado pelo modelo de linguagem de código aberto da Meta, OPT-6.7B, usando um algoritmo de detecção que eles construíram. O trabalho é descrito em um artigo que ainda não foi revisado por pares, e o código estará disponível gratuitamente por volta de 15 de fevereiro.
Os modelos de linguagem de IA funcionam prevendo e gerando uma palavra por vez. Na pesquisa, depois de cada palavra ser gerada, o algoritmo de marca d’água divide aleatoriamente o vocabulário do modelo de linguagem em palavras em uma “lista verde” e uma “lista vermelha” e, em seguida, solicita que o modelo escolha palavras na lista verde.
Quanto maior for o número de palavras da lista verde em um trecho, mais provável é que o texto tenha sido gerado por uma máquina. O texto escrito por uma pessoa tende a conter uma mistura mais aleatória. Por exemplo, para a palavra “linda”, o algoritmo de marca d’água pode classificar a palavra “flor” como verde e “orquídea” como vermelha. O modelo de IA com o algoritmo de marca d’água teria mais probabilidade de usar a palavra “flor” do que “orquídea”, explica Tom Goldstein, professor assistente da Universidade de Maryland, envolvido na pesquisa.
O ChatGPT faz parte de uma nova geração de grandes modelos de linguagem que geram texto tão fluídos que podem ser confundidos com a escrita humana. Esses modelos de IA regurgitam fatos com confiança, mas são notórios por espalhar inverdades e preconceitos. Para o olho destreinado, pode ser quase impossível distinguir uma passagem escrita por um modelo de IA de uma escrita por um humano. A velocidade vertiginosa do desenvolvimento de IA significa que modelos novos e mais poderosos rapidamente tornam nosso kit de ferramentas existente para detectar texto artificial menos eficaz. É uma corrida constante entre os desenvolvedores de IA para construir novas ferramentas de segurança que possam corresponder à última geração de modelos de IA.
“Atualmente, estamos no Velho Oeste”, diz John Kirchenbauer, pesquisador da Universidade de Maryland, envolvido no trabalho de marca d’água. Ele espera que essas ferramentas possam auxiliar de forma mais concreta os esforços de detecção de IA. O algoritmo desenvolvido pela sua equipe pode ser ajustado para funcionar com qualquer modelo de linguagem de IA que preveja a próxima palavra, diz ele.
As descobertas são promissoras e oportunas, diz Irene Solaiman, diretora de políticas da startup de IA, a Hugging Face, que, em seu cargo anterior como pesquisadora de IA na OpenAI, trabalhou no estudo da detecção dos resultados da IA, mas não esteve envolvida nesta pesquisa.
“Como os modelos estão sendo desenvolvidos em uma escala ascendente, mais pessoas fora da comunidade de IA, provavelmente sem treinamento em ciência da computação, precisarão ter acesso a esses métodos de detecção”, diz Solaiman.
No entanto, existem limitações para este novo método. A marca d’água só funciona se for incorporada ao grande modelo de linguagem desde o início. E embora a OpenAI esteja supostamente trabalhando em métodos para detectar texto gerado por IA, incluindo marcas d’água, a pesquisa permanece extremamente sigilosa. A empresa não costuma fornecer muitas informações a terceiros sobre como o ChatGPT funciona ou foi treinado, muito menos acesso para mexer nele. A OpenAI também não respondeu ao nosso pedido de comentário.
Tampouco está claro como este novo trabalho se aplicará a outros modelos além da Meta, como o ChatGPT, diz Solaiman. O modelo de IA no qual a marca d’água foi testada também é menor do que comparado a outros modelos populares como o ChatGPT.
Mais testes são necessários para explorar as diferentes maneiras pelas quais alguém pode tentar burlar os métodos de marca d’água, mas os pesquisadores dizem que as opções são limitadas. “Você teria que mudar cerca de metade das palavras em uma passagem de texto antes que a marca d’água pudesse ser removida”, diz Goldstein.
“É perigoso subestimar alunos do ensino médio, então não vou fazer isso”, diz Solaiman. “Mas, de forma geral, a pessoa comum provavelmente não conseguirá adulterar esse tipo de marca d’água”.