A série What’s Next da MIT Technology Review analisa todos os setores, tendências e tecnologias para lhe dar uma primeira visão do futuro. Você pode ler o restante de nossa série aqui.
No ano passado, nesta época, fizemos algo imprudente. Em um setor em que nada fica parado, tentamos prever o futuro.
Como nos saímos? Nossas quatro grandes apostas para 2023 eram que a próxima grande novidade em chatbots seria multimodal (acertamos: os mais poderosos modelos de linguagem em grande escala que existem, o GPT-4 da OpenAI e o Gemini do Google DeepMind, trabalham com texto, imagens e áudio); que os formuladores de políticas elaborariam novas regulamentações rígidas (acertamos: a ordem executiva de Biden foi publicada em outubro e a Lei de IA da União Europeia foi finalmente acordada em dezembro); que as grandes empresas de tecnologia se sentiriam pressionadas pelas startups de código aberto (meio certo: o boom do código aberto continua, mas empresas de IA como a OpenAI e a Google DeepMind ainda roubaram os holofotes); e que a IA mudaria definitivamente as grandes empresas farmacêuticas (ainda é cedo para dizer: a revolução da IA na descoberta de medicamentos ainda está em pleno andamento, mas os primeiros medicamentos desenvolvidos com IA ainda estão a alguns anos do mercado).
Agora estamos fazendo isso novamente.
Decidimos ignorar o óbvio. Sabemos que os modelos de linguagem em grande escala continuarão a dominar. Os órgãos reguladores ficarão mais ousados. Os problemas da IA — de preconceito a direitos autorais e doomerismo — moldarão a agenda de pesquisadores, reguladores e do público, não apenas em 2024, mas nos próximos anos. (Leia mais sobre nossas seis grandes questões para a IA generativa aqui).
Em vez disso, escolhemos algumas tendências mais específicas. Aqui está o que você deve observar em 2024.
1. Chatbots personalizados
Você recebe um chatbot! E você recebe um chatbot! Em 2024, as empresas de tecnologia que investiram pesadamente em IA generativa estarão sob pressão para provar que podem ganhar dinheiro com seus produtos. Para fazer isso, os gigantes da IA, Google e OpenAI, estão apostando alto em se tornarem pequenos: ambos estão desenvolvendo plataformas fáceis de usar que permitem que as pessoas personalizem modelos de linguagem poderosos e criem seus próprios minibots de bate-papo que atendam às suas necessidades específicas — sem necessidade de habilidades de codificação. Ambos lançaram ferramentas baseadas na Web que permitem que qualquer pessoa se torne um desenvolvedor de aplicativos de IA generativa.
Em 2024, a IA generativa poderá, de fato, se tornar útil para as pessoas comuns, não tecnológicas, e veremos mais pessoas mexendo em um milhão de pequenos modelos de IA. Os modelos de IA de última geração, como o GPT-4 e o Gemini, são multimodais, o que significa que podem processar não apenas texto, mas também imagens e até vídeos. Esse novo recurso pode abrir uma série de novos aplicativos. Por exemplo, um corretor de imóveis pode fazer upload de textos de anúncios anteriores, ajustar um modelo avançado para gerar textos semelhantes com apenas um clique em um botão, fazer upload de vídeos e fotos de novos anúncios e simplesmente solicitar que a IA personalizada gere uma descrição da propriedade.
Mas é claro que o sucesso desse plano depende do fato de esses modelos funcionarem de forma confiável. Os modelos de linguagem geralmente inventam coisas, e os modelos generativos estão repletos de preconceitos. Eles também são fáceis de serem hackeados, especialmente se tiverem permissão para navegar na Web. As empresas de tecnologia não resolveram nenhum desses problemas. Quando a novidade passar, elas terão de oferecer a seus clientes maneiras de lidar com esses problemas.
-Melissa Heikkilä
2. A segunda onda da IA generativa será o vídeo
É incrível a rapidez com que o fantástico se torna familiar. Os primeiros modelos generativos para produzir imagens fotorrealistas explodiram no mainstream em 2022 — e logo se tornaram comuns. Ferramentas como DALL-E, da OpenAI, Stable Diffusion, da Stability AI, e Firefly, da Adobe, inundaram a internet com imagens de cair o queixo de tudo, desde o papa vestindo Balenciaga até arte premiada. Mas nem tudo é diversão: para cada pug agitando pompons, há outra peça de arte de fantasia falsificada ou estereótipo sexual sexista.
A nova fronteira é o texto para vídeo. Espere que ele pegue tudo o que havia de bom, ruim ou feio na conversão de texto em imagem e o superdimensione.
Há um ano, tivemos o primeiro vislumbre do que os modelos generativos poderiam fazer quando foram treinados para unir várias imagens estáticas em clipes de poucos segundos. Os resultados foram distorcidos e instáveis. Mas a tecnologia melhorou rapidamente.
A Runway, uma startup que produz modelos de vídeo generativos (e a empresa que co-criou a Stable Diffusion), está lançando novas versões de suas ferramentas a cada poucos meses. Seu modelo mais recente, chamado Gen-2, ainda gera vídeos de apenas alguns segundos, mas a qualidade é impressionante. Os melhores clipes não estão muito longe do que a Pixar poderia produzir.
A Runway criou um festival anual de filmes que exibe produções experimentais feitos com uma série de ferramentas de Inteligência Artificial. O festival deste ano tem um prêmio de US$ 60.000, e os 10 melhores filmes serão exibidos em Nova York e Los Angeles.
Não é de surpreender que os principais estúdios estejam de olho. Gigantes do cinema, incluindo a Paramount e a Disney, já exploram o uso de IA generativa em todo o seu pipeline de produção. A tecnologia está sendo usada para sincronizar as performances dos atores com várias dublagens em idiomas estrangeiros. E está reinventando o que é possível fazer com os efeitos especiais. Em 2023, Indiana Jones and the Dial of Destiny foi estrelado por um Harrison Ford deepfake. Isso é apenas o começo.
Longe da tela grande, a tecnologia deepfake para fins de marketing ou treinamento também está decolando. Por exemplo, a Synthesia, sediada no Reino Unido, fabrica ferramentas que podem transformar uma performance única de um ator em um fluxo interminável de avatares deepfake, que recitam qualquer script que você der com o apertar de um botão. De acordo com a empresa, sua tecnologia é usada atualmente por 44% das empresas da Fortune 100.
A capacidade de fazer tanto com tão pouco levanta sérias questões para os atores. As preocupações com o uso e o mau uso da IA pelos estúdios foram o cerne das greves do SAG-AFTRA no ano passado. Mas o verdadeiro impacto da tecnologia só agora está se tornando aparente. “A arte de fazer filmes está mudando fundamentalmente”, diz Souki Mehdaoui, cineasta independente e cofundador da Bell & Whistle, uma consultoria especializada em tecnologias criativas.
-Will Douglas Heaven
3. A desinformação eleitoral gerada por IA estará em toda parte
Se as eleições recentes servirem de referência, a desinformação eleitoral gerada por IA e os deepfakes serão um grande problema quando um número recorde de pessoas comparecerem às urnas em 2024. Já estamos vendo políticos usando essas ferramentas como armas. Na Argentina, dois candidatos à presidência criaram imagens e vídeos gerados por IA de seus oponentes para atacá-los. Na Eslováquia, deepfakes de um líder de um partido liberal pró-europeu ameaçando aumentar o preço da cerveja e fazendo piadas sobre pornografia infantil se espalharam como fogo durante as eleições do país. E nos EUA, Donald Trump aplaudiu um grupo que usa IA para gerar memes com tropos racistas e sexistas.
Embora seja difícil dizer o quanto esses exemplos influenciaram os resultados das eleições, sua proliferação é uma tendência preocupante. Será mais difícil do que nunca reconhecer o que é real. Em um clima político já inflamado e polarizado, isso pode ter consequências graves.
Há apenas alguns anos, a criação de um deepfake exigiria habilidades técnicas avançadas, mas a IA generativa tornou isso estupidamente fácil e acessível, e os resultados estão parecendo cada vez mais realistas. Até mesmo fontes confiáveis podem ser enganadas por conteúdo gerado por IA. Por exemplo, imagens geradas enviadas por usuários e que pretendem retratar a crise entre Israel e Gaza inundaram os mercados de imagens de estoque, como o da Adobe.
O próximo ano será fundamental para aqueles que lutam contra a proliferação desse tipo de conteúdo. As técnicas para rastrear e atenuar esse conteúdo ainda estão em seus primeiros dias de desenvolvimento. As marcas d’água, como o SynthID do Google DeepMind, ainda são, em sua maioria, voluntárias e não são totalmente infalíveis. E as plataformas de mídia social são notoriamente lentas para eliminar a desinformação. Prepare-se para um grande experimento em tempo real para acabar com as notícias falsas geradas por IA.
-Melissa Heikkilä
4. Robôs multitarefa
Inspirados por algumas das principais técnicas por trás do atual boom da IA generativa, os roboticistas estão começando a construir robôs de uso mais versátil que podem realizar uma variedade maior de tarefas.
Nos últimos anos, a IA deixou de usar vários modelos pequenos, cada um treinado para realizar tarefas diferentes — identificar imagens, desenhá-las, legendá-las — e passou a usar modelos únicos e monolíticos treinados para fazer tudo isso e muito mais. Ao mostrar ao GPT-3 da OpenAI alguns exemplos adicionais (conhecidos como ajuste fino), os pesquisadores podem treiná-lo para resolver problemas de codificação, escrever roteiros de filmes, passar em exames de biologia do ensino médio e assim por diante. Modelos multimodais, como o GPT-4 e o Gemini do Google DeepMind, podem resolver tarefas visuais e também linguísticas.
A mesma abordagem pode funcionar para robôs, portanto, não seria necessário treinar um para virar panquecas e outro para abrir portas: um modelo versátil poderia dar aos robôs a capacidade de realizar várias tarefas. Vários exemplos de trabalho nessa área surgiram em 2023.
Em junho, a DeepMind lançou o Robocat (uma atualização do Gato, do ano passado), que gera seus próprios dados a partir de tentativa e erro para aprender a controlar vários braços de robôs diferentes (em vez de um braço específico, o que é mais comum).
Em outubro, a empresa lançou mais um modelo de uso geral para robôs, chamado RT-X, e um grande e novo conjunto de dados de treinamento de uso geral, em colaboração com 33 laboratórios universitários. Outras equipes de pesquisa importantes, como a RAIL (Robotic Artificial Intelligence and Learning) da Universidade da Califórnia, em Berkeley, estão analisando tecnologias semelhantes.
O problema é a falta de dados. A IA generativa se baseia em um conjunto de dados de textos e imagens do tamanho da internet. Em comparação, os robôs têm pouquíssimas fontes de dados de qualidade para ajudá-los a aprender a realizar muitas das tarefas industriais ou domésticas que queremos que eles realizem.
Lerrel Pinto, da Universidade de Nova York, lidera uma equipe que está lidando com isso. Ele e seus colegas estão desenvolvendo técnicas que permitem que os robôs aprendam por tentativa e erro, obtendo seus próprios dados de treinamento à medida que avançam. Em um projeto ainda mais discreto, Pinto recrutou voluntários para coletar dados de vídeo em suas casas usando uma câmera de iPhone montada em um coletor de lixo. Nos últimos dois anos, grandes empresas também começaram a liberar grandes conjuntos de dados para o treinamento de robôs, como o Ego4D da Meta.
Essa abordagem já está se mostrando promissora em carros sem motorista. Startups como Wayve, Waabo e Ghost são pioneiras em uma nova onda de IA de direção autônoma que usa um único modelo grande para controlar um veículo em vez de vários modelos menores para controlar tarefas específicas de direção. Isso permitiu que as pequenas empresas alcançassem gigantes como a Cruise e a Waymo, que agora está testando seus carros sem motorista nas ruas estreitas e movimentadas de Londres. Os robôs de todo o mundo estão prestes a receber um impulso semelhante.
-Will Douglas Heaven