A multinacional de IA Nvidia publicou em julho uma demonstração de sua promessa de obter resultados de ‘dez anos de treinamento virtual em apenas dez dias de tempo real’. Utilizando um de seus simuladores GPU, capazes de processar gigantes quantidades de dados e que são usados hoje pela NASA, e novas técnicas de visão computacional e de construção de redes neurais, a empresa criou um modelo para treinar avatares lutadores.
Esses agentes não apenas adquiriram habilidades motoras em 0,27% do tempo que um simulador virtual com uso de dados puramente reais entregaria, como também demonstraram maior precisão de movimentos, de deslocamento e de controle para sair de várias situações aleatórias às quais foram expostos.
A grande sacada aqui está na forma como os sistemas foram programados para treinar os agentes: dados sintéticos foram utilizados para criar um conjunto de movimentos não estruturado, com os agentes recebendo diretamente exemplos de movimentos que a empresa gostaria que eles executassem. O jeito tradicional seria projetar um conjunto de tarefas específicas para os agentes executarem e construírem um repertório, passo a passo, à medida em que interagem no ambiente virtual (como na prática convencional de animação de personagens).
A Nvidia ainda sobrepôs o conjunto de movimento não estruturado construído a partir de dados sintéticos com um segundo, que simula movimentos com dados reais. Ou seja, o que vemos na tela é um movimento que o olho humano reconhece como verdadeiro. É possível conhecer o framework do que a NVIDIA fez neste paper. Este é um dos exemplos interessantes do que hoje pesquisadores da inteligência artificial veem como nova fronteira de evolução. Depender de dados reais faria os agentes virtuais demorarem até dez anos para ser capazes de lutar em um nível convincente para nosso olho humano. Mas não é só o custo do tempo o problema, é também o de oportunidade.
Por que olhar para os dados sintéticos
Depender da coleta de dados reais ficou caro e demorado, perigoso (riscos cibernéticos, de segurança e privacidade) para muitos negócios. Em uma pesquisa recente com 100 executivos de diversos setores, sendo quase um terço deles pertencentes a empresas com mais de 1 mil funcionários, 82% reconhecem que sua empresa está em risco quando coleta dados do ‘mundo real’. Em termos de oportunidades de inovação, a dependência de dados reais para criar serviços e produtos com inteligência artificial deu maior poder de barganha a um rol pequeno de empresas de tecnologia que alimentaram suas bases por anos com informações de usuários sem serem incomodadas. Compartilhar dados pessoais para empresas em troca de seus serviços também não é a vontade de 51% dos consumidores, segundo uma pesquisa da Privitar.
Dados sintéticos x dados reais
Dados sintéticos são amostras geradas artificialmente por computadores: ou seja, não foram obtidos através da observação direta do mundo real e coleta de informações. Aproveitam-se recursos de computação para criá-los, sem depender de trabalho humano para coletá-los, raspá-los ou realizar a curadoria do que usar. Na prática, isso significa que “é possível construir modelos de machine learning que queremos, quando queremos”, usando a definição de Lina Avancini Colucci, da Infinity IA. “Em outras palavras: os dados sintéticos nos permitem construir um pipeline que é orientado por metas versus orientado por disponibilidade de dados”, escreveu Avancini.
Alexander Linden, VP Analyst do Gartner, analisou que, embora os dados reais sejam quase sempre a melhor fonte de insights, os sintéticos podem ajudar a criar ou treinar modelos de IA mais precisos e versáteis. Também podem servir de complemento: criando um conjunto que aprimore ou mitigue pontos fracos dos dados reais. Linden exemplifica: dados reais são casuais, contêm vieses ou refletem apenas eventos possíveis no mundo real, deixando de fora condições não vistas e limitando resultados e inovações. “Quando dados sintéticos estão disponíveis em abundância, há a capacidade de selecionar (e criar) dados para necessidades específicas, em vez de ficar limitado ao que está disponível e de código aberto em plataformas”. Em países africanos, por exemplo, onde uma parte significativa da população não tem acesso à internet, é um desafio coletar dados reais para personalizar ofertas virtuais ou até criar sistemas de detecção de fraude no e-commerce.
O MIT defende que “dados artificiais podem ser usados para treinar IAs em áreas onde os dados reais são escassos ou muito sensíveis para uso, como no caso de registros médicos ou dados financeiros pessoais”. E lembra que, muito embora, a ideia de dados sintéticos não seja nova (carros sem motorista foram treinados em ruas virtuais), no ano passado a tecnologia se espalhou, com uma série de startups e universidades oferecendo dados sintéticos ou ferramentas de códigos abertos para criação deles. Até 2024, aliás, 60% dos dados usados para o desenvolvimento de IA e análises de projetos serão gerados sinteticamente, prevê o Gartner. Se os dados são o novo petróleo, usar o sintético é como se estivéssemos criando o petróleo. Mas a um custo muito menor.
Os dilemas e perigos
Mas não é só de otimismo que se vive e, como tudo na vida, há desafios, barreiras e cuidados a serem levados em conta. Os dados sintéticos apresentam seus próprios problemas, sendo um deles a mudança de domínio que surge porque os dados sintéticos não são reais. A startup Synthesis IA enxerga isso como um desafio: é preciso treinar um modelo em um domínio (dados sintéticos) e aplicá-lo em um domínio diferente (dados reais), o que leva a todo um campo de IA chamado de adaptação de domínio. Além disso, há o próprio questionamento sobre se, de fato, dados sintéticos são realmente capazes de substituir dados reais. Um estudo publicado por pesquisadores da Carnegie Mellon descreveu 10 desafios para o que defendem ser um grande problema atual: a lacuna de realidade dos dados sintéticos.
E há, claro, questionamentos éticos que persistem. Empresas criam um carro autônomo a partir de informações sintéticas de trânsito, movimentação, cidades e comportamento humano. Se um acidente ocorre, a culpa é de quem? Se foi a própria máquina quem treinou a máquina, de quem é a responsabilidade? O próprio DALL-E, um dos exemplos mais bem-sucedidos e conhecidos hoje sobre uso de IA para gerar imagens automaticamente a partir de descrições de texto, reconhece que precisa analisar ainda como seu produto, criado partir de 12 bilhões de parâmetros treinados, se relaciona a questões sociais e econômicas. Bem como o potencial que seu produto tem de gerar imagens a partir de certos vieses. De todo modo, o que o DALL-E está criando é fascinante em termos de geração de imagens a partir do zero, de novas combinações possíveis e de transformação do que entendemos hoje por linguagem, imagem e percepção visual.
O potencial dos dados sintéticos
Embora sua evolução caminhe com riscos, os dados sintéticos têm o potencial de transformar a economia, a forma como tomadores de decisão preveem comportamentos de mercado e até de moldar o que podemos falar em nova geopolítica dos dados. Ao democratizar o acesso a dados, mesmo que sintéticos, empresas menores poderão começar a concorrer com alguma chance com players que, talvez antes, nunca teriam a chance de desafiar. Usuários também não precisariam trocar suas informações pessoais pelo uso de um serviço.
O próprio Facebook (atual Meta), depois de tantas ações e processos contra sua coleta e uso irregular de dados pessoais dos usuários, percebeu que tem uma lacuna a ser preenchida. Segundo o VentureBeat, a Meta adquiriu sem muito alarde um dos primeiros serviços dedicados a dados sintéticos, o AI.Reverie. “Esta aquisição destaca que mesmo uma empresa como o Facebook, conhecida por sua vasta base de dados, ainda tem um gap em sua capacidade de coletar o que é necessário para treinar a IA”. Quem dominar com segurança o dado sintético, vai dominar uma parte importante do futuro: fazendo o próprio metaverso, o próprio filme, um comercio eletrônico muito mais personalizado, criando novos cenários de estudos, cidades virtuais e previsões para os negócios. E como os agentes da Nvidia já demonstraram: nós não temos dez anos para esperar que o modelo perfeito esteja pronto.
Este artigo foi produzido por Guga Stocco, membro do Conselho de Administração do Banco Original, Totvs, Vinci e Grupo Soma, fundador da Futurum Capital e colunista da MIT Technology Review Brasil.