Você pode ver a barba por fazer aparecendo em seu lábio superior, as rugas em sua testa, as manchas em sua pele. Ele não é uma pessoa real, mas deve imitá-la — assim como as centenas de milhares de outras feitas pela Datagen, uma empresa que vende simulações de humanos falsos.
Esses humanos não são avatares de jogos ou personagens animados de filmes. Eles são dados sintéticos projetados para alimentar o apetite crescente por algoritmos do deep learning. Empresas como a Datagen oferecem uma alternativa atraente para o processo caro e demorado de coleta de dados do mundo real. Elas farão isso para você: como e quando você quiser — tudo feito de forma relativamente barata.
Para gerar seus humanos sintéticos, a Datagen primeiro faz uma verificação de seres humanos reais. Ela faz parceria com fornecedores que pagam às pessoas para entrarem em máquinas de scanners gigantes de corpo inteiro que capturam todos os detalhes, desde a íris até a textura da pele e a curvatura dos dedos. A startup então pega os dados brutos e os insere em uma série de algoritmos, que desenvolvem representações 3D do corpo, rosto, olhos e mãos de uma pessoa.
A empresa, que tem sede em Israel, diz que já está trabalhando com quatro grandes gigantes da tecnologia dos Estados Unidos, embora não divulgue quem são elas oficialmente. Sua concorrente mais próxima, Synthesis AI, também oferece humanos digitais sob demanda. Outras empresas geram dados para serem usados em finanças, seguros e saúde. Existem quase tantas empresas de dados sintéticos quanto tipos de dados disponíveis.
Antes vistos como menos desejáveis do que os dados reais, os dados sintéticos agora são vistos por alguns como uma panaceia. Os dados reais são confusos e enviesados. Novos regulamentos de privacidade de dados dificultam a coleta. Por outro lado, os dados sintéticos são puros e podem ser usados para construir conjuntos mais diversos. Rostos perfeitamente identificáveis, digamos, de diferentes idades, formas e etnias podem ser produzidos a fim de se construir um sistema de detecção de rostos que funcione entre as populações.
Mas os dados sintéticos têm suas limitações. Se não conseguirem refletir a realidade, podem acabar produzindo uma Inteligência Artificial ainda pior do que os dados confusos e tendenciosos do mundo real — ou podem simplesmente herdar os mesmos problemas. “O que não quero fazer é aceitar esse paradigma e dizer: ‘Ah, isso vai resolver tantos problemas’”, diz Cathy O’Neil, cientista de dados e fundadora da firma de auditoria algorítmica ORCAA. “Porque, ao mesmo tempo, também irá ignorar muitos deles”.
Realista, não real
O deep learning sempre foi sobre dados. Mas, nos últimos anos, a comunidade de IA aprendeu que bons dados são mais importantes do que big data. Mesmo pequenas quantidades de dados corretamente identificados podem fazer mais para melhorar o desempenho de um sistema de IA do que 10 vezes a quantidade de dados não revisados, ou mesmo um algoritmo mais avançado.
Isso muda a forma como as empresas devem abordar o desenvolvimento de seus modelos de IA, diz o CEO e cofundador da Datagen, Ofir Chakon. Hoje, elas começam adquirindo o máximo de dados possível e, em seguida, modificam e ajustam seus algoritmos para um melhor desempenho. Em vez disso, elas deveriam fazer o oposto: usar o mesmo algoritmo enquanto melhoram a composição de seus dados.
Mas coletar dados do mundo real para realizar esse tipo de experimentação iterativa é muito caro e demorado. É aí que a Datagen entra. Com um gerador de dados sintéticos, as equipes podem criar e testar dezenas de novos conjuntos de dados por dia para identificar qual deles maximiza o desempenho de um modelo.
Para garantir o realismo de seus dados, a Datagen dá aos seus fornecedores instruções detalhadas sobre quantos indivíduos devem escanear em cada faixa etária, faixa de IMC e etnia, bem como uma lista definida de ações para eles realizarem, como caminhar em uma sala ou beber um refrigerante. Os fornecedores enviam de volta imagens estáticas de alta fidelidade e dados de captura de movimento dessas ações. Os algoritmos da Datagen, então, expandem esses dados em centenas de milhares de combinações. Os dados sintetizados, às vezes, são verificados novamente. Rostos falsos são comparados com rostos reais, por exemplo, para ver se eles parecem realistas.
A Datagen agora está gerando expressões faciais para monitorar o estado de alerta dos motoristas em carros inteligentes, movimentos corporais para rastrear clientes em lojas sem caixa, além das oscilações de íris e das mãos para melhorar os recursos de rastreamento ocular e manual dos fones de ouvido de realidade virtual. A empresa afirma que seus dados já foram usados para desenvolver sistemas de visão computacional que atendem a dezenas de milhões de usuários.
Não são apenas humanos sintéticos que estão sendo fabricados em massa. Click-Ins é uma startup que usa IA sintética para realizar inspeções automatizadas de veículos. Usando um software de design, ele recria todas as marcas e modelos de carros que sua IA precisa reconhecer e, em seguida, os renderiza com diferentes cores, danos e deformações sob diferentes condições de iluminação, contra diferentes fundos. Isso permite que a empresa atualize sua IA quando os fabricantes de automóveis lançam novos modelos e ajuda a evitar violações de privacidade de dados em países onde as placas são consideradas informações privadas e, portanto, não podem estar presentes em fotos usadas para treinar IA.
Click-Ins renderiza carros de diferentes marcas e modelos em vários fundos. / CLICK-INS
A Mostly.ai trabalha com empresas financeiras, de telecomunicações e de seguros para fornecer planilhas de dados falsos de clientes que permitem às empresas compartilhar seu banco de dados de consumidores com fornecedores externos de uma forma legalmente compatível. O anonimato pode reduzir a riqueza de um conjunto de dados, e, ainda assim, falhar em proteger adequadamente a privacidade das pessoas. Mas os dados sintéticos podem ser usados para gerar conjuntos de dados falsos detalhados que compartilham as mesmas propriedades estatísticas daqueles reais de uma empresa. Também podem ser usados para simular dados que a empresa ainda não possui, incluindo uma população de clientes mais diversificada ou cenários como atividades fraudulentas.
Os defensores dos dados sintéticos dizem que eles também podem ajudar a avaliar a IA. Em um artigo recente publicado em uma conferência de IA, Suchi Saria, professora associada de machine learning e saúde na Universidade Johns Hopkins, e seus co-autores demonstraram como as técnicas de geração de dados podem ser usadas para extrapolar diferentes populações de pacientes a partir de um único conjunto de dados . Isso poderia ser útil se, por exemplo, uma empresa só tivesse dados da população mais jovem da cidade de Nova York, mas quisesse entender como sua IA funciona em uma população envelhecida com maior prevalência de diabetes. Ela agora está abrindo sua própria empresa, a Bayesian Health, que usará essa técnica para ajudar a testar os sistemas de IA médica.
Os limites do fingimento
Mas os dados sintéticos são superestimados?
Quando se trata de privacidade, “só porque os dados são ‘sintéticos’ e não correspondem diretamente aos dados reais do usuário, não significa que não codificam informações confidenciais sobre pessoas reais”, diz Aaron Roth, professor de ciência da computação e da informação na Universidade da Pensilvânia. Foi demonstrado que algumas técnicas de geração de dados reproduzem fielmente imagens ou texto encontrados nos dados de treinamento, por exemplo, enquanto outros são vulneráveis a ataques que os fazem reproduzi-los inteiramente.
Isso pode ser bom para uma empresa como a Datagen, cujos dados sintéticos não têm o objetivo de ocultar a identidade dos indivíduos que consentiram em ser escaneados. Mas seria uma má notícia para as empresas que oferecem sua solução como uma forma de proteger informações sensíveis financeiras ou de pacientes.
A pesquisa sugere que a combinação de duas técnicas de dados sintéticos em particular — privacidade diferencial e redes adversárias geradoras (GANs, em inglês) — pode produzir as proteções de privacidade mais fortes, diz Bernease Herman, um cientista de dados do Instituto de eScience da Universidade de Washington. Mas os céticos temem que essa nuance possa se perder no dialeto de marketing dos fornecedores de dados sintéticos, que nem sempre falam sobre as técnicas que estão usando.
Enquanto isso, poucas evidências sugerem que os dados sintéticos podem efetivamente mitigar o viés dos sistemas de IA. Por um lado, extrapolar novos dados de um conjunto de dados existente distorcido não produz necessariamente dados mais representativos. Os dados brutos da Datagen, por exemplo, contêm proporcionalmente menos minorias étnicas, o que significa que usa menos pontos de dados reais para gerar humanos falsos desses grupos. Embora o processo de geração não seja inteiramente um jogo de adivinhação, esses humanos falsos ainda podem ser mais propensos a divergir da realidade. “Se os rostos com tom de pele mais escuro não são uma boa aproximação da realidade, então você não está realmente resolvendo o problema”, diz O’Neil.
Por outro lado, conjuntos de dados perfeitamente balanceados não se traduzem automaticamente em sistemas de IA perfeitamente justos, diz Christo Wilson, professor associado de ciência da computação na Northeastern University. Se um credor de cartão de crédito estivesse tentando desenvolver um algoritmo de IA para pontuar os tomadores de empréstimo em potencial, isso não eliminaria toda a discriminação possível simplesmente representando os brancos e também os negros em seus dados. A discriminação ainda pode se insinuar nas diferenças entre candidatos brancos e negros.
Para complicar ainda mais, as primeiras pesquisas mostram que, em alguns casos, pode nem mesmo ser possível obter IA privada e justa com dados sintéticos. Em um artigo recente publicado em uma conferência de IA, pesquisadores da Universidade de Toronto e do Vector Institute tentaram fazer isso com radiografias de tórax. Eles descobriram que foram incapazes de criar um sistema de IA médica preciso quando tentaram fazer um conjunto de dados sintéticos diversos por meio da combinação de privacidade diferencial e redes adversárias geradoras.
Nada disso significa que dados sintéticos não devem ser usados. Na verdade, pode muito bem se tornar uma necessidade. Conforme os reguladores enfrentam a necessidade de testar os sistemas de IA para conformidade legal, essa pode ser a única abordagem que lhes dá a flexibilidade de que precisam para gerar dados de teste direcionados sob demanda, diz O’Neil. Mas isso torna as questões sobre suas limitações ainda mais importantes para estudar e responder agora.
“Os dados sintéticos provavelmente ficarão melhores com o tempo”, diz ela, “mas não por acidente”.