Um novo tipo de modelo de machine learning construído por uma equipe de pesquisadores da empresa de streaming de música Spotify conseguiu reproduzir, pela primeira vez, a matemática complexa por trás da análise contrafactual. Esta é uma técnica que pode ser usada para identificar as causas de eventos passados e prever os efeitos dos futuros.
O modelo, descrito no início deste ano na revista científica Nature Machine Intelligence, pode melhorar a precisão da tomada de decisão automatizada, especialmente as recomendações personalizadas, em uma variedade de aplicações, desde finanças até assistência médica.
A ideia básica por trás dos contrafactuais é basicamente perguntar o que teria acontecido em uma situação se certas coisas tivessem sido diferentes. É como rebobinar o mundo, mudar alguns detalhes cruciais nos acontecimentos e, em seguida, apertar o play para ver o que acontece. Ajustando as coisas certas, é possível separar a causa verdadeira da correlação e coincidência.
“Entender causa e efeito é superimportante para a tomada de decisões”, diz Ciaran Gilligan-Lee, diretor do Laboratório de Pesquisa de Inferência Causal do Spotify, que co-desenvolveu o modelo. “Você quer entender o impacto que uma escolha que você faz agora terá no futuro”.
No caso do Spotify, isso pode significar escolher quais músicas mostrar a seguir ou quando os artistas deveriam lançar um novo álbum. O Spotify ainda não está usando contrafactuais, diz Gilligan-Lee. “Mas eles podem ajudar a responder perguntas com as quais lidamos todos os dias”.
Os contrafactuais são intuitivos. Afinal, as pessoas geralmente entendem o mundo imaginando como as coisas teriam acontecido se isso tivesse acontecido em vez daquilo. Mas eles são monstruosos quando colocados em fórmulas matemáticas.
“Os contrafactuais são situações estatísticas peculiares”, diz Gilligan-Lee. “São elementos estranhos de se observar. Você está questionando a probabilidade de algo ocorrer sendo que essa coisa não ocorreu”.
Após terem lido os trabalhos uns dos outros em um artigo da MIT Technology Review americana, Gilligan-Lee e seus coautores começaram a trabalhar juntos. Eles criaram o seu modelo com base em uma estrutura teórica para contrafactuais chamada redes gêmeas (ou, em inglês, twin networks).
As redes gêmeas foram inventadas na década de 90 pelos cientistas da computação Andrew Balke e Judea Pearl. Em 2011, Pearl ganhou o Prêmio Turing, uma espécie de Prêmio Nobel da ciência da computação, por seu trabalho sobre raciocínio causal e Inteligência Artificial (IA).
Pearl e Balke usaram redes gêmeas para trabalhar com alguns exemplos simples, diz Gilligan-Lee. Mas aplicar manualmente a estrutura matemática a casos reais maiores e mais complicados é difícil.
É aí que o machine learning entra. As redes gêmeas tratam contrafactuais como um par de modelos probabilísticos: um representando o mundo real e o outro, o fictício. Eles se conectam de tal forma que o modelo do mundo real restringe o modelo do ficcional, mantendo-o igual em todos os aspectos, exceto nos fatos que você deseja alterar.
Gilligan-Lee e sua equipe usaram a estrutura de redes gêmeas como um modelo para uma rede neural e a treinaram para fazer previsões sobre como os eventos aconteceriam no mundo fictício. O resultado é um software de uso geral capaz de realizar raciocínio contrafactual. “Com ele, é possível responder a qualquer pergunta contrafactual sobre um cenário que desejar”, diz Gilligan-Lee.
Água suja
A equipe do Spotify testou seu modelo usando vários estudos de caso do mundo real, incluindo um que analisava a aprovação de crédito na Alemanha, um ensaio clínico internacional para medicação para casos de derrame e outro analisando a segurança do abastecimento de água no Quênia, na África Oriental.
Neste último estudo, que aconteceu em 2020, pesquisadores investigaram se a instalação de canos e reservatórios de concreto para proteger as nascentes da contaminação bacteriana em uma região do Quênia reduziria os níveis de diarreia infantil. Eles notaram um efeito positivo. Mas você precisa ter certeza do que efetivamente causou isso, diz Gilligan-Lee. Antes de instalar estruturas de concreto em torno de poços em todo o país, é preciso ter certeza de que a queda no número de casos da doença foi de fato causada por essa intervenção e não um efeito colateral dela, isto é, por outros fatores que podem ter contribuído para o resultado observado.
É possível que, quando os pesquisadores chegaram para fazer o estudo e instalar as estruturas de concreto ao redor dos poços, isso tenha conscientizado as pessoas sobre os riscos da água contaminada e elas começaram a fervê-la em casa. Nesse caso, “a educação seria uma forma mais barata de aumentar o alcance da intervenção”, diz Gilligan-Lee.
Gilligan-Lee e sua equipe analisaram esse cenário perguntando ao seu modelo de redes gêmeas se as crianças que adoeciam após beber água de um poço desprotegido no mundo real também adoeceriam se bebessem de um poço protegido no mundo fictício. Eles descobriram que mudar apenas o detalhe de onde a criança bebia a água, mantendo outras condições, como o tratamento da água em casa, não teve um impacto significativo no resultado. Isso sugere que a redução dos níveis de diarreia infantil não foram (diretamente) causados pela instalação de tubos e construções de concreto.
Essa constatação repete o resultado do estudo de 2020, que também usou raciocínio contrafactual. Mas esses pesquisadores construíram manualmente um modelo estatístico sob medida apenas para responder a essa pergunta, diz Gilligan-Lee. Em contrapartida, o modelo de machine learning da equipe do Spotify é de uso geral e pode ser usado para fazer várias perguntas contrafactuais sobre muitos cenários diferentes.
O Spotify não é a única empresa de tecnologia que está correndo para construir modelos de machine learning que podem raciocinar sobre causa e efeito. Nos últimos anos, empresas como a Meta, Amazon, LinkedIn e a proprietária da TikTok, a ByteDance, também começaram a desenvolver essa tecnologia.
“O raciocínio causal é fundamental para o machine learning”, diz Nailong Zhang, engenheiro de software da Meta. A Meta está usando inferência causal em um modelo de machine learning que gerencia quantas e quais tipos de notificações o Instagram deve enviar a seus usuários para fazer com que eles continuem voltando ao aplicativo.
Romila Pradhan, cientista de dados da Univerisdade de Purdue, em Indiana (EUA), está usando contrafactuais para tornar a tomada de decisão automatizada mais transparente. As organizações agora usam modelos de machine learning para decidir quem é elegível para ganhar mais crédito em bancos, conseguir as vagas de empregos, liberdade condicional e até moradia (e quem não é). As autoridades reguladores começaram a exigir que as organizações expliquem o resultado de muitas dessas decisões aos afetados por elas. No entanto, é difícil reconstituir as etapas percorridas por um algoritmo complexo.
Por isso, Pradhan acredita que os contrafactuais podem ajudar. Digamos que o modelo de machine learning de um banco rejeite seu pedido de empréstimo e você queira saber o motivo. Uma maneira de responder a essa pergunta é com contrafactuais. Dado que o pedido foi rejeitado no mundo real, ele teria sido rejeitado em um mundo fictício em que seu histórico de crédito fosse diferente? E se você tivesse um endereço, emprego, renda e assim por diante diferentes? Desenvolver a capacidade de responder a essas perguntas em futuros programas de aprovação de empréstimos daria aos bancos uma maneira de oferecer justificativas aos clientes, em vez de apenas um sim ou não, diz Pradhan.
Os contrafactuais são importantes porque é como as pessoas pensam sobre diferentes resultados, diz Pradhan: “Eles são uma maneira útil de fornecer explicações”.
Eles também podem ajudar as empresas a prever o comportamento das pessoas. Já que os contrafactuais permitem inferir o que pode acontecer em uma situação específica, não apenas na média, as plataformas de tecnologia podem usá-lo para classificar as pessoas com mais precisão do que nunca.
A mesma lógica que pode desvendar os efeitos da água suja no Quênia ou das decisões de empréstimo em bancos pode ser usada para aprimorar o impacto das playlists do Spotify, as notificações do Instagram e a segmentação de anúncios. Se tocarmos esta música, esse usuário irá ouvi-la por mais tempo? Se mostrarmos esta foto, essa pessoa continuará olhando o feed? “As empresas querem entender como sugerir recomendações personalizadas a usuários específicos, e não ao perfil padrão de um grupo de usuários genérico”, diz Gilligan-Lee.