Nos últimos anos, pesquisas mostraram que o deep learning pode corresponder ao desempenho de especialistas na hora de interpretar imagens médicas, como detecção precoce de câncer e diagnóstico de doenças oculares. Mas também há motivos para cautela. Outra pesquisa mostrou que o deep learning tende a perpetuar a discriminação. Com um sistema de saúde já cheio de disparidades, aplicações malfeitas de deep learning podem piorar isso.
Agora, um novo artigo publicado na Nature Medicine está propondo uma maneira de desenvolver algoritmos médicos que podem ajudar a reverter, ao invés de exacerbar, a desigualdade existente. A chave, diz Ziad Obermeyer, um professor associado da UC Berkeley que supervisionou a pesquisa, é parar de treinar algoritmos para corresponder ao desempenho humano especializado.
O artigo analisa um exemplo clínico específico das disparidades que existem no tratamento da osteoartrite do joelho, uma doença que causa dor crônica. Avaliar a gravidade dessa dor ajuda os médicos a prescreverem o tratamento certo, incluindo fisioterapia, medicamentos ou cirurgia. Isso é tradicionalmente feito por um radiologista que analisa um raio-X do joelho do paciente e classifica sua dor no grau de Kellgren-Lawrence (KLG), que calcula os níveis de dor com base na presença de diferentes características radiográficas, como o grau de cartilagem ausente ou dano estrutural.
Mas dados coletados pelo Instituto Nacional de Saúde mostraram que os médicos que usam esse método sistematicamente classificam os pacientes negros muito abaixo da intensidade da dor que eles dizem estar sentindo. Os pacientes relatam seus níveis de dor por meio de uma pesquisa que pergunta sobre a dor durante várias atividades, como endireitar totalmente o joelho. Mas esses níveis de dor autorrelatados são ignorados em detrimento da pontuação KLG que o radiologista emite para prescrever o tratamento. Em outras palavras, pacientes negros que apresentam a mesma quantidade de cartilagem perdida que pacientes brancos relatam níveis mais elevados de dor.
Isso tem incomodado os especialistas médicos. Uma hipótese é que os pacientes negros podem estar relatando níveis mais altos de dor para que os médicos os tratem mais seriamente. Mas há uma explicação alternativa. A própria metodologia KLG pode ser tendenciosa. Foi desenvolvida há várias décadas com base na população britânica branca. Alguns especialistas médicos argumentam que a lista de marcadores radiográficos que os médicos devem procurar pode não incluir todas as possíveis fontes físicas de dor em uma população diversa. Dito de outra forma, pode haver indicadores radiográficos de dor que aparecem mais comumente em pessoas negras que simplesmente não fazem parte da categoria KLG.
Para testar essa possibilidade, os pesquisadores treinaram um modelo de deep learning para prever o nível de dor relatado pelo paciente a partir de sua radiografia de joelho. Se o modelo resultante tivesse uma precisão terrível, isso sugeriria que a dor autorrelatada é bastante arbitrária. Mas se o modelo tivesse uma precisão realmente boa, isso forneceria evidências de que a dor autorrelatada está de fato correlacionada com os marcadores radiográficos no raio-x.
Depois de executar vários experimentos, incluindo alguns projetados para destacar quaisquer fatores de confusão, os pesquisadores descobriram que o modelo de deep learning era muito mais preciso do que o KLG na previsão dos níveis de dor autorelatados, especialmente para pacientes negros. Isso reduziu quase pela metade a disparidade racial em cada nível de dor.
O objetivo não é necessariamente começar a usar esse algoritmo em um ambiente clínico. Mas, ao superar a metodologia KLG, o estudo revelou que a forma padrão de medir a dor é falha, a um custo muito maior para os negros. Isso deveria alertar a comunidade médica para investigar quais marcadores radiográficos o algoritmo pode estar levando em conta e atualizar sua metodologia de pontuação.
“Na verdade, destaca uma parte realmente emocionante de onde esses tipos de algoritmos podem se encaixar no processo de descoberta médica”, diz Obermeyer. “Nos indica se há algo aqui que vale a pena olhar e que não compreendemos. Isso prepara o terreno para os humanos intervirem e, usando esses algoritmos como ferramentas, tentarem descobrir o que está acontecendo”.
“O interessante desse artigo é que ele pensa nas coisas de uma perspectiva completamente diferente”, diz Irene Chen, pesquisadora do MIT que estuda como reduzir as iniquidades de saúde no machine learning e não estava envolvida no estudo. Em vez de treinar o algoritmo com base em conhecimento especializado bem estabelecido, ela diz, os pesquisadores optaram por tratar a autoavaliação do paciente como um indicador verdadeiro. Com isso, ele revelou lacunas importantes no que a área médica geralmente considera ser a medida de dor mais “objetiva”.
“Esse era exatamente o segredo”, concorda Obermeyer. Se os algoritmos forem treinados apenas para corresponder ao desempenho de um especialista, diz ele, eles simplesmente perpetuarão as lacunas e desigualdades existentes. “Este estudo é uma amostra de um processo mais geral, o qual somos cada vez mais capazes de usar na medicina para gerar novos conhecimentos”.