Oferecido por
Em 2016, na esperança de estimular avanços em reconhecimento facial, a Microsoft lançou o maior banco de dados de rosto do mundo. Chamado MS-Celeb-1M, ele continha 10 milhões de imagens de 100.000 rostos de celebridades. No entanto, o termo “celebridade” foi vagamente definido.
Três anos depois, os pesquisadores Adam Harvey e Jules LaPlace vasculharam o conjunto de dados e encontraram muitos indivíduos comuns, como jornalistas, artistas, ativistas e acadêmicos, que mantêm uma presença online para suas vidas profissionais. Nenhum deu consentimento para ser incluído e, ainda assim, seus rostos estavam lá e foram usados em outros contextos como pesquisas conduzidas por empresas como Facebook, IBM, Baidu e SenseTime, uma das maiores gigantes do reconhecimento facial da China, que vende sua tecnologia para a polícia chinesa.
Pouco depois da investigação de Harvey e LaPlace, e depois de receber críticas de jornalistas, a Microsoft removeu o conjunto de dados, afirmando simplesmente: “O desafio da pesquisa acabou”. Mas as preocupações com a privacidade que foram criadas persistem na eternidade da internet. E este caso dificilmente é o único.
A pesquisa de imagens e texto na web já foi considerada uma estratégia engenhosa para coletar dados do mundo real. Agora, leis como o GDPR (o regulamento de proteção de dados da Europa) e a crescente preocupação do público com a privacidade e vigilância de dados tornaram essa prática arriscada e imprópria do ponto de vista jurídico. Como resultado, os pesquisadores de IA estão cada vez mais recolhendo os conjuntos de dados que criaram dessa forma.
Mas um novo estudo mostra que isso pouco fez para impedir que os dados problemáticos se proliferassem e fossem usados. Os autores do estudo escolheram três dos conjuntos de dados mais citados que continham rostos ou pessoas, dois dos quais haviam sido desativados, e rastrearam como cada um foi copiado, usado e reutilizado em cerca de 1.000 documentos.
No caso do MS-Celeb-1M, ainda existem cópias em sites de terceiros e em conjuntos de dados derivados construídos sobre o original. Os modelos de código aberto pré-treinados nos dados também permanecem disponíveis. D a mesma forma, o conjunto de dados e seus derivados foram citados em centenas de artigos publicados entre seis e 18 meses após a retirada da referida base de dados.
DukeMTMC, um conjunto de dados contendo imagens de pessoas caminhando no campus da Duke University e desativado no mesmo mês que o MS-Celeb-1M, persiste de forma semelhante em conjuntos de dados derivados e centenas de citações em artigos.
A lista de locais onde os dados permanecem é “mais extensa do que imaginávamos inicialmente”, diz Kenny Peng, estudante do segundo ano em Princeton e coautor do estudo. E mesmo isso, diz ele, é provavelmente um eufemismo, porque as citações em artigos de pesquisa nem sempre explicam as maneiras como os dados podem ser usados comercialmente.
Descontrolado
Parte do problema, de acordo com o artigo de Princeton, é que aqueles que montam conjuntos de dados rapidamente perdem o controle de suas criações.
Conjuntos de dados criados para um propósito podem acabar sendo utilizados para outros que nunca foram pretendidos ou imaginados pelos criadores originais. O MS-Celeb-1M, por exemplo, tinha como objetivo melhorar o reconhecimento facial de celebridades, mas desde então tem sido usado para reconhecimento facial mais geral e análise de características faciais, descobriram os autores. Ele também foi renomeado ou empregado em conjuntos de dados derivados, como Racial Faces in the Wild, que agrupa suas imagens por raça, abrindo a porta para aplicações controversas.
A análise dos pesquisadores também sugere que o Labeled Faces in the Wild (LFW), um conjunto de dados lançado em 2007 e o primeiro a usar imagens de rostos extraídas da internet, mudou várias vezes em quase 15 anos de uso. Embora tenha começado como um recurso para avaliar modelos de reconhecimento facial apenas para pesquisa, agora é usado quase exclusivamente para avaliar sistemas destinados ao uso no mundo real, apesar de um aviso no site do conjunto de dados alertando contra tal uso.
Mais recentemente, o conjunto de dados foi reaproveitado em um derivado chamado SMFRD, que adicionou máscaras faciais a cada uma das imagens para avançar os estudos de reconhecimento facial durante a pandemia. Os autores observam que isso pode levantar novos desafios éticos. Os defensores da privacidade têm criticado esses aplicativos por encorajar a vigilância, por exemplo, e especialmente por permitir que o governo identifique manifestantes mascarados.
“Este é um artigo realmente importante, porque os olhos das pessoas geralmente não estão abertos para as complexidades e potenciais danos e riscos dos conjuntos de dados”, diz Margaret Mitchell, pesquisadora de ética em IA e líder em práticas responsáveis de dados, que não participou do estudo.
Por muito tempo, a cultura dentro da comunidade de IA foi presumir que os dados existem para serem usados, ela acrescenta. Este artigo mostra como isso pode levar a problemas no futuro. “É muito importante pensar nos vários valores que um conjunto de dados codifica, bem como nos valores que são codificados com eles”, diz ela.
Uma correção
Os autores do estudo fornecem várias recomendações para o futuro da comunidade de IA. Primeiro, os criadores devem ser mais claros sobre o uso pretendido de seus conjuntos de dados, tanto por meio de licenças quanto por meio de documentação detalhada. Eles também devem impor limites mais rígidos ao acesso aos seus dados, talvez exigindo que os pesquisadores assinem termos de acordo ou solicitando que preencham um formulário, especialmente se pretendem construir um conjunto de dados derivados.
Em segundo lugar, os eventos e conferências de pesquisa devem estabelecer normas sobre como os dados devem ser coletados, rotulados e usados, e devem criar incentivos para a criação responsável de conjuntos de dados. A NeurIPS, a maior conferência de pesquisa de IA, já disponibiliza uma lista que reúne melhores práticas e diretrizes éticas.
Mitchell sugere ir ainda mais longe. Como parte do Big Science Project, uma colaboração entre pesquisadores de IA para desenvolver um modelo capaz de analisar e gerar linguagem natural sob um rigoroso padrão de ética, Mitchell experimentou a ideia de criar organizações de gerenciamento de conjuntos de dados, com equipes de pessoas que não só cuidariam da preservação, manutenção e uso dos dados, mas também trabalhariam com advogados, ativistas e a sociedade em geral para garantir o cumprimento dos padrões legais. Ou seja, os dados são coletados apenas com consentimento e podem ser excluídos se alguém decidir retirar as informações pessoais. Essas organizações de gerenciamento não seriam necessárias para todos os conjuntos de dados, mas para aqueles extraídos que poderiam conter informações biométricas ou de identificação pessoal ou propriedade intelectual.
“A coleta e o monitoramento do conjunto de dados não é uma tarefa única para uma ou duas pessoas”, diz ela. “Se você estiver fazendo isso de forma responsável, isso se divide em uma tonelada de tarefas diferentes que exigem pensamento profundo, muita experiência e uma variedade de pessoas diferentes”.
Nos últimos anos, esse campo tem se movido cada vez mais em direção à crença de que conjuntos de dados com curadoria mais cuidadosa serão a chave para superar muitos dos desafios técnicos e éticos da indústria. Agora está claro que construir conjuntos de dados mais responsáveis não é o suficiente. Aqueles que trabalham em IA também devem assumir um compromisso de longo prazo para mantê-los e usá-los de forma ética.