A maioria dos sistemas de reconhecimento de imagem são treinados com grandes bancos de dados que contêm milhões de fotos de objetos do cotidiano, de cobras a calçados. Com uma exposição repetida, as IAs aprendem a diferenciar um tipo de objeto de outro. Recentemente, pesquisadores no Japão mostraram que as IAs podem começar a aprender a reconhecer objetos do dia a dia ao serem treinadas em fractais gerados por computador.
É uma ideia estranha, mas pode ser uma grande coisa. Gerar dados de treinamento automaticamente é uma tendência interessante no machine learning, e usar um suprimento infinito de imagens sintéticas em vez de fotos retiradas da Internet evita problemas com conjuntos de dados existentes feitos à mão.
Problemas de treinamento: o pré-treinamento é uma fase em que uma IA aprende algumas habilidades básicas antes de ser treinada em dados mais especializados. Modelos pré-treinados permitem que mais pessoas usem uma IA poderosa. Em vez de treinar um modelo do zero, pesquisadores podem adaptar um modelo existente às suas necessidades. Por exemplo, um sistema para diagnosticar exames médicos pode primeiro aprender a identificar características visuais básicas, como forma e contorno, sendo pré-treinado em um banco de dados de objetos do cotidiano – como ImageNet, que contém mais de 14 milhões de fotos. Em seguida, ele será ajustado em um banco de dados menor de imagens médicas até reconhecer sinais sutis de doença.
O problema é que montar manualmente um conjunto de dados como o ImageNet exige muito tempo e esforço. As imagens são normalmente rotuladas por trabalhadores independentes mal remunerados. Os conjuntos de dados também podem conter rótulos sexistas ou racistas que podem distorcer um modelo de maneiras ocultas, bem como imagens de pessoas que foram incluídas sem seu consentimento. Há evidências de que esses preconceitos podem se infiltrar mesmo na etapa de pré-treinamento.
Formas naturais: Fractais podem ser encontrados em tudo, desde árvores e flores a nuvens e ondas. Isso fez as equipes do Instituto Nacional de Ciência e Tecnologia Industrial Avançada (em inglês, AIST) do Japão, do Instituto de Tecnologia de Tóquio e da Universidade Tokyo Denki se perguntarem se esses padrões poderiam ser usados para ensinar a um sistema automatizado os fundamentos do reconhecimento de imagem, em vez de usar fotos de objetos reais.
Os pesquisadores criaram o FractalDB, um número infinito de fractais gerados por computador. Alguns se parecem com folhas; outros parecem flocos de neve ou conchas de caracol. Cada grupo de padrões semelhantes recebeu automaticamente um rótulo. Eles então usaram o FractalDB para pré-treinar uma rede neural convolucional, um tipo de modelo de deep-learning comumente usados em sistemas de reconhecimento de imagem, antes de completar seu treinamento com um conjunto de imagens reais. Eles descobriram que o desempenho era quase tão bom quanto os modelos treinados em conjuntos de dados de última geração, incluindo ImageNet e Places, que contém 2,5 milhões de imagens de ambientes externos.
Funciona? Anh Nguyen, da Auburn University no Alabama, que não estava envolvido no estudo, não está convencido de que FractalDB ainda seja páreo para empresas como a ImageNet. Ele estudou como os padrões abstratos podem confundir os sistemas de reconhecimento de imagem. “Há uma conexão entre esse trabalho e exemplos que enganam as máquinas”, diz ele. Ele gostaria de explorar mais detalhadamente como essa nova abordagem funciona. Mas os pesquisadores japoneses acham que, com ajustes em sua abordagem, conjuntos de dados gerados por computador como o FractalDB poderiam substituir os existentes.
Por que fractais: os pesquisadores também tentaram treinar sua IA usando outras imagens abstratas, incluindo aquelas produzidas com ruído de Perlin, que cria padrões pontilhados, e curvas de Bézier, usada em computação gráfica. Mas os fractais apresentaram os melhores resultados. “A geometria fractal existe no fundo de conhecimento do mundo”, diz o autor principal Hirokatsu Kataoka da AIST.