A Meta desenvolveu modelos de Inteligência Artificial (IA) capazes de reconhecer e produzir fala para mais de 1.000 idiomas, o que representa um aumento de dez vezes em relação às opções disponíveis atualmente. É um passo significativo para a preservação de idiomas que correm o risco de desaparecer, diz a empresa.
A Meta está lançando seus modelos ao público por meio do serviço de hospedagem de código, o GitHub. Ela afirma que disponibilizá-los como modelos de código aberto ajudará os desenvolvedores que trabalham em diferentes idiomas a criar novos aplicativos de voz, como serviços de mensagens que compreendem a todos os usuários, independente de suas línguas, ou sistemas de realidade virtual que podem ser usados em qualquer idioma.
Existem cerca de 7.000 idiomas no mundo, mas os modelos de reconhecimento de fala existentes cobrem apenas cerca de 100 deles de forma abrangente. Isso ocorre porque esses tipos de modelos tendem a exigir grandes quantidades de dados de treinamento rotulados, que estão disponíveis apenas para um pequeno número de idiomas, como inglês, espanhol e chinês.
Os pesquisadores da Meta contornaram esse problema ao reajustar um modelo de IA existente desenvolvido pela empresa em 2020. Ele é capaz de aprender padrões de fala a partir de áudio sem a necessidade de grandes quantidades de dados rotulados, como transcrições.
A equipe envolvida nesse reajuste treinou o modelo adaptado em dois novos conjuntos de dados: um com gravações de áudio do Novo Testamento da Bíblia e seu texto correspondente em 1.107 idiomas, retirado da Internet, e outro contendo gravações de áudio não rotuladas do Novo Testamento em 3.809 idiomas. Os pesquisadores processaram esses conjuntos para melhorar sua qualidade antes de executarem um algoritmo projetado para alinhar as gravações de áudio com o texto que as acompanhava. Em seguida, repetiram esse processo com um segundo algoritmo treinado nos dados recém-alinhados. Com esse método, os pesquisadores conseguiram ensinar o algoritmo a aprendizagem de um novo idioma com mais facilidade, mesmo sem o texto correspondente.
“Podemos aproveitar o que esse modelo aprendeu para desenvolver rapidamente sistemas de fala que necessitem de uma quantidade de dados bastante pequena”, diz Michael Auli, cientista pesquisador da Meta que trabalhou no projeto.
“Quando pensamos na língua inglesa, temos muitos e muitos conjuntos de dados bons, e o mesmo ocorre em mais alguns idiomas, mas isso é diferente para idiomas falados por, digamos, 1.000 pessoas”.
Os pesquisadores dizem que seus modelos conseguem compreender e responder em mais de 1.000 idiomas, e, além disso, são capazes de reconhecer mais de 4.000.
Eles compararam os modelos de código aberto com os de empresas rivais, incluindo o OpenAI Whisper, e afirmam que o deles teve metade da taxa de erro, apesar de abrangerem 11 vezes mais idiomas. No entanto, a equipe adverte que o modelo ainda corre o risco de transcrever incorretamente certas palavras ou frases, o que pode resultar em rótulos imprecisos ou potencialmente ofensivos. Os pesquisadores também admitem que seus modelos de reconhecimento de fala renderam mais palavras tendenciosas do que outros, embora a uma taxa de apenas 0,7% a mais.
Ainda que o âmbito da pesquisa seja impressionante, o uso de textos religiosos para treinar modelos de IA pode ser controverso, diz Chris Emezue, pesquisador da Masakhane, organização que trabalha com processamento de linguagem natural para línguas africanas e que não participou do projeto.
“A Bíblia tem muitos preconceitos e representações distorcidas”, diz ele.