A postagem no blog da empresa transborda entusiasmo, como aquele dos infomerciais dos anos 90. WellSaid Labs descreve o que os clientes podem esperar de seus “oito novos atores de voz digital!” Tobin é “dinâmico e perspicaz”. Paige é “equilibrada e expressiva”. Ava é “elegante, autoconfiante e profissional”.
Cada um é baseado em um dublador real, cuja semelhança (com consentimento) foi preservada usando Inteligência Artificial (IA). As empresas agora podem licenciar essas vozes para dizer tudo aquilo que for precisarem. Elas simplesmente inserem o texto no mecanismo de voz, e logo obtém um trecho de áudio nítido com uma performance de som natural.
WellSaid Labs, uma startup sediada em Seattle que se originou da pesquisa sem fins lucrativos da Allen Institute of Artificial Intelligence, é a mais recente empresa que oferece vozes de IA aos clientes. Por enquanto, é especializada em vozes para vídeos corporativos de e-learning. Outras startups fazem vozes para assistentes digitais, operadores de call center, e até mesmo personagens de videogame.
Não muito tempo atrás, essas vozes deepfake tinham uma péssima reputação por serem usadas em fraudes telefônicas e truques na internet. Desde então, a melhora da qualidade, contudo, despertou o interesse de um número crescente de empresas. Avanços recentes no deep learning tornaram possível reproduzir muitas das sutilezas da fala humana. Essas vozes pausam e respiram nos momentos certos. Elas podem mudar de estilo ou de acordo com emoções. Você pode identificá-las se elas falarem por muito tempo, mas, em trechos de áudio curtos, algumas se tornaram indistinguíveis das vozes humanas.
As vozes de IA também são baratas, podem ser reproduzidas em larga escala e são fáceis de trabalhar. Ao contrário da gravação de um dublador humano, as vozes sintéticas podem modificar seu roteiro em tempo real, abrindo novas oportunidades para a personalização da publicidade.
A ascensão de vozes hiper-realistas não é, contudo, isenta de consequências. Os dubladores reais, em particular, estão se perguntando o que isso representa para seus meios de subsistência.
Como emular uma voz
Vozes sintéticas já existem há algum tempo. As mais antigas, incluindo as vozes da Siri e Alexa originais, simplesmente colavam palavras e sons, obtendo um efeito robótico e desajustado. Fazer com que soassem mais naturais era uma tarefa manual trabalhosa.
O deep learning modificou isso. Os desenvolvedores de voz não precisavam mais ditar o ritmo, a pronúncia ou a entonação exata da fala gerada. Em vez disso, eles podiam alimentar algumas horas de áudio em um algoritmo e fazer com que o algoritmo aprendesse esses padrões por conta própria.
“Se eu sou a voz da Pizza Hut, certamente não posso soar como a da Domino’s, e certamente não posso soar como a da Papa John’s.”
Rupal Patel, fundador e CEO da VocaliD
Ao longo dos anos, os pesquisadores usaram esse princípio básico para construir mecanismos de voz cada vez mais sofisticados. O que a WellSaid Labs construiu, por exemplo, faz uso de dois modelos principais de deep learning. O primeiro prevê, a partir de uma passagem de texto, os pontos gerais de como o locutor soará, incluindo sotaque, tom e timbre da voz. A segunda completa os detalhes, como a respiração e a maneira como a voz ressoa no ambiente.
No entanto, fazer uma voz sintética convincente exige mais do que um simples apertar de botão. Parte do que torna a voz humana tão humana é sua inconsistência, expressividade e capacidade de entregar as mesmas falas em estilos completamente diferentes, dependendo do contexto.
Capturar essas nuances envolve encontrar os dubladores certos para fornecer os dados de treinamento apropriados e ajustar os modelos de deep learning. WellSaid diz que o processo requer pelo menos uma ou duas horas de áudio e algumas semanas de trabalho para desenvolver uma réplica sintética que pareça realista.
As vozes de IA tornaram-se populares entre as marcas que buscam manter um som consistente nas milhões de interações com os seus clientes. Hoje, com a onipresença de alto-falantes inteligentes e o surgimento de agentes de atendimento ao cliente automatizados, bem como assistentes digitais embutidos em carros e dispositivos inteligentes, as marcas podem precisar produzir mais de cem horas de áudio por mês. Elas também não querem mais usar as vozes genéricas oferecidas pela tecnologia tradicional de conversão de texto em voz — uma tendência que se acelerou durante a pandemia à medida que mais e mais clientes abandonaram as interações na loja para interagir virtualmente com as empresas.
“Se eu sou a voz da Pizza Hut, certamente não posso soar como a da Domino’s, e certamente não posso soar como a da Papa John’s”, diz Rupal Patel, professor da Northeastern University e fundador e CEO da VocaliD, que promete construir vozes personalizadas que correspondem à identidade da marca de uma empresa. “Essas marcas pensaram nas cores. Eles pensaram nas fontes. Agora eles precisam começar a pensar sobre a maneira como a voz delas soa também”.
Enquanto as empresas costumavam contratar diferentes locutores para diferentes mercados — Nordeste versus Sul dos EUA ou França versus México — algumas empresas de IA de voz podem manipular o sotaque ou mudar a linguagem de uma única voz de maneiras diferentes. Isso abre a possibilidade de adaptar anúncios em plataformas de streaming dependendo de quem está ouvindo, mudando não apenas as características da voz, mas também das palavras que estão sendo faladas. Um anúncio de cerveja poderia dizer a um ouvinte para dirigir-se a um bar diferente, dependendo se está sendo transmitido em Nova York ou em Toronto, por exemplo. A Resemble.ai, que projeta vozes para publicidades e assistentes inteligentes, diz que já está trabalhando com clientes para lançar essas propagandas de áudio personalizados no Spotify e no Pandora.
As indústrias de jogos e entretenimento também estão sendo beneficiadas. Sonantic, uma empresa especializada em vozes emotivas que podem rir, chorar, sussurrar ou gritar, trabalha com fabricantes de videogames e estúdios de animação para fornecer as vozes de seus personagens. Muitos de seus clientes usam as vozes sintetizadas apenas na pré-produção e mudam para atores de voz reais na produção final. Mas a Sonantic afirma que alguns começaram a usá-las ao longo de todo o processo, possivelmente em personagens com um número menor de falas. A Resemble.ai e outros também trabalharam com filmes e programas de TV para consertar a performance dos atores quando as palavras são distorcidas ou pronunciadas incorretamente.
Existem, todavia, limitações para o quão longe a IA pode chegar. Ainda é difícil manter o realismo de uma voz por longos períodos de tempo, o que pode ser necessário para um audiobook ou um podcast. Há, também, pouca capacidade de controlar o desempenho de uma voz de IA tal qual um diretor faria com um artista. “Ainda estamos nos primórdios da fala sintética”, diz Zohaib Ahmed, o fundador e CEO da Resemble.ai, comparando-os aos dias em que a tecnologia CGI era usada principalmente para retoques, em vez de criar mundos inteiramente novos a partir de telas verdes.
Um toque humano
Em outras palavras, os dubladores humanos não se tornarão obsoletos ainda. Projetos expressivos, criativos e longos ainda são melhor executados por humanos. Além disso, para cada voz sintética feita por essas empresas, um dublador também precisa fornecer os dados de treinamento originais.
Alguns atores, contudo, estão cada dia mais preocupados com seus meios de subsistência, disse um porta-voz do SAG-AFTRA, o sindicato que representa os dubladores nos Estados Unidos. Se eles não têm medo de serem automatizados pela IA, eles estão preocupados em serem pouco recompensados ou em perder o controle sobre suas vozes, que constituem sua marca e reputação.
Esta é a temática de uma ação judicial contra o TikTok movida pelo dublador canadense Bev Standing, que alega que o recurso de narração embutido no aplicativo usa uma cópia sintética de sua voz sem sua permissão. A experiência de Standing também se assemelha a de Susan Bennett, a voz original da americana Siri, que foi paga por suas gravações iniciais, mas não pelo uso contínuo de sua semelhança vocal em milhões de dispositivos Apple.
Algumas empresas estão buscando ser mais responsáveis em como se relacionam com a indústria de dublagem. As melhores, diz o representante da SAG-AFTRA, procuraram o sindicato para descobrir a melhor maneira de recompensar e respeitar os dubladores por seu trabalho.
Muitas agora usam um modelo de participação nos lucros para pagar aos atores cada vez que um cliente licencia sua voz sintética específica, o que abriu um novo fluxo de receita passiva. Outros envolvem os atores no processo de criação de sua imagem de IA e lhes dão poder de veto sobre os projetos em que serão usados. O SAG-AFTRA também está insistindo por uma legislação que proteja os atores de réplicas ilegítimas de sua voz.
Mas, para Patel da VocaliD, o objetivo das vozes de IA não é, em última análise, replicar o desempenho humano ou automatizar o trabalho de locução existente. Em vez disso, a promessa é que elas poderiam abrir possibilidades inteiramente novas. E se no futuro, diz ela, vozes sintéticas pudessem ser usadas para adaptar rapidamente materiais educacionais online para públicos diferentes? “Se você está tentando alcançar, digamos, um grupo de crianças do centro da cidade, não seria ótimo se essa voz realmente soasse como se fosse de sua comunidade?”