Astra do Google será o seu primeiro agente de IA para tudo
Inteligência artificial

Astra do Google será o seu primeiro agente de IA para tudo

Os usuários poderão interagir com o assistente de IA usando áudio e vídeo quando ele for lançado no final deste ano.

Banner indicando a posição do botão de download do artigo em formato pdf


O Google deve apresentar um novo sistema chamado Astra ainda este ano e promete que será o tipo de assistente de IA mais poderoso e avançado que já foi lançado.

A atual geração de assistentes de IA, como o ChatGPT, pode recuperar informações e oferecer respostas, mas este ano o Google está renomeando seus assistentes como “agentes” mais avançados, que dizem que podem mostrar habilidades de raciocínio, planejamento e memória e são capazes de dar vários passos para executar tarefas.

As pessoas poderão usar o Astra por meio de seus smartphones e, possivelmente, computadores de mesa, mas a empresa também está explorando outras opções, como incorporá-lo em óculos inteligentes ou outros dispositivos, disse Oriol Vinyals, vice-presidente de pesquisa do Google DeepMind, à MIT Technology Review.

“Estamos nos primeiros dias [do desenvolvimento de agentes de IA]”, disse o CEO do Google, Sundar Pichai, em uma ligação antes da conferência de I/O do Google hoje.

“Sempre quisemos construir um agente universal que fosse útil na vida cotidiana”, disse Demis Hassabis, CEO e cofundador do Google DeepMind. “Imagine agentes que podem ver e ouvir o que fazemos, entender melhor o contexto em que estamos e responder rapidamente na conversa, fazendo com que o ritmo e a qualidade da interação pareçam muito mais naturais.” Isso, segundo ele, é o que o Astra será.

O anúncio do Google vem um dia depois que a concorrente, OpenAI, revelou seu próprio assistente de IA, o GPT-4o. O Astra do Google DeepMind responde a entradas de áudio e vídeo, da mesma forma que o GPT-4o. Em uma demonstração para a imprensa, um usuário apontou uma câmera de smartphone e óculos inteligentes para as coisas e pediu ao Astra que explicasse o que eram.

Quando a pessoa apontou o dispositivo pela janela e perguntou “em que bairro você acha que estou?”, o sistema de IA foi capaz de identificar King’s Cross, em Londres, local da sede do Google DeepMind. Também foi possível dizer que os óculos da pessoa estavam em uma mesa, tendo os gravado mais cedo na interação.

A demonstração mostra a visão do Google DeepMind de IA multimodal (que pode lidar com vários tipos de entrada — voz, vídeo, texto e assim por diante) trabalhando em tempo real.

“Estamos muito animados em, no futuro, poder realmente nos aproximar do usuário, ajudá-lo com o que ele quiser”, diz Vinyals. O Google atualizou recentemente seu modelo de inteligência artificial Gemini para processar quantidades ainda maiores de dados, uma atualização que ajuda a lidar com documentos e vídeos maiores e ter conversas mais longas.

As empresas de tecnologia estão no meio de uma competição acirrada pela supremacia da IA, e os agentes de IA são o mais recente esforço das Big Techs para mostrar que estão empurrando a fronteira do desenvolvimento. Os agentes também jogam em uma narrativa de muitas empresas de tecnologia, incluindo OpenAI e Google DeepMind, que visam construir Inteligência Artificial Geral, uma ideia altamente hipotética de sistemas de IA superinteligentes.

“Eventualmente, você terá um agente que realmente o conhece bem, pode fazer muitas coisas por você e pode trabalhar em várias tarefas e domínios”, diz Chirag Shah, professor da Universidade de Washington especializado em pesquisa online.

Essa visão ainda é sonhadora. Mas o anúncio de hoje deve ser visto como uma tentativa do Google de acompanhar os concorrentes. E ao lançar esses produtos, ele pode coletar ainda mais dados de seus mais de um bilhão de usuários sobre como eles estão usando seus modelos e o que funciona, diz Shah.

O Google está revelando muitos outros novos recursos de IA além dos agentes atuais. Ele vai integrar a IA mais profundamente no Google Search por meio de um novo recurso chamado AI overviews, que reúne informações da internet e as agrupa em resumos curtos em resposta a consultas de pesquisa. O recurso, que foi lançado em 14 de maio, fica disponível inicialmente apenas nos EUA, mais países terão acesso posteriormente.

Isso ajudará a acelerar o processo de pesquisa e a obter respostas mais específicas para perguntas mais complexas e de nicho, diz Felix Simon, pesquisador em IA e notícias digitais do Instituto Reuters de Jornalismo. “Acho que é aí que o Search sempre teve dificuldades”, diz ele.

Outra novidade da oferta de pesquisa de IA do Google é um melhor planejamento. Em breve, as pessoas poderão pedir ao Search sugestões de refeições e viagens, por exemplo, da mesma forma que pedir a um agente de viagens que sugira restaurantes e hotéis. O Gemini será capaz de ajudá-las a planejar o que precisam fazer ou a fazer compras para cozinhar receitas, também será possível ter conversas com o sistema de IA pedindo-lhe para fazer qualquer coisa, desde tarefas triviais, como informar sobre a previsão do tempo, até tarefas altamente complexas, como ajudar a se preparar para uma entrevista de emprego ou um discurso importante.

As pessoas também poderão interromper o Gemini no meio da frase e fazer perguntas esclarecedoras, assim como em uma conversa real.

Em outra mudança para a concorrente OpenAI, o Google também revelou o Veo, um novo sistema de IA gerador de vídeo. O Veo é capaz de gerar vídeos curtos e permite aos usuários mais controle sobre estilos cinematográficos, entendendo prompts como “lapso de tempo” ou “fotos aéreas de uma paisagem”.

O Google tem uma vantagem significativa quando se trata de treinar modelos de vídeo generativos, porque é dono do YouTube. Já foram anunciadas colaborações com artistas como Donald Glover e Wycleaf Jean, que estão usando sua tecnologia para produzir seus trabalhos.

No início deste ano, a CTO da OpenAI, Mira Murati, se atrapalhou quando questionada se o modelo da empresa foi treinado em dados do YouTube. Douglas Eck, diretor sênior de pesquisa do Google DeepMind, também foi vago sobre os dados de treinamento usados para criar o Veo quando questionado pela MIT Technology Review, mas disse que “pode ser treinado em algum conteúdo do YouTube de acordo com nossos acordos com criadores do YouTube”.

Por um lado, o Google está apresentando sua IA generativa como uma ferramenta que os artistas podem usar para criar coisas, mas as ferramentas provavelmente adquirem a capacidade de criar essas coisas usando material de outros artistas, diz Shah. Empresas de IA como Google e OpenAI enfrentaram uma série de processos judiciais de escritores e artistas alegando que sua propriedade intelectual foi usada sem consentimento ou compensação.

“Para os artistas, é uma faca de dois gumes”, diz Shah.

Último vídeo

Nossos tópicos