Google DeepMind revela Genie 3 e prolonga interação em mundos 3D criados por IA

Google DeepMind apresentou o Genie 3, terceira geração do seu modelo de inteligência artificial capaz de gerar ambientes tridimensionais navegáveis em tempo real. A atualização, anunciada esta terça-feira (5), chega como pré-visualização limitada destinada a um grupo restrito de académicos e criadores, enquanto a empresa avalia riscos e define métodos de mitigação.

Interação prolongada e memória visual melhorada

O novo modelo expande significativamente o tempo de uso. Nos ensaios internos, os utilizadores podem explorar os cenários durante vários minutos, ultrapassando o limite de 20 segundos imposto pela versão anterior. Além disso, o sistema preserva a posição de objectos por até um minuto, garantindo consistência quando o observador muda o ângulo de visão.

Em termos técnicos, os mundos são renderizados a 720p, com 24 fotogramas por segundo, e incluem eventos activáveis por comando. Dessa forma, é possível alterar o clima ou introduzir personagens adicionais através de simples instruções de texto. A DeepMind salienta, contudo, que a interação ainda é controlada e que o modelo só exibe texto legível quando esse elemento é incluído na descrição inicial do utilizador.

Integração de tecnologias e realismo físico

O Genie 3 combina as competências do Genie 2, lançado em dezembro de 2024, com componentes do Veo 3, motor de IA especializado em vídeo e dinâmica de física. O resultado, segundo a equipa de investigação, é o “primeiro modelo de mundo interativo, em tempo real e de uso geral”. Pode gerar paisagens fotorrealistas, cenários imaginários ou híbridos, sem se limitar a um ambiente específico.

O sistema é autoregressivo, isto é, produz cada fotograma depois de analisar o anterior. Este mecanismo permite-lhe inferir leis físicas de forma autónoma, observando o comportamento dos objectos que já gerou para decidir o passo seguinte. Na prática, o modelo aprende como as coisas se movem e interagem, aproximando-se da forma como os humanos constroem percepções do mundo.

Aplicações em educação, jogos e treino de agentes

Shlomi Fruchter, diretor de investigação da DeepMind, destacou o potencial do Genie 3 para aulas interativas, prototipagem criativa e desenvolvimento de videojogos. Jack Parker-Holder, também investigador na divisão, lembrou que a principal aposta está no treino de agentes de IA de uso geral. Em cenários simulados, esses agentes podem praticar tarefas complexas sem os custos ou riscos associados a ambientes físicos, acelerando a investigação rumo à inteligência artificial geral (AGI).

A abordagem difere dos motores de física tradicionais, que dependem de regras programadas manualmente. Ao aprender essas regras através da experiência, o Genie 3 gera simulações mais adaptativas e úteis para sistemas robóticos ou assistentes virtuais que necessitem de compreender contextos variados.

Acesso restrito e próximos passos

Por enquanto, o público não terá acesso directo à tecnologia. A DeepMind justifica a limitação com a necessidade de estudar impactos éticos, avaliar cenários de uso malicioso e recolher feedback especializado. Os responsáveis não especificaram quando o Genie 3 poderá ser disponibilizado a um número mais amplo de utilizadores.

Mesmo com restrições, o lançamento sinaliza o avanço contínuo da Google na área de modelos geradores de ambientes. O progresso observado entre as versões 2 e 3 sugere que interações mais longas, melhor consistência visual e comandos dinâmicos serão pilares dos próximos desenvolvimentos. À medida que estas capacidades se consolidem, aplicações comerciais e educacionais podem não estar longe de se concretizar.

Google DeepMind revela Genie 3 e prolonga interação em mundos 3D criados por IA - Imagem do artigo original

Imagem: Google via olhardigital.com.br

Posts Similares

Deixe uma resposta

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.