Nvidia apresenta Cosmos Reason e reforça estratégia de IA para robótica
A Nvidia revelou um conjunto de soluções concebidas para acelerar o desenvolvimento de robôs e agentes inteligentes. O anúncio foi feito durante a conferência SIGGRAPH e inclui o Cosmos Reason, novo modelo de visão e linguagem com sete mil milhões de parâmetros, e actualizações em bibliotecas, servidores e serviços em nuvem.
Cosmos Reason adiciona raciocínio físico aos robôs
Combinando visão computacional e compreensão de linguagem natural, o Cosmos Reason permite que máquinas detectem objectos, interpretem o ambiente e planeiem acções com base em memória e noções de física. Segundo a Nvidia, esta abordagem aumenta a precisão na tomada de decisões em tarefas como curadoria de dados, planeamento robótico e análise de vídeo.
Ao processar informação multimodal, o modelo gera sequências de comandos que orientam braços robóticos, drones ou veículos autónomos. A possibilidade de antecipar consequências físicas — por exemplo, o movimento de uma caixa após ser empurrada — procura reduzir erros operacionais e acelerar o treino no mundo real.
Modelos auxiliares geram dados sintéticos em alta velocidade
Para complementar o Cosmos Reason, a empresa introduziu o Cosmos Transfer-2 e uma versão compacta do mesmo. O primeiro converte simulações 3D em conjuntos de texto, imagem e vídeo que alimentam algoritmos de aprendizagem automática. Já a variante reduzida sacrifica dimensão para ganhar velocidade, permitindo ciclos de treino mais curtos em hardware menos potente.
Gerar dados sintéticos é uma prática comum para colmatar a escassez de exemplos anotados no mundo real. Ao automatizar esse processo, a Nvidia pretende facilitar a adaptação de robôs a cenários pouco explorados, como armazéns em constante mudança ou linhas de produção personalizadas.
Novas bibliotecas aproximam a simulação da realidade
Entre as bibliotecas apresentadas destaca-se uma técnica de reconstrução neural capaz de transformar leituras de sensores em representações 3D fotorrealistas. O método será integrado no CARLA, simulador de código aberto usado em investigação de condução autónoma, e no Omniverse SDK, que recebeu ferramentas adicionais para criar ambientes virtuais complexos.
Segundo a companhia, este fluxo unificado — simulação, geração de dados, treino e teste — reduz o intervalo entre protótipo e produção, uma vez que os modelos podem ser validados em múltiplos domínios antes de entrarem em operação.
Infra-estrutura pronta para cargas de trabalho exigentes
A Nvidia também actualizou a camada de hardware e serviços. O RTX Pro Blackwell Server adopta uma arquitectura única para lidar simultaneamente com inferência, renderização e simulação em aplicações robóticas. Complementarmente, o DGX Cloud oferece recursos escaláveis em nuvem, geridos por uma plataforma que distribui tarefas entre centros de dados e equipamentos locais.
Com estas adições, a empresa procura consolidar-se como fornecedora de referência numa área que, estima, será o próximo grande motor de procura por unidades gráficas especializadas.
DeepMind mostra Genie 3, focado em mundos 3D interactivos
Na mesma semana, a Google DeepMind apresentou o Genie 3, modelo de IA que cria ambientes 3D interactivos em tempo real. A nova versão suporta interacções mais longas e consegue lembrar a posição de objectos mesmo quando o utilizador desvia o olhar. O acesso ficará, para já, restrito a um pequeno grupo de investigadores e criadores, numa fase exploratória destinada a avaliar riscos e estratégias de mitigação.
A aproximação entre a geração de mundos virtuais e a robótica ilustra uma tendência comum: usar simulações detalhadas para treinar agentes antes da estreia em cenários físicos. Tanto as soluções da Nvidia como o Genie 3 reforçam esse movimento, embora com públicos e restrições distintos.
Robótica surge como novo palco para a IA generativa
Os anúncios revelam perspectivas convergentes entre grandes empresas tecnológicas: combinar algoritmos generativos, simulação avançada e hardware dedicado para dotar máquinas de maior autonomia. A Nvidia aposta no ecossistema completo — do silício ao software — enquanto a DeepMind foca a criação de ambientes interactivos que podem servir de terreno neutro para investigação.
A curto prazo, investigadores e fabricantes dispõem de mais ferramentas para reduzir custos de recolha de dados, testar hipóteses com segurança e acelerar iterações. A médio prazo, a convergência entre simulações realistas e raciocínio físico promete encurtar a distância entre o que os robôs aprendem no computador e aquilo que executam no mundo real.

Imagem: Divulgação via olhardigital.com.br