Amazon apresenta Trainium3 e Nova Forge para reduzir custos no treinamento de IA

Durante a conferência re:Invent, realizada em Las Vegas, a Amazon Web Services (AWS) detalhou uma estratégia centrada no treinamento de IA que combina novo hardware, serviços de software e modelos fundacionais. O combo, liderado pelo chip Trainium3 e pelo serviço Nova Forge, foi desenhado para cortar custos e encurtar prazos de desenvolvimento de modelos complexos, oferecendo às empresas uma alternativa à necessidade de investimentos que frequentemente alcançam centenas de milhões de dólares.
- Trainium3 eleva o desempenho e reduz custos no treinamento de IA
- Arquitetura dos UltraServers potencializa escala inédita
- Eficiência energética: impacto financeiro e ambiental
- EC2 UltraClusters 3.0 e resultados observados por clientes
- Nova Forge expande possibilidades de personalização no treinamento de IA
- Competição e diversificação de fornecedores de chips
- Rumo ao Trainium4: próximos passos no treinamento de IA
Trainium3 eleva o desempenho e reduz custos no treinamento de IA
O coração da nova ofensiva é o Trainium3, terceira geração de processadores de inteligência artificial desenvolvidos pela Amazon. Fabricado em processo de três nanômetros, o componente entrega desempenho até 4,4 vezes superior ao de seu antecessor, o Trainium2, e quase quatro vezes mais largura de banda de memória. Esses ganhos, segundo dados da AWS, resultam em menos tempo de execução e redução direta no valor gasto por ciclo de treinamento.
Em testes internos conduzidos com o modelo de código aberto GPT-OSS, o Trainium3 registrou throughput três vezes maior por chip e respostas até quatro vezes mais rápidas que a geração anterior. Além disso, a eficiência energética avançou cerca de 40 %. Esse salto diminui não apenas a fatura de eletricidade, mas também o impacto ambiental associado ao resfriamento e à operação contínua dos data centers.
Arquitetura dos UltraServers potencializa escala inédita
Para explorar todo o potencial do novo processador, a AWS apresentou os Trainium3 UltraServers. Cada sistema reúne até 144 chips, chegando a 362 PFLOPs em precisão FP8. A interconexão interna se apoia na evolução da Neuron Fabric e no novo NeuronSwitch-v1, reduzindo a latência para menos de dez microssegundos. Essa infraestrutura permite que conjuntos de dados volumosos sejam distribuídos com velocidade, mantendo as unidades de processamento ocupadas e eliminando gargalos comuns em clusters heterogêneos.
No topo dessa pilha, surgem os EC2 UltraClusters 3.0. Empresas podem agrupar milhares de UltraServers, alcançando até um milhão de chips Trainium em uma única malha de rede — dez vezes mais que a capacidade da geração anterior. A elasticidade do serviço possibilita aumentar ou reduzir recursos sob demanda, diminuindo riscos de superdimensionamento e, por consequência, o custo total de propriedade.
Eficiência energética: impacto financeiro e ambiental
O esforço para baratear o treinamento de IA não se limita ao tempo de computação. O Trainium3 foi projetado para entregar aproximadamente 40 % mais eficiência do que o Trainium2, uma diferença que se manifesta em dois eixos. No aspecto financeiro, menor consumo de energia significa contas operacionais mais baixas, principalmente para cargas de trabalho que rodam por semanas ou meses. No aspecto ambiental, a redução do gasto energético contribui para metas corporativas de sustentabilidade, diminuindo a pegada de carbono das instalações.
Tanto a dissipação térmica reduzida quanto a arquitetura de três nanômetros ajudam a simplificar sistemas de resfriamento. Como resultado, a Amazon promove um ciclo virtuoso em que menos energia é necessária não apenas para computar, mas também para manter a temperatura dos racks em níveis seguros, reforçando o argumento econômico da nova plataforma.
EC2 UltraClusters 3.0 e resultados observados por clientes
A AWS informa que múltiplas empresas já testam ou executam cargas produtivas sobre a família Trainium. Entre elas estão Anthropic, Metagenomi e Ricoh, que reportaram até 50 % de redução nos gastos com treinamento e inferência após a migração. A startup Decart apontou desempenho quatro vezes superior ao utilizar UltraServers, pagando metade do valor comparado a GPUs tradicionais. Esses resultados práticos sustentam a tese de que a combinação de hardware dedicado, rede de baixa latência e software otimizado pode diminuir barreiras de entrada para projetos de larga escala.
Os casos de uso variam de modelos de linguagem generativa a aplicações genômicas. O denominador comum é a busca por mais parâmetros, contextos mais amplos e menor tempo de resposta, objetivos que exigem capacidade computacional elevada. Ao oferecer clusters prontos e gerenciados, a AWS transfere a complexidade de integração para sua própria infraestrutura, permitindo que as equipes concentrem esforços em pesquisa e desenvolvimento de algoritmos.
Nova Forge expande possibilidades de personalização no treinamento de IA
Paralelamente ao lançamento do chip, a Amazon introduziu o Nova Forge, serviço que custará 100 mil dólares por ano e dá acesso a checkpoints exclusivos nos estágios de pré-treinamento, treinamento e pós-treinamento dos modelos Nova. Em vez de apenas ajustar pesos finais (fine-tuning), as organizações podem inserir dados proprietários em várias fases, construindo soluções sob medida sem arcar com o preço de iniciar um modelo do zero.
O sistema gera modelos personalizados, batizados de Novellas, que podem ser implantados diretamente no Amazon Bedrock — plataforma que já opera cargas em Trainium3. Entre os primeiros clientes do Forge figuram Booking.com, Cosine AI, Nimbus Therapeutics, Nomura Research Institute, OpenBabylon, Reddit e Sony. O diretor-de-tecnologia do Reddit relatou que um modelo Nova adaptado com dados da rede social apresenta resultados promissores, indicando evolução na qualidade das respostas contextuais.
Competição e diversificação de fornecedores de chips
Embora a Nvidia ainda seja considerada referência em GPUs para aprendizado profundo, o movimento da AWS sinaliza uma tendência de diversificação. Analistas de mercado observam que empresas buscam reduzir dependência de um único fabricante, tanto por questões de preços quanto por disponibilidade. A AWS declara não pretender substituir a Nvidia, mas ampliar o leque de opções, posicionando o Trainium3 como alternativa de custo otimizado para quem prioriza grandes lotes de treinamento.
Essa abordagem híbrida ganha força à medida que provedores de nuvem oferecem instâncias com múltiplas arquiteturas lado a lado. Organizações podem testar workloads em GPUs, TPUs ou no novo ASIC da Amazon, selecionando a plataforma mais vantajosa para cada etapa — pré-processamento, training ou inferência.
Rumo ao Trainium4: próximos passos no treinamento de IA
A AWS já delineou o caminho para o Trainium4, cuja previsão inclui desempenho seis vezes maior em precisão FP4, três vezes em FP8 e largura de banda de memória quatro vezes superior. O componente futuro deve incorporar NVLink Fusion, solução que possibilita racks híbridos mesclando Trainium, processadores Graviton e EFA (Elastic Fabric Adapter). Essa integração pretende facilitar fluxos de trabalho unificados, em que diferentes tipos de núcleos lidam com estágios específicos do treinamento de IA.
Enquanto o próximo chip não chega, os Amazon EC2 Trn3 UltraServers já podem ser contratados pelos clientes da nuvem, marcando o início da fase em que o Trainium3 passa a alimentar modelos de última geração e a sustentar serviços como o Nova Forge.

Conteúdo Relacionado