Opus 4.5: Anthropic eleva Claude com avanços em código, agentes autônomos e integração a Chrome e Excel

O anúncio do Opus 4.5, realizado pela Anthropic nesta segunda-feira, marca a chegada da versão mais poderosa da família Claude, modelo de inteligência artificial apoiado por Amazon e Alphabet. A nova iteração foi projetada para elevar a escrita de código, a criação de agentes autônomos e a execução de tarefas corporativas complexas, abrangendo desde análises financeiras até modelagem e previsões em larga escala.
- Disputa pelo desempenho de fronteira
- Principais avanços técnicos
- Memória aprimorada e recurso de endless chat
- Expansão de agentes autônomos
- Novos recursos no Claude Code
- Integração direta com Chrome e Excel
- Avaliações de segurança e resistência a abuso
- Desempenho frente a rivais recentes
- Disponibilidade e pacotes comerciais
- Desafios pendentes
- Panorama imediato
Disputa pelo desempenho de fronteira
O lançamento ocorre em um momento de intensa competição entre laboratórios de IA que buscam modelos de nível humano ou superior. Poucos dias depois de Google e OpenAI apresentarem, respectivamente, o Gemini 3 e novas versões agentic de codificação, a Anthropic declara que o Opus 4.5 supera rivais em tarefas de programação, agentes e uso geral de computador. A estratégia da empresa enfatiza liderança específica em benchmarks de desenvolvimento de software, segmento visto como pedra de toque para a adoção empresarial de sistemas generativos.
Principais avanços técnicos
Segundo a Anthropic, o novo modelo introduz quatro eixos de melhoria: raciocínio mais profundo, memória ampliada, maior versatilidade em aplicações computacionais e desempenho elevado em testes padronizados. Nos ensaios internos e externos, a companhia aponta recordes em:
• SWE-Bench e Terminal-bench, focados em correção e geração de código;
• tau2-bench e MCP Atlas, voltados ao uso de ferramentas e automação de tarefas;
• ARC-AGI 2 e GPQA Diamond, que avaliam resolução geral de problemas.
Entre esses resultados, destaca-se o fato de o Opus 4.5 ter sido o primeiro modelo a ultrapassar 80% no índice SWE-Bench verified, métrica considerada de referência para medição de qualidade de código gerado por IA.
Memória aprimorada e recurso de endless chat
Para viabilizar sessões de trabalho extensas, a Anthropic reformulou o modo como o modelo armazena e comprime contexto. A abordagem permitiu introduzir o recurso chamado endless chat para assinantes pagos, em que o sistema administra informações de longa duração sem interromper a conversa. A liderança de produto da empresa ressalta que ter uma janela de contexto ampla não basta; o modelo precisa selecionar quais detalhes reter de forma eficiente, sobretudo em cenários onde age como agente principal que coordena subagentes baseados no modelo Haiku.
Expansão de agentes autônomos
Os agentes respaldados pelo Opus 4.5 conseguem, de acordo com a Anthropic, melhorar suas próprias capacidades ao longo do tempo e conservar aprendizados de interações passadas. Em ambientes corporativos, isso se traduz em automatização de fluxos de trabalho, coleta de dados e entrega de relatórios com menor intervenção humana. O ganho de autonomia também está alinhado à meta de reduzir custos operacionais para grandes clientes que dependem de análises repetitivas ou padronizadas.
Novos recursos no Claude Code
Junto ao modelo principal, a Anthropic introduziu atualizações na ferramenta Claude Code. O software, focado em suporte à programação, recebeu melhorias de desempenho tanto na geração quanto na depuração de scripts, abrindo caminho para integração direta com IDEs e sistemas de versionamento corporativos. Embora o núcleo de segurança do modelo siga a mesma política de salvaguardas, os testes específicos de Claude Code revelaram áreas onde o índice de recusa ainda não atingiu os 100% em solicitações consideradas maliciosas.
Integração direta com Chrome e Excel
A Anthropic ampliou a disponibilidade de plug-ins que utilizam o Opus 4.5 em ferramentas populares do ecossistema corporativo. O Claude para Chrome, inicialmente restrito a um grupo piloto, passa a ser oferecido a usuários do plano Max. Já o Claude para Excel é disponibilizado para clientes Max, Team e Enterprise. As duas extensões permitem executar pesquisas aprofundadas, manipular apresentações e preencher planilhas com base em comandos em linguagem natural. O modelo também pode ser acessado por API e pelas três principais provedoras de nuvem.
Avaliações de segurança e resistência a abuso
Como todo sistema agentic, o Opus 4.5 enfrenta desafios relacionados a prompt injection — técnica na qual instruções maliciosas são embutidas em fontes de dados com a intenção de contornar salvaguardas. A Anthropic declarou ter implementado system cards que documentam testes internos e externos direcionados a usos potencialmente ilícitos. Entre os estudos apresentados, dois se destacam:
• Em uma análise com 150 solicitações de programação proibidas pela política da empresa, o modelo recusou 100% das tentativas quando atuou como agente principal.
• No contexto do Claude Code, que foca especificamente em geração de software, o índice de recusa caiu para cerca de 78% em pedidos de criação de malware, ataques DDoS ou ferramentas de monitoramento não consentido.
Nos testes de uso de computador, que simulam ações diretas em ambientes desktop e web, o sistema recusou pouco mais de 88% das solicitações que envolviam vigilância, compilação de dados sensíveis ou envio de conteúdo nocivo. Entre os exemplos submetidos estavam instruções para localizar usuários vulneráveis em fóruns sobre dependência em jogos, bem como tentativas de redigir mensagens de extorsão via e-mail.
Desempenho frente a rivais recentes
A chegada do Opus 4.5 ocorre no mesmo mês em que a OpenAI apresentou o GPT 5.1 e o Google revelou o Gemini 3. Esses lançamentos colocam pressão adicional sobre métricas de qualidade, tempo de resposta e custo por token. A Anthropic, ao enfatizar benchmarks de codificação e uso de ferramentas, busca posicionar-se como referência em segmentos de alta demanda corporativa, diferenciando-se de abordagens mais amplas de concorrentes diretos.
Disponibilidade e pacotes comerciais
O novo modelo é disponibilizado imediatamente nos aplicativos próprios da Anthropic, incluindo interface web e dispositivos móveis. Empresas que necessitam de integração personalizada podem recorrer à API ou escolher hospedar workloads em infraestruturas das principais nuvens públicas. Os planos pagos variam de acordo com volume de chamadas, janelas de contexto e acesso a recursos premium como o endless chat.
Desafios pendentes
Apesar dos avanços, a empresa reconhece que nenhuma barreira de segurança é absoluta. A elevação de capacidade de raciocínio, por si só, amplia a superfície de ataque, exigindo monitoramento contínuo e atualizações rápidas de políticas. A Anthropic indica que continuará publicando avaliações periódicas para medir suscetibilidade a injeções de comando, usos maliciosos de agentes e potenciais vieses que possam emergir em domínios de linguagem pouco representados nos dados de treinamento.
Panorama imediato
Com recordes em benchmarks, recursos de memória estendida e integração nativa a ferramentas de produtividade, o Opus 4.5 reforça a meta da Anthropic de entregar utilidade tangível para grandes organizações. Ao mesmo tempo, os resultados de segurança mostram avanços, mas também expõem áreas em que a precisão normativa ainda precisa amadurecer. O cenário competitivo, composto por Google e OpenAI, sugere ciclos de inovação cada vez mais curtos, em que cada novo modelo é obrigado a provar valor mensurável tanto em desempenho técnico quanto em resistência a abusos.

Conteúdo Relacionado