Falha na automação da AWS provoca instabilidade global e afeta mais de 500 empresas

Falha na automação da AWS provoca instabilidade global e afeta mais de 500 empresas

Na segunda-feira, 20 de outubro de 2025, a Amazon Web Services (AWS) enfrentou uma interrupção de grandes proporções que repercutiu em toda a internet. A companhia atribuiu o problema a um defeito em sua automação responsável por gerenciar registros DNS associados ao banco de dados DynamoDB. O incidente, centrado na região de datacenters US-East-1, no estado da Virgínia, impossibilitou que milhares de aplicações localizassem seus dados, resultando em instabilidades percebidas por usuários em todo o mundo.

Índice

O que exatamente aconteceu

De acordo com relatório publicado pela própria Amazon, o ponto de partida foi a inserção de um registro DNS vazio nos sistemas da região US-East-1. Esse tipo de registro, ao não conter parâmetros válidos, cria um “beco sem saída” na resolução de nomes de domínio. Quando a automação responsável por conferir e corrigir inconsistências recebeu o registro defeituoso, ela falhou em identificar a anomalia e, consequentemente, não disparou os mecanismos de recuperação que deveriam proteger a malha de serviços.

No ecossistema da AWS, o DynamoDB é executado em uma infraestrutura fortemente automatizada. O serviço mantém milhares de registros DNS internos para que aplicações distribuídas encontrem tabelas e partições de dados em frações de segundo. O defeito latente no processo de verificação desses registros passou despercebido até que o item inválido fosse gravado. A partir daí, requisições legítimas passaram a consultar entradas inexistentes, provocando erros em cascata.

Quem foi impactado

A AWS estima que mais de 500 empresas vivenciaram indisponibilidade total ou parcial de seus ambientes. Plataformas de comércio eletrônico, como o Mercado Livre, relataram falhas na finalização de pedidos, enquanto jogos on-line populares, como Fortnite, sofreram atrasos no emparelhamento de servidores. Companhias aéreas que utilizam a nuvem da Amazon para check-in e gerenciamento de voos também enfrentaram interrupções temporárias.

Os efeitos não se limitaram a grandes corporações. Pequenas e médias empresas que armazenam dados críticos no DynamoDB tiveram suas aplicações paralisadas. Em alguns casos, serviços web exibiram páginas de erro; em outros, processos de backend deixaram de responder. A amplitude da queda revela o grau de dependência da economia digital em relação à infraestrutura de nuvem.

Cronologia da falha

A instabilidade tornou-se perceptível pouco antes das 11h (horário de Brasília), quando métricas de disponibilidade monitoradas por clientes começaram a despencar. Ao longo da tarde, fóruns técnicos registraram aumento súbito de relatórios de erro 5xx, típicos de falhas de servidor. Equipes de operações de diversas empresas tentaram contornar o problema, redirecionando requisições para cópias de dados em outras regiões, mas o tráfego residual obrigatoriamente dependia do sistema afetado para resolver nomes de host.

A normalização ocorreu apenas perto das 21h. Segundo a Amazon, engenheiros precisaram identificar manualmente o registro DNS anômalo, removê-lo e reconstruir o processo de verificação automática. Na sequência, um fluxo de propagação de configuração foi disparado para restaurar o funcionamento do roteamento interno do DynamoDB.

Como o DynamoDB utiliza DNS

O DynamoDB oferece um modelo de banco de dados NoSQL cujas partições são distribuídas geograficamente. Para que um cliente alcance a partição correta, o serviço traduz nomes lógicos em endereços IP físicos por meio de DNS. Essa arquitetura confere escala, mas também amplia a superfície de risco: qualquer incongruência nos registros de nome compromete a capacidade de localizar dados.

Para garantir velocidade, a AWS emprega um sistema de cache muito agressivo, replicando registros em pontos distribuídos. Quando um registro inválido entra no cache, o erro propaga-se quase instantaneamente. Foi o que ocorreu na segunda-feira: a presença do campo vazio disseminou referências nulas para centenas de pontos de acesso, derrubando a confiabilidade do serviço.

Por que o erro se propagou

O relatório descreve a falha como “efeito cascata”. Inicialmente, apenas uma zona de disponibilidade foi impactada, mas a automação encarregada de isolar problemas interpretou erroneamente os alertas. Em vez de conter o defeito, o sistema continuou replicando configurações, multiplicando o alcance da pane. Esse comportamento decorre de uma lógica de atualização que prioriza consistência global: cada alteração é distribuída para todas as réplicas a fim de evitar divergências regionais.

Como o componente de verificação não sinalizou anomalia, processos dependentes assumiram que o estado da configuração era saudável. A ausência de salvaguardas adicionais permitiu que serviços não apenas lessem o registro vazio, mas também o reproduzissem em caches internos. O resultado foi um bloqueio generalizado de resoluções DNS, impedindo que clientes recordassem o “caminho” até suas bases de dados.

Dimensão financeira e reputacional

Especialistas ouvidos por consultorias do setor estimam que a indústria pode ter perdido milhões ou até bilhões de dólares em receitas não realizadas durante as horas de instabilidade. Embora a Amazon não divulgue valores de compensação contratual nem prejuízo direto, analistas destacam que interrupções em cadeia causam perdas intangíveis, como dano à confiança de clientes e atrasos na entrega de produtos.

Para a AWS, que lidera o mercado global de nuvem, a falha representa um ponto sensível em sua imagem de confiabilidade. Grandes organizações avaliam contratos com base em métricas de disponibilidade, e incidentes dessa magnitude frequentemente resultam em revisões de arquitetura, adoção de estratégias multicloud ou exigência de maiores garantias.

Escala da AWS no mercado de nuvem

Dados de 2022 indicam que mais de 1,4 milhão de empresas utilizam alguma tecnologia da AWS. A abrangência inclui desde startups em estágio inicial até conglomerados multinacionais que dependem de serviços como computação elástica, armazenamento de objetos e bancos de dados gerenciados. A base massiva de clientes explica por que um problema localizado em uma única região pode reverberar globalmente.

O modelo de nuvem pública centraliza infraestrutura em datacenters gigantescos. Esse arranjo assegura economia de escala, mas cria pontos de falha que, se não forem rapidamente mitigados, desencadeiam impactos extensos. A falha na US-East-1 reforça a necessidade de arquiteturas resilientes, espalhadas por mais de uma região física.

Incidentes recentes na indústria

Em 2024, a área de tecnologia testemunhou outro evento de grande alcance: um apagão em soluções da CrowdStrike que impactou quase 10 milhões de computadores. Embora de natureza distinta, ambos os episódios destacam a interdependência de sistemas digitais e a relevância de processos de monitoramento capazes de detectar falhas latentes antes que se transformem em crises.

Para profissionais de operação de nuvem, o incidente da AWS fornece um estudo de caso sobre as consequências de confiabilidade automatizada mal calibrada. A lição principal sublinha que automação, embora poderosa, requer mecanismos redundantes de supervisão humana e lógica de validação capaz de identificar entradas excepcionalmente inválidas.

Próximos passos divulgados pela Amazon

No documento de pós-incidente, a companhia detalhou ações corretivas que incluem aprimorar validações de integridade em processos de criação de registros DNS, estabelecer alarmes adicionais para detectar valores nulos e revisar protocolos de propagação de configuração. A AWS afirmou ainda que expandirá testes de carga para simular estados inconsistentes, com o objetivo de reduzir o tempo de recuperação em situações semelhantes.

Com essas medidas, a empresa pretende reforçar a confiança de seu extenso portfólio de clientes e mitigar o risco de novas interrupções que comprometam serviços essenciais em escala mundial.

zairasilva

Olá! Eu sou a Zaira Silva — apaixonada por marketing digital, criação de conteúdo e tudo que envolve compartilhar conhecimento de forma simples e acessível. Gosto de transformar temas complexos em conteúdos claros, úteis e bem organizados. Se você também acredita no poder da informação bem feita, estamos no mesmo caminho. ✨📚No tempo livre, Zaira gosta de viajar e fotografar paisagens urbanas e naturais, combinando sua curiosidade tecnológica com um olhar artístico. Acompanhe suas publicações para se manter atualizado com insights práticos e interessantes sobre o mundo da tecnologia.

Conteúdo Relacionado

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

Go up

Usamos cookies para garantir que oferecemos a melhor experiência em nosso site. Se você continuar a usar este site, assumiremos que você está satisfeito com ele. OK