Reflexões sobre a interrupção no serviço da Cloudflare
- gustavokoketsu
- Nov 26
- 2 min read
Nos últimos dias muitas pessoas e veículos de notícias de áreas diferentes comentaram sobre a interrupção no serviço da Cloudflare, afinal, não é todo dia que vemos sites gigantes da internet como o X e o ChatGPT e foram levantadas muitas discussões, com foco principalmente sobre a infra-estrutura disponível das plataformas e a necessidade de um plano de emergência. Claramente esses pontos são importantes mas na prática ainda é inviável por diversas razões.

Primeiramente, de maneira bem resumida, a Cloudflare é um CDN (Content Delivery Network) que através dos seus servidores distribui de maneira mais rápida o conteúdo de suas aplicações, além disso impede que usuários externos acessem diretamente o servidor (Reverse Proxy) e gerencia o volume de requisições recebidas a fim de que nenhum servidor se sobrecarregue (Load Balancer). Além disso, ela também tem uma função crucial para a segurança de qualquer aplicação, que é o Firewall da Aplicação Web (WAF) e é aí a parte mais sensível sobre a análise.
WAF parou?
O desafio em ter um WAF reserva reside justamente na complexidade de sua configuração e no comportamento de cada um deles, pois cada um teria sua política própria além da forma com que cada um interpreta as ações dos usuários, com situações em que um WAF identifica um comportamento suspeito e outra não, além é claro do custo elevado. A prova disso é que nem mesmo as aplicações mais populares de ponta possuem esse tipo de estrutura.
O que pode ser feito é a revisão das políticas de segurança para esse tipo de cenário e até mesmo o desenvolvimento de uma versão de emergência caso o WAF deixe de funcionar, claro que deixar uma aplicação funcionar normalmente desprotegida é extremamente perigoso, e por isso, essa versão deve ter restrições no uso e políticas ainda mais severas, mas pelo menos impede a indisponibilidade total.
Tem gato nesse mato
Dito isso, precisamos ficar de olho nas coincidências. Se olharmos recentemente, vimos serviços chave como a AWS, Azure e Cloudflare caírem em um período de 30 dias, o que é bem incomum, por mais que cada empresa alegue ter ocorrido um erro diferente, todos foram erros de configuração que não condizem com o tamanho dessas empresas. Podemos adicionar também nessa lista o incidente de 2024 da Crowdstrike que afetou o windows de diversos aeroportos, também por uma falha, nesse caso na atualização. O que aconteceria se esses serviços caíssem simultaneamente? O que poderia ser feito em um prazo de 5 ou 6 horas, que é uma estimativa do tempo médio levado para a retomada das atividades? Tomara que seja apenas coincidência mesmo!



