ClickHouse y el sistema de bots: el origen del apagón de Cloudflare 

Soramir Torres

, INTERNET

El martes 18 de noviembre de 2025, millones de usuarios en todo el mundo se vieron sorprendidos por una interrupción masiva de internet que dejó fuera de servicio a plataformas como ChatGPT, X (antes Twitter), Canva, League of Legends y hasta el sitio de monitoreo Downdetector. La causa: un fallo interno en Cloudflare, una de las redes de entrega de contenido (CDN) más importantes del mundo, que gestiona aproximadamente el 20% del tráfico web global.

Matthew Prince, cofundador y director ejecutivo de Cloudflare, calificó el incidente como ‘el peor apagón desde 2019’ y publicó una entrada detallada en el blog oficial de la compañía explicando lo sucedido. A diferencia de lo que se temía inicialmente —un ciberataque o un fallo en el sistema DNS—, el problema se originó en el módulo de gestión de bots de la empresa.

El sistema de gestión de bots de Cloudflare utiliza aprendizaje automático para asignar puntuaciones a las solicitudes que atraviesan su red, ayudando a identificar y bloquear bots maliciosos. Sin embargo, un cambio en las consultas a su base de datos ClickHouse provocó la generación de un archivo de configuración con millones de filas duplicadas. Este archivo creció rápidamente hasta superar los límites de memoria establecidos, lo que colapsó el sistema proxy central encargado de procesar el tráfico de los clientes que dependían del módulo de bots.

Como resultado, muchas empresas que usaban reglas basadas en puntuaciones de bots comenzaron a bloquear tráfico legítimo, generando falsos positivos. En cambio, los clientes que no utilizaban este sistema permanecieron en línea.

TE PUEDE INTERESAR: El futuro de los desarrolladores: ¿reemplazados por IA?

Qué medidas tomará Cloudflare

Para evitar que este tipo de incidentes se repita, Cloudflare anunció cuatro acciones concretas:

  1. Reforzar la validación de archivos de configuración generados internamente, tratándolos como si fueran entradas de usuario.
  2. Implementar más interruptores de apagado globales, que permitan desactivar funciones críticas en caso de emergencia.
  3. Eliminar volcados de núcleos y reportes de errores automáticos que puedan saturar los recursos del sistema.
  4. Revisar los modos de fallo para detectar errores en todos los módulos proxy principales antes de que escalen.

Además, la empresa reafirmó su compromiso con nuevas tecnologías de mitigación como el ‘Laberinto de IA’, un sistema que utiliza contenido generado por inteligencia artificial para confundir y ralentizar a los bots que ignoran las directivas de exclusión como robots.txt.

Foto: Cloudflare.

Deja una respuesta