Cloudflare 2025年11月18日宕机事件复盘(UTC+8时间)

作者:Administrator 发布时间: 2025-11-19 阅读量:2 评论数:0

Cloudflare 2025年11月18日宕机事件复盘(UTC+8时间)

事件概述

时间:2025年11月18日 19:20 UTC+8(开始)至 11月19日 01:06 UTC+8(完全恢复)
影响:Cloudflare网络无法正常交付核心网络流量,导致用户访问Cloudflare客户网站时显示错误页面
原因:非网络攻击或恶意活动导致,而是由数据库系统权限变更引发的配置文件问题
严重程度:Cloudflare自2019年以来最严重的宕机事件


问题根源

问题触发机制

  1. 数据库权限变更:在19:05 UTC+8,Cloudflare对ClickHouse数据库集群的查询权限管理进行了变更
  2. 查询行为变化:该变更导致查询返回了原本不应返回的元数据(包含r0数据库的表结构)
  3. 特征文件异常:Bot Management系统使用的特征文件生成查询(未过滤数据库名)返回了重复的列数据
  4. 文件大小翻倍:特征文件中的特征行数从约60条增加到120+条,导致文件大小翻倍
  5. 系统限制触发:Bot Management模块对特征数量的预设限制(200条)被突破,引发系统崩溃

技术细节

// Bot Management系统中触发错误的代码  
thread fl2_worker_thread panicked: called Result::unwrap() on an Err value  

事件时间线(UTC+8时间)

时间 (UTC+8)状态描述
11月18日 19:05正常数据库访问控制变更部署
11月18日 19:28影响开始部署到达客户环境,首次观察到客户HTTP流量错误
11月18日 19:32-21:05调查中团队调查高流量级别和错误,尝试缓解Workers KV服务
11月18日 21:05影响减少Workers KV和Cloudflare Access实现绕过——影响减少
11月18日 21:37专注于回滚工作集中在Bot Management配置文件回滚到已知良好版本
11月18日 22:24停止传播停止创建和传播新的Bot Management配置文件
11月18日 22:24测试完成新文件测试完成
11月18日 22:30主要影响解决全球部署正确的Bot Management配置文件,大多数服务开始正常运行
11月19日 01:06完全恢复所有下游服务重启,所有操作完全恢复

受影响服务

服务/产品影响描述
Core CDN和安全服务HTTP 5xx状态码。用户看到典型的错误页面
TurnstileTurnstile无法加载
Workers KVWorkers KV返回显著增加的HTTP 5xx错误,因KV"前端"网关失败
Dashboard登录功能大部分不可用(Turnstile不可用)
Email Security临时失去IP声誉源,影响垃圾邮件检测准确率,部分新域名年龄检测未触发
Access广泛的认证失败,从事件开始持续到21:05回滚启动

修复过程

  1. 初步误判:团队最初错误地认为是超大规模DDoS攻击
  2. 问题识别:确定问题根源为Bot Management的配置文件问题
  3. 紧急措施
    • 停止生成和传播有问题的特征文件
    • 用已知良好的文件替换
    • 重启核心代理
  4. 进一步缓解
    • 21:05:为Workers KV和Cloudflare Access实施绕过,使其回退到旧版核心代理
    • 22:30:全球部署正确配置文件
    • 01:06:所有系统完全恢复

事件影响范围

  • HTTP错误:5xx错误率显著上升
  • 延迟增加:CDN响应延迟显著增加,因调试和可观测系统消耗大量CPU
  • 用户影响:全球大量网站访问受阻,影响了Cloudflare服务的数百万客户

后续改进措施

Cloudflare已开始实施以下措施,以防止类似事件再次发生:

  1. 配置文件加固:将Cloudflare生成的配置文件处理方式,如同处理用户输入一样进行加固
  2. 全局开关:启用更多全局功能开关,以快速禁用有问题的功能
  3. 错误报告优化:消除可能导致系统资源过载的core dumps或其他错误报告
  4. 故障模式审查:审查所有核心代理模块在错误条件下的故障模式

总结与反思

"今天是Cloudflare自2019年以来最严重的宕机事件。我们构建系统时就设计为高度弹性,以确保流量始终能正常流动。当过去发生宕机时,总能促使我们建立更弹性的系统。但今天的宕机是不可接受的。我们让互联网和我们的客户失望了。"

Cloudflare团队已向所有受影响的客户道歉,并承诺将从此次事件中学习,加强系统韧性,防止类似事件再次发生。


注:本文基于Cloudflare官方博客《Cloudflare outage on November 18, 2025》整理,原文发布于2025年11月18日
原文链接:https://blog.cloudflare.com/18-november-2025-outage/

关注我们,获取更多DevOps和安全更新资讯!
本文作者:运维技术团队:辣个男人Devin
发布日期:2025年11月19日

评论