Cloudflare 2025年11月18日宕机事件复盘(UTC+8时间)
事件概述
时间:2025年11月18日 19:20 UTC+8(开始)至 11月19日 01:06 UTC+8(完全恢复)
影响:Cloudflare网络无法正常交付核心网络流量,导致用户访问Cloudflare客户网站时显示错误页面
原因:非网络攻击或恶意活动导致,而是由数据库系统权限变更引发的配置文件问题
严重程度:Cloudflare自2019年以来最严重的宕机事件
问题根源
问题触发机制
- 数据库权限变更:在19:05 UTC+8,Cloudflare对ClickHouse数据库集群的查询权限管理进行了变更
- 查询行为变化:该变更导致查询返回了原本不应返回的元数据(包含r0数据库的表结构)
- 特征文件异常:Bot Management系统使用的特征文件生成查询(未过滤数据库名)返回了重复的列数据
- 文件大小翻倍:特征文件中的特征行数从约60条增加到120+条,导致文件大小翻倍
- 系统限制触发:Bot Management模块对特征数量的预设限制(200条)被突破,引发系统崩溃
技术细节
// Bot Management系统中触发错误的代码
thread fl2_worker_thread panicked: called Result::unwrap() on an Err value
事件时间线(UTC+8时间)
| 时间 (UTC+8) | 状态 | 描述 |
|---|---|---|
| 11月18日 19:05 | 正常 | 数据库访问控制变更部署 |
| 11月18日 19:28 | 影响开始 | 部署到达客户环境,首次观察到客户HTTP流量错误 |
| 11月18日 19:32-21:05 | 调查中 | 团队调查高流量级别和错误,尝试缓解Workers KV服务 |
| 11月18日 21:05 | 影响减少 | Workers KV和Cloudflare Access实现绕过——影响减少 |
| 11月18日 21:37 | 专注于回滚 | 工作集中在Bot Management配置文件回滚到已知良好版本 |
| 11月18日 22:24 | 停止传播 | 停止创建和传播新的Bot Management配置文件 |
| 11月18日 22:24 | 测试完成 | 新文件测试完成 |
| 11月18日 22:30 | 主要影响解决 | 全球部署正确的Bot Management配置文件,大多数服务开始正常运行 |
| 11月19日 01:06 | 完全恢复 | 所有下游服务重启,所有操作完全恢复 |
受影响服务
| 服务/产品 | 影响描述 |
|---|---|
| Core CDN和安全服务 | HTTP 5xx状态码。用户看到典型的错误页面 |
| Turnstile | Turnstile无法加载 |
| Workers KV | Workers KV返回显著增加的HTTP 5xx错误,因KV"前端"网关失败 |
| Dashboard | 登录功能大部分不可用(Turnstile不可用) |
| Email Security | 临时失去IP声誉源,影响垃圾邮件检测准确率,部分新域名年龄检测未触发 |
| Access | 广泛的认证失败,从事件开始持续到21:05回滚启动 |
修复过程
- 初步误判:团队最初错误地认为是超大规模DDoS攻击
- 问题识别:确定问题根源为Bot Management的配置文件问题
- 紧急措施:
- 停止生成和传播有问题的特征文件
- 用已知良好的文件替换
- 重启核心代理
- 进一步缓解:
- 21:05:为Workers KV和Cloudflare Access实施绕过,使其回退到旧版核心代理
- 22:30:全球部署正确配置文件
- 01:06:所有系统完全恢复
事件影响范围
- HTTP错误:5xx错误率显著上升
- 延迟增加:CDN响应延迟显著增加,因调试和可观测系统消耗大量CPU
- 用户影响:全球大量网站访问受阻,影响了Cloudflare服务的数百万客户
后续改进措施
Cloudflare已开始实施以下措施,以防止类似事件再次发生:
- 配置文件加固:将Cloudflare生成的配置文件处理方式,如同处理用户输入一样进行加固
- 全局开关:启用更多全局功能开关,以快速禁用有问题的功能
- 错误报告优化:消除可能导致系统资源过载的core dumps或其他错误报告
- 故障模式审查:审查所有核心代理模块在错误条件下的故障模式
总结与反思
"今天是Cloudflare自2019年以来最严重的宕机事件。我们构建系统时就设计为高度弹性,以确保流量始终能正常流动。当过去发生宕机时,总能促使我们建立更弹性的系统。但今天的宕机是不可接受的。我们让互联网和我们的客户失望了。"
Cloudflare团队已向所有受影响的客户道歉,并承诺将从此次事件中学习,加强系统韧性,防止类似事件再次发生。
注:本文基于Cloudflare官方博客《Cloudflare outage on November 18, 2025》整理,原文发布于2025年11月18日
原文链接:https://blog.cloudflare.com/18-november-2025-outage/
关注我们,获取更多DevOps和安全更新资讯!
本文作者:运维技术团队:辣个男人Devin
发布日期:2025年11月19日