昨天一个网站更新，致国外大范围断网6小时

IT小埋

8 月前

昨晚，互联网用户经历了一场不小的震动：Cloudflare 出问题了。

这次故障并非小打小闹，而是直接影响到了全球互联网的正常运行。推特无法刷新，ChatGPT 无法响应，Canva 无法打开，在线游戏更是直接掉线，甚至连用于查询网站状态的 Down Detector 也未能幸免。

许多用户在访问网站时遇到了“Error 500”的提示，直指 Cloudflare 故障。

一时间，社交媒体上哀嚎遍野。有人戏称，连“AI 女友”都无法联系了；有人则用“美国人没汉堡吃了”来形容此次事件的严重性。

那么，Cloudflare 究竟是什么？为何它的故障会引发如此大规模的影响？

简单来说，Cloudflare 扮演着互联网“物业公司”的角色，负责网站的安全防护、访问加速和流量管理。其核心业务包括 CDN（内容分发网络）、DDoS 防护、Web 应用防火墙以及 DNS 服务等。

通常情况下，用户访问网站会直接连接到网站服务器。但使用 Cloudflare 后，用户的请求会先经过 Cloudflare 的服务器，再到达目标网站。这样做的目的是为了提高访问速度和保障网站安全。

Cloudflare 在全球部署了大量数据中心，可以将用户的请求导向最近的服务器，从而实现加速访问。同时，Cloudflare 还能有效防御 DDoS 攻击，过滤恶意流量，保障网站的稳定运行。

然而，这种中心化的架构也带来了一个潜在的风险：一旦 Cloudflare 出现问题，大量的网站服务都会受到影响。

根据 Cloudflare 发布的事故报告，此次故障的根源在于其 Bot Management（机器人管理）功能。该功能通过特征文件来识别恶意机器人，并对访问者进行评分。然而，在一次数据库权限调整后，数据库集群的数据同步机制出现问题，导致特征文件被过度复制，最终超过了系统上限，引发了崩溃。

更糟糕的是，由于数据库集群的更新是分批进行的，导致网站服务时好时坏，加剧了用户的困扰。

经过近 6 个小时的紧急抢修，Cloudflare 最终恢复了服务。

尽管 Cloudflare 承诺将加强配置文件检查和审查容错能力，但此次事件再次提醒我们，互联网基础设施的稳定至关重要。对于企业而言，采用多云部署或备用方案或许是一种选择，但这无疑会增加成本和复杂性。对于普通用户而言，或许只能寄希望于这些基础设施公司能够真正从每次事故中吸取教训，避免类似事件再次发生。

互联网如同建立在几根关键支柱上的空中楼阁，任何一根支柱的晃动都可能导致整个系统的震荡。