CrowdStrike 已发布了对其上周导致 850 万台 Windows 机器宕机的错误更新的事件后回顾(PIR)。详细的帖子将责任归咎于测试软件中的一个错误,该错误未能正确验证上周五推送到数百万台机器的内容更新。CrowdStrike 承诺将更彻底地测试其内容更新,改进其错误处理,并实施分阶段部署以避免再次发生此类灾难。
CrowdStrike 的 Falcon 软件被全球各地的企业用来帮助防范恶意软件和数百万台 Windows 机器上的安全漏洞。上周五,CrowdStrike 发布了其软件的内容配置更新,旨在“收集有关新型威胁技术可能性的遥测数据”。这些更新定期发布,但这次的配置更新导致 Windows 崩溃。
CrowdStrike 通常以两种不同的方式发布配置更新。一种称为传感器内容,直接更新 CrowdStrike 在 Windows 内核级别运行的 Falcon 传感器,另一种是快速响应内容,更新该传感器检测恶意软件的方式。一个只有 40KB 的快速响应内容文件导致了上周五的问题。
对传感器的实际更新并非来自云端,通常包括 AI 和机器学习模型,这些模型将使 CrowdStrike 能够从长远来看提高其检测能力。这些能力中的一些包括称为模板类型的东西,这是使新的检测成为可能的代码,它由上周五发布的独立快速响应内容类型配置。
在云端,CrowdStrike 管理着自身的系统,该系统会在内容发布之前对其进行验证检查,以防止像上周五这样的事件发生。CrowdStrike 上周发布了两个快速响应内容更新,或者它也称为模板实例。“由于内容验证器中的一个错误,两个模板实例中的一项通过了验证,尽管包含有问题的 content 数据,”CrowdStrike 说。
虽然 CrowdStrike 对传感器内容和模板类型进行自动和手动测试,但它似乎没有对上周五发布的快速响应内容进行那么彻底的测试。3 月份部署的新模板类型提供了“对内容验证器中执行的检查的信任”,因此 CrowdStrike 似乎认为快速响应内容的推出不会造成问题。
这种假设导致传感器将有问题的快速响应内容加载到其内容解释器中,并触发了超出范围的内存异常。“这种意外异常无法优雅地处理,导致 Windows 操作系统崩溃(BSOD),”CrowdStrike 解释说。
为了防止这种情况再次发生,CrowdStrike 承诺通过使用本地开发人员测试、内容更新和回滚测试,以及压力测试、模糊测试和故障注入来改进其快速响应内容测试。CrowdStrike 还将在快速响应内容上执行稳定性测试和内容接口测试。
CrowdStrike 还更新了其基于云的内容验证器,以更好地检查快速响应内容发布。CrowdStrike 说:“一项新检查正在进行中,以防范此类有问题的 content 未来被部署。”
在驱动程序方面,CrowdStrike 将“增强内容解释器中现有的错误处理”,这是 Falcon 传感器的一部分。CrowdStrike 还将实施快速响应内容的分阶段部署,确保更新逐渐部署到其安装基地的更大范围内,而不是立即推送到所有系统。驱动程序改进和分阶段部署都在最近几天得到安全专家的推荐。