CrowdStrike 软件更新故障导致全球 Windows 系统大规模停机
关键要点
CrowdStrike 的问题软件更新造成全球 Windows 系统停机,目前 97 的受影响计算机已恢复运行。CrowdStrike CEO 乔治库尔茨George Kurtz针对仍在解决问题的客户表示诚挚歉意,并承诺将全力以赴确保全面恢复。此次事件预计给财富 500 强公司带来了 50 亿美元的直接损失。在 CrowdStrike 故障软件更新导致全球 Windows 系统大规模停机后,几乎一周时间过去,97 的受影响计算机已经恢复正常运行。

CrowdStrike CEO 乔治库尔茨在周四晚间发布的更新中表示:“截至 7 月 25 日,97 的 Windows 传感器已恢复在线,并感谢我们的客户、合作伙伴以及 CrowdStrike 团队的不懈努力。”
针对仍在加紧更新系统以重新上线的3客户,库尔茨表示他“深感抱歉”。
“对于仍受到影响的客户,请知道我们不会休息,直到实现完全恢复。CrowdStrike 的使命是通过保护您的运营来赢得您的信任。对于此次停机带来的干扰,我深表歉意,并对每一位受影响人员表示个人歉意。虽然我无法承诺完美,但我可以保证我们的响应将是专注的、有效的,并且带有紧迫感。”
在他的个人 LinkedIn 帖子 中,库尔茨补充称,自动恢复技术结合“调动我们所有资源以支持客户”的方法,加速了系统的恢复。
CrowdStrike 的 支持页面 上表示:“根据逐周比较,截至 7 月 24 日下午 5 点 PT,超过 97 的 Windows 传感器已恢复在线,相较于内容更新之前的数据。”
引发 BSOD 的越界内存读取漏洞
同一天,该公司发布了一份初步的 事件后评审报告PDF,说明了导致 Falcon 传感器更新失效的根本原因。
“在 2024 年 7 月 19 日 UTC 时间 0409,针对运行传感器版本 711 及以上的 Windows 主机发布了 Rapid Response 内容更新。该更新旨在收集 CrowdStrike 观察到的新威胁技术的遥测数据,但在 0409 至 0527 UTC 期间导致系统崩溃BSOD。”
报告中指出,崩溃与“Rapid Response 内容中的缺陷”有关,该缺陷在验证检查时未被发现。报告进一步说明,当 Falcon 传感器加载更新内容时,“这导致了越界内存读取,从而引发 Windows 崩溃BSOD”。
为了确保未来更新不会遭遇同样的灾难,CrowdStrike 表示将通过采用“本地开发、内容更新和回滚、压力测试、模糊测试、故障注入、稳定性及内容接口测试”来改善 Rapid Response 内容的测试。该公司还表示,测试将包括新的代码验证检查,以防止类似问题的发生。
此外,CrowdStrike 还计划:
增强恢复能力和可恢复性精炼部署策略提升第三方验证能力CrowdStrikeMicrosoft 故障导致财富 500 强公司损失 50 亿美元
根据保险公司 Parametrix 的数据,CrowdStrike 的故障更新及随之而来的 Microsoft 系统停机,给财富 500 强公司带来了约 50 亿美元的直接损失。
极光加速器隐私保护Parametrix 的报告 “CrowdStrike 对财富 500 强的影响”PDF