在 CrowdStrike 更新错误导致全球数百万台 Windows 机器宕机以及美国 Microsoft Azure 区域同步中断几天后,微软报告称其 Microsoft 365 旗下各种服务和功能出现“访问问题和性能下降”。
这至少是微软七月份发生的第三次重大中断。
这家总部位于华盛顿州雷德蒙德的云和 AI 工具供应商于太平洋时间周二凌晨 5:48 在 X(原名 Twitter)上发帖称,“我们目前正在调查多项 Microsoft 365 服务和功能的访问问题和性能下降问题”,X 帖子称。“更多信息可在管理中心的 MO842351 下找到。此次中断发生在微软公布第四财季收益的几个小时前。
太平洋时间上午 7:51,微软补充道:“我们已经采取了缓解措施并重新路由了用户请求以提供缓解。我们正在监控服务以确认解决方案,更多信息可以在https://status.cloud.microsoft或管理中心的 MO842351 下找到。”当记者在 X 帖子发布后约 10 分钟尝试访问云状态网站时,记者收到了“无法访问站点”错误消息。
Microsoft 365 中断
在 Microsoft Azure Status 网站上,该供应商表示,“从 2024 年 7 月 30 日 UTC 时间大约 11:45 开始,一部分客户可能会遇到在全球范围内连接 Microsoft 服务的问题。”
状态页面显示:“我们已经实施了网络配置更改,并执行了故障转移以替代网络路径以提供缓解。”监控遥测显示,服务可用性从大约 UTC 时间 14:10 开始有所改善,我们将继续监控以确保完全恢复。
一张分解问题的图表警告说,美洲、亚太地区、欧洲、中东和非洲 (EMEA) 任何地区的用户都可能面临网络基础设施问题。
Ookla 的 Downdetector 网站显示,太平洋时间周二上午 6:22 左右,M365 中断报告数量达到 24 小时内的最高点 363 起。Azure 中断报告数量在同一时间左右达到 24 小时内的最高点 483 起。
“SysAdmin” 子版块的用户报告称,东欧、英国、加拿大和美国东部地区均遭遇了中断
有些用户觉得这种情况很有趣。“为什么我的 Team’s 永远不会宕机?一个下午没有电话或消息真是太好了,”一位用户写道,他指的是微软流行的通信和协作平台。
7 月 19 日停电
此次中断似乎与自 7 月 19 日 CrowdStrike 更新故障干扰数百万台 Windows 机器以来所引发的轩然大波无关,几天后,包括达美航空在内的一些 Windows 用户仍在应对中断的影响。
根据思科子公司 ThousandEyes 在 7 月 26 日发布的博客文章,在 CrowdStrike 事件发生的几个小时前,“微软经历了一次无关的(中断),影响了对各种 Azure 服务以及在美国中部地区配置了单区域服务的客户帐户的访问”。
帖子称:“此次中断与 CrowdStrike 事件发生的时间大致相同,从 7 月 18 日晚上 9:56(UTC)到 7 月 19 日下午 12:15(UTC)。”“两起事件发生的时间相近可能造成了一些混乱,导致更大规模的全球 IT 中断被错误地归咎于微软。虽然微软系统在 CrowdStrike 事件期间受到了影响,但这与 Azure 事件完全无关。”
此次中断包括“服务管理操作和服务连接或可用性故障”,ThousandEyes 表示,“与美国中部地区的连接似乎受损,在受影响地区的入口点观察到转发丢失……受影响的包括 Confluent、Elastic Cloud 和 Microsoft 365。”
“微软的状态更新还指出,配置更改是影响后端服务(特别是存储集群和计算资源)连接的根本原因。这随后触发了一些自动缓解措施,服务被反复重启。”
ThousandEyes 还报道了 7 月 13 日的 Azure 问题,该问题导致 Grammarly 的服务中断。
报告称:“Azure 报告称,Azure OpenAI (AOAI) 服务有一个自动化系统,该系统在区域内实施,但使用全局配置来管理某些后端资源的生命周期。”“已进行更改以更新此配置,以删除 AOAI 内部订阅中未使用的资源。此订阅上的存储帐户数量有配额,这些帐户未使用,旨在清理以防止存储配额压力。”