2 月份 AT&T 的一次中断引起了联邦监管机构的关注。9 月份 Verizon 客户也出现了问题。某家网络安全供应商的更新导致全球 Windows 机器崩溃。
这是 2024 年全球面临的最大的云服务中断之一(截至 12 月 4 日)。
小编的这份榜单重点关注了对解决方案提供商特别重要的云问题,而忽略了包括 Meta 的Facebook和 Instagram 在内的消费类产品的中断问题,后者 3 月 5 日发生的中断被 Downdetector 母公司 Ookla 评为今年最大规模的中断,有超过 1110 万人报告了问题。
2024 年云中断
可观测技术提供商 New Relic 在 10 月份发布的一份报告基于对全球 1,700 名技术专业人士的调查,报告显示,严重中断造成的年平均停机时间为 77 小时,每小时造成的收入、生产力损失和其他费用高达 190 万美元。
报告发现,工程团队表示,他们每周 40 小时的工作时间中,有 12 小时用于解决服务中断问题,占总时间的 30%。网络故障、第三方或云提供商服务故障以及人为错误是造成非计划中断的主要原因。
数据库供应商 Cockroach Labs 于 10 月份发布了一份报告《2025 年恢复能力状况》,该报告基于对全球 1,000 名高级技术主管的调查,发现 84% 的受访者表示,在过去 12 个月内,他们因网络中断损失了至少 10,000 美元的收入。三分之一的受访者表示,他们的损失在 100,000 美元到 100 万美元以上。
数据库升级导致 Jira 一月份宕机
Atlassian 今年的开局并不顺利,其 Jira 项目管理工具从 1 月 18 日 UTC(协调世界时)6:52 开始,向用户发出 503 条服务不可用消息和其他错误警告,持续了大约四个小时。
ThousandEyes 表示,Jira 服务已于 UTC 时间 10:30 恢复正常运行。根据 ThousandEyes 于 2 月 2 日发布的报告,这些问题影响了澳大利亚 Atlassian 提供的 Jira Work Management、Jira Software、Jira Product Discovery 和其他服务。
Atlassian 将 Jira 产品系列性能下降归咎于“内部 Atlassian Marketplace 服务的预定数据库升级”。
“性能下降表现为响应时间增加,最终导致超时,”供应商表示。“服务质量下降随后向上游蔓延,导致 Jira 系列产品的请求超时,影响产品体验。”
2 月份 AT&T 中断事件引起 FCC 关注
2 月 22 日,AT&T 用户报告该电信巨头的服务中断,包括互联网接入。Downdetector 记录了超过 340 万份与此问题相关的用户报告,问题持续了 12 个多小时。
2 月 25 日,AT&T 首席执行官约翰·斯坦基 (John Stankey) 在一份声明中表示,此次中断“是由于我们在扩展网络时应用和执行了错误的流程所致”。该供应商还向受中断影响的客户提供 5 美元的补偿。
7 月份,美国联邦通信委员会就此事件发布了一份报告,将事故原因归咎于缺乏同行评审、安装后测试不足、缺乏足够的保障措施和控制措施来获得影响网络的变更的批准以及其他因素。
报告指出,AT&T 已做出改变以防止问题再次发生,包括“扫描网络,查找任何缺乏可防止中断的控制措施的网络元素,并及时实施这些控制措施。”报告称,该事件已提交执法局,“因为可能违反了委员会规则的第 4 部分和第 9 部分。”
Downdetector母公司Ookla称这是2024年全球第三大停电事件,也是2020年以来全球最大的运营商停电事件。
2 月份,元数据存储在 Google Cloud 上引发问题
ThousandEyes 在 3 月 1 日的帖子中表示,2 月 14 日,区域元数据存储问题导致 Google Cloud us-west1 用户服务中断。
据谷歌称,此次事件持续了大约 2 小时 40 分钟。“我们的工程团队通过隔离问题流量缓解了问题,并已采取措施防止再次发生,”谷歌表示,并将问题归咎于其区域元数据存储。
此次中断影响了多种 Google Cloud 产品、Vertex AI 产品以及身份和访问管理 (IAM)。
CrowdStrike 更新故障
今年最严重的宕机事件可能是 CrowdStrike 的一次错误更新,导致全球数百万台 Microsoft Windows 计算机崩溃。该事件仍在继续,达美航空和 CrowdStrike 互相起诉,以寻找谁应该为达美航空五天内 7,000 架航班取消负责。
此次宕机事件发生后,微软重新审视了安全技术供应商为 Windows开发产品的方式。去年 11 月,这家科技巨头表示正在研究一种方法,让安全产品避免直接访问 Windows 内核,而是像应用程序一样在用户模式下运行。
CrowdStrike 对 Windows 核心控制中心内核的访问被指出是导致 7 月 19 日 CrowdStrike Falcon 更新出现缺陷的关键因素,该更新导致 850 万台 Windows 设备进入“蓝屏死机”状态,从而引发大面积商业甚至社会混乱。
微软七月中断事件
除了 CrowdStrike 更新故障之外,微软7 月份还遭遇了服务中断的困扰。
据 ThousandEyes 报道,7 月 30 日,Azure Front Door (AFD)、Azure 内容分发网络 (CDN) 以及依赖它们的下游服务发生中断,部分微软网络在 UTC 时间 10:30 左右出现故障。
微软将此问题归咎于默认流量路由在自动缓解分布式拒绝服务 (DDoS) 攻击企图和欧洲某站点的断电后未能按预期恢复。
微软在事后报告中称,可用性已于 UTC 时间 19:43 恢复到事发前的水平。该供应商表示,通过确保一个地区的 DDoS 缓解问题不会蔓延到其他地区,以及通过改进监控和无效配置检测,它将降低该事件再次发生的可能性并降低其影响。
AT&T、微软 9 月刊
微软表示,9 月 12 日,AT&T 用户无法访问 Microsoft 365 和 Azure 服务,原因是“第三方互联网服务提供商事件影响了部分客户的功能”。
微软在 X 上的一篇帖子中表示,此次中断是由第三方互联网服务提供商(其他地方称为 AT&T)托管环境中未指明的“变化”引起的。
ThousandEyes 将该问题描述为“仅限于直接从或通过 AT&T 对等点连接到微软网络的一部分用户”。
微软在其 Azure 状态页面上表示,大约 90 分钟内,“使用 AT&T 连接微软服务的客户在访问我们的服务时遇到了问题”。
微软的事后报告称,该问题从 UTC 时间 11:46 持续到 UTC 时间 13:14。
ServiceNow 中断
9 月 23 日(UTC 时间)下午 2 点左右,约 600 名客户遭遇 ServiceNow 服务中断,原因是过期根证书更新失败。
根据 ThousandEyes 关于该问题的报告,管理、检测和发现 (MID) 服务器受到了此次中断的影响,一些客户发现云实例和服务器之间存在连接问题。
报告称:“此次中断提醒我们,数字生态系统或端到端交付链中每项功能在维持无缝运营方面都发挥着至关重要的作用。应用程序或服务的强度取决于其最薄弱的环节。”
Verizon 9 月份的问题
9 月 30 日,美国 Verizon 服务出现中断,Downdetector 记录了超过 170 万份报告。
从纽约到洛杉矶的用户均报告称没有服务或服务受限,只有“SOS 模式”例外,该模式允许用户通过返回覆盖范围内的其他运营商网络来拨打紧急电话。
Downdetector 认为问题开始于美国东部时间上午 9:30 左右,而 Verizon 于美国东部时间上午 11:48 在 X 上发布了该问题的相关帖子。仅在上午 11:15 至上午 11:30 之间,就提交了超过 100,000 份事件报告,此时报告总数已超过 400,000 份。
Verizon 表示,该问题经过大约 10 小时,于美国东部时间晚上 7 点 18 分得到解决。
Cloudflare 在关于此次中断的帖子中表示,中断期间 HTTP 流量比预期水平下降了 9%,内布拉斯加州奥马哈等地的流量下降了约 30%。
Downdetector 母公司 Ookla 将 9 月份的 Verizon 断网事件列为 2024 年全球最严重的断网事件之一,在美国位列第四,共有 240 万用户报告了问题。
十月 Salesforce 中断
10 月 1 日,客户关系管理 (CRM) 软件巨头 Salesforce 发生全球服务中断,沙盒实例在 UTC 时间 2:40 以 50% 的容量运行。
Salesforce 在 11 月的一份报告中表示:“在受影响期间,用户可能无法访问 Salesforce 服务,而另一部分用户虽然可以登录,但体验不佳。在中断和性能下降期间,用户可能收到‘我们正在维护’错误消息。”
该公司关于此次中断的报告称,“由于可并行升级的单元数量的容量限制,紧急版本的全面推出耗时 14 个小时”,并且“手动抑制重启和添加缺失的元数据”减轻了影响。
Salesforce 将此次中断归咎于“缺少特定时间的配置”,导致“核心应用程序(核心应用)服务器无法启动”。
十一月份微软中断事件
无论微软在 2024 年感谢什么,它可能都没有包括感恩节前夕其 Outlook 和 Teams 产品一天多的中断,导致其成为全国新闻媒体的头条新闻。
11 月 26 日,CNN 称有超过 5,000 名用户报告了与该问题相关的问题。微软于 11 月 25 日太平洋时间凌晨 1:06 发现了问题,并于 11 月 26 日太平洋时间下午 12:07 报告称该问题已得到解决。微软将此次中断归咎于“最近的一次变更”。
ThousandEyes 表示,从 11 月 25 日世界标准时间 2:00 开始,它发现 Outlook 在线和其他微软产品出现了服务器错误、超时和数据包丢失的情况。