用心打造
VPS知识分享网站

云服务商如何利用定制芯片解决GPU短缺问题

GPU 是 AI 计算的支柱,但随着需求超过供应,云提供商正在变得富有创造力。

据《Network World》报道,他们没有等待更多的 GPU,而是创建定制芯片来满足特定的工作负载,提供更快、更高效的计算,同时控制成本。

竞争正在升温。在上周的微软 Ignite 大会上,该公司发布了两款旨在提升其 Azure 平台性能的新芯片。现在,所有人的目光都集中在 AWS 上,因为它正在为自己的定制硅片产品组合做准备。

云提供商如何利用定制芯片解决GPU短缺问题

定制芯片为何如此重要

GPU 彻底改变了训练 AI 模型等任务,但它们并不总是完成这项工作的最佳工具。它们具有显著的缺点:高功耗、高强度冷却需求,以及目前全球短缺。Nvidia 最新的 GPU 库存已售罄,未来 12 个月内不会售罄。

定制加速器正在填补这一空白。IDC 副总裁分析师 Mario Morales 强调了 GPU 替代品日益增长的重要性:“这些加速器在云基础设施中变得越来越重要,因为它们具有出色的性价比和价格效率比,从而可以带来更好的投资回报。”

多年来,AWS 和谷歌一直在推出定制芯片——AWS 推出了 Trainium 和 Inferentia,谷歌推出了张量处理单元 (TPU)。然而,微软加入定制芯片潮流的时间较晚。直到去年,该公司才推出了首款定制芯片 Maia 和 Cobalt,旨在提高能源效率和处理 AI 工作负载。

今年,微软加大了力度,推出了两款新芯片:

  • Azure Boost DPU:旨在通过运行自定义操作系统来优化数据处理。
  • Azure 集成 HSM:专注于安全性,它将加密和签名密钥安全地保存在硬件中。

微软的 Azure Boost DPU 向前迈进了一步,但它在 DPU 领域仍然落后于竞争对手。Forrester 高级分析师 Alvin Nguyen 指出,谷歌与英特尔共同开发的 E2000 IPU 和 AWS 的 Nitro 系统都已经很成熟。其他云提供商,包括 Nvidia 的 Bluefield 芯片和 AMD 的 Pensando,都在争夺这一地位。

尽管如此,微软在基础设施方面取得了显著进步。该公司宣布了用于 AI 服务器的新型液冷解决方案,以及与 Meta 共同开发的节能机架设计,该设计可以在每个机架中装入 35% 以上的 AI 加速器。

安全性获得定制提升

安全是定制芯片取得进展的另一个领域。微软的新 HSM 芯片是用于加密任务的专用解决方案,而传统上加密任务需要硬件和软件的混合使用。Nguyen 指出,这种方法可以减少延迟并提高可扩展性,因此值得考虑。

AWS 和 Google 也在使用定制芯片来确保安全。AWS Nitro 可防止主系统 CPU 修改固件,而 Google 的 Titan 则建立了“安全信任根”来验证系统健康状况。

Nguyen 解释道,每个提供商都有自己的方法。“虽然 Nitro 提供了关键的安全功能,确保主系统 CPU 无法在裸机模式下更新固件,但 Titan 提供了基于硬件的信任根,可以建立机器的强大身份,我们可以据此做出重要的安全决策并验证系统的健康状况。”

云端定制芯片的未来

定制硅片的推动力并未放缓。Omdia 首席分析师 Alexander Harrowell 表示,超大规模企业投资这些芯片以降低成本并提高效率是合乎逻辑的举措。

随着对更快、更专业的计算的需求不断增长,定制芯片是云提供商保持竞争力的一种策略。随着创新的加速,重新定义云性能的竞赛才刚刚开始。

赞(0)
未经允许不得转载;国外VPS测评网 » 云服务商如何利用定制芯片解决GPU短缺问题
分享到