去年 12 月,亚马逊网络服务公司高管戴夫·布朗 (Dave Brown) 宣布,这家云计算巨头过去两年新增 CPU 容量的一半以上来自其基于 Arm 的 Graviton 芯片,这表明 AWS 已在很大程度上放弃使用英特尔和 AMD 设计的 x86 处理器,转而使用自主研发的芯片。
这一消息令 Arm 基础设施业务总经理穆罕默德·阿瓦德(见图)感到意外,他负责推动这家英国芯片设计公司与 AWS、Microsoft Azure、Google Cloud 和 Nvidia 等公司的业务往来。这些公司越来越多地采用 Arm 的指令集架构、CPU 蓝图和其他模块化技术来设计自己的定制芯片。
“这意义重大,老实说,我当时都觉得‘哇哦’。我知道这很重要。我不确定我是否完全理解这些人的投入程度。我们看到,在很多方面,所有的超大规模企业都做出了类似的投入,”Awad 在去年 12 月接受采访时表示,当时距离布朗发表声明仅一周。Awad 是博通的资深员工,曾负责 Arm 的基础设施业务长达四年。
虽然英特尔长期以来一直是数据中心和云基础设施服务器 CPU 的主要供应商,但过去十年来,这家半导体巨头的影响力已经被两股主要力量削弱: AMD的处理器基于相同的 x86 指令集架构,而 Arm 的同名架构使得英特尔的一些最大客户(AWS、微软 Azure 和谷歌云)以及快速增长的竞争对手英伟达能够推出竞争芯片。
2018 年,AWS 率先在其Graviton 芯片中推出基于 Arm 的服务器 CPU 。随后,Nvidia 于 2022 年推出了用于 Grace 和 Grace Hopper 超级芯片的Grace CPU。两年后,Microsoft Azure 和 Google Cloud 分别推出了由其 Cobalt 和 Axion CPU 驱动的云实例。
在接受采访时,阿瓦德解释了 Arm 如何以及为何能够赢得全球最大超大规模提供商和AI 计算巨头Nvidia 的青睐。Arm 在被 Nvidia收购失败并被日本投资巨头软银集团 (SoftBank Group)持有七年后,于 2023 年底再次成为一家上市公司。
虽然 Awad 将 Arm 及其合作伙伴在使软件能够在基于 Arm 的 CPU 以及2019 年推出的服务器级 Neoverse 核心上良好运行方面的投资归功于其在数据中心的崛起,但这位高管还表示,人工智能工作负载不断增长的计算和网络需求是这些公司转向 Arm 的另一个原因。
Awad 表示,由于人工智能需要大量数据和计算,而且受限于功率、空间和资金,这些公司越来越需要在系统层面进行设计,以便优化每个组件,从而实现最佳效率和性能。这导致他们越来越多地构建自己的组件,无论是 CPU、加速器芯片还是网络芯片。
“因此,无论您是谷歌、微软、AWS 还是 Nvidia,您都会审视自己的系统,然后想:‘哇,我不能直接使用现成的东西,继续做我正在做的事情。我必须从头开始重新设计,”他说。
这体现在 Nvidia 的新款 Grace Blackwell GB200 NVL72机架式服务器平台上,该公司已将其推广为其Blackwell GPU的旗舰产品,并开始在 OEM 和云服务提供商中发售。
该平台包括 Nvidia 设计的服务器主板,带有 36 个 Grace Blackwell GB200 超级芯片,每个超级芯片包含一个基于 Arm 的 Grace CPU 和两个由 Nvidia 设计的 Blackwell GPU。但它还包括 Nvidia 的BlueField-3 数据处理单元(DPU) 和用于网络目的的 NVLink Switch 芯片。
Awad 表示,AWS、Microsoft Azure 和 Google Cloud 正在采取与 Nvidia 类似的战略,他认为这对 Arm 来说是一个很大的优势,因为该公司的芯片技术可以解决系统的不同部分。
“他们都在开发自己的加速器。他们都在构建自己的网络。他们都在开发自己的 CPU。他们一起开发这些 CPU,现在他们正在围绕这个共同架构的硅芯片组和系统优化所有的 AI 软件,坦率地说,我认为这对 Arm 来说是一个巨大的推动力,”他说。
现在,这四家公司都已经开始将其基于 Arm 的产品商业化,Awad 表示,他的团队专注于确保它们的成功,同时与这些公司合作,确定 Arm 未来技术的路线图。
但阿瓦德表示,他也在研究 Arm 如何让其他公司设计自己的芯片,无论是初创公司还是规模更大的公司。他的公司计划实现这一目标的一个关键方法是继续降低设计定制芯片的成本,阿瓦德表示,Arm 已经通过 Neoverse 核心、预集成 Neoverse 计算子系统和 Arm Total Design 计划等努力实现了这一目标。
“坦率地说,还有很多其他参与者,很多其他大参与者,我们将继续与他们合作,找到降低采用成本的方法,降低他们内部获取硅片的成本,这将是我们关注的重点,这样我们才能真正让它像 Arm 在其他一些市场一样无处不在,”他说。
以下是对 Awad 的采访经过轻微编辑的记录,采访中 Awad 还谈到了他对 Arm 在云基础设施市场的增长预期、Arm 在多大程度上关注本地服务器市场、Arm 如何获得主流云客户的认可以及 Arm 希望接下来实现的目标。
我认为归根结底,这归结于三件事。这三件事都在一个完美的时间汇聚在一起。
首先,这是我们一直以来投资的成果。我说的是,Arm 和更广泛的生态系统至少在软件生态系统中投资了 15 年。所以这一切都是为了专注于云原生的软件,它利用了过去十多年来真正出现的新客户端-服务器范式。我们一直在稳步追逐这个市场。所以我认为这是第一件事,让 Arm 成为一个可行的选择。所以这是一种赌注。
然后我认为第二件事是关于我们如何更广泛地处理技术。所以我们首先构建了我们的 Neoverse CPU 核心。当然,这利用了我们在功耗等方面的长期和众所周知的传统,然后在此基础上添加了基础设施所需的功能和性能。这实际上是从 2019 年左右我们推出 Neoverse 时开始的动态。就是这样。
除此之外,我们最近还在构建 [Neoverse] 计算子系统。因此,当您思考 Neoverse 和计算子系统代表什么时,它们代表着让市场上的更多参与者能够更容易地获得硅片设计。如果回顾五年或十年前,当您看到谁在为基础设施、服务器构建 Arm 时,这些都是试图使用自己的微架构构建自己的 CPU 内核的人,然后他们必须将所有其他部分组合在一起。然后,在此基础上,他们将获得巨大的软件提升。因此,软件现在处于良好状态。最重要的是,硅片和这些东西的可访问性 [已准备就绪],因为我们不仅拥有基础设施级内核,而且还将它们与计算子系统集成在一起,使他们可以非常轻松地采用。这已经发生了。
第三点就是我们在人工智能领域看到的这个巨大的转折点。如果你看看人工智能领域正在发生的事情——我知道我不需要向你解释这一点,因为你每天都在经历它——但权力是如此重要。系统级思维非常重要,因为需要大量的数据和计算。而现实情况是数据中心是有限的。资本支出大幅增加。
因此,你所看到的是这种动态,这些超大规模公司,如 Nvidia,正在研究他们的整个解决方案。因此,无论是 Google、Microsoft、AWS 还是 Nvidia,你都在查看你的系统,然后说:“哇,我不能只拿现成的东西继续做我正在做的事情。我必须从头开始重新设计。”顺便说一句,如果你看看所有这些公司,你会发现这不仅仅是 Arm CPU。他们实际上正在构建完整的芯片组,其中包括网络设备,通常基于 Arm。然后它还包括加速器和系统的其他方面,其中包含我们的 IP。这是关于将所有这些设计在一起以优化系统效率,优化系统性能,并真正开始围绕他们想要的数据中心构建硅片,而不是像以前那样,围绕可用的硅片构建数据中心,对吗?我认为这就是今天推动这一切的因素。
尤其是 Nvidia,当你看到他们的旗舰 AI 产品时,你会发现非常有趣,它原来是 Grace Hopper Superchip,现在变成了带有 GB200 NVL72 系统的 Grace Blackwell。戴尔在销售它,AWS 和微软都在使用它。谷歌也在使用它。
这是全套机架。他们销售全套机架,并且与计算一起销售。如果你看看所有这些公司,你就会发现有趣的是:Nvidia、AWS、Google、Microsoft。我的意思是,他们都在构建自己的加速器。他们都在构建自己的网络。他们都在构建自己的 CPU。他们一起构建它们,现在他们正在围绕这个共同架构的硅芯片组和系统优化所有这些 AI 软件,坦率地说,我认为这对 Arm 来说是一个巨大的推动力。
我曾见过有人谈论使用 CPU 来处理 AI 工作负载本身,可能更多的是推理。但您对基于 Arm 的 CPU 在 AI 领域的应用有何看法?
所以有几件事。最明显的答案是围绕加速器的管理。加速器就是加速器,无论是 GPU [还是其他东西,比如专用集成电路]。就是这样。如果没有 CPU 的帮助,它就无法存在,CPU 可以帮助完成一些预处理、检查点以及与 [加速器芯片] 相关的所有其他工作,这就是为什么会有 Grace Blackwell 或 Grace Hopper 类型的系统以及它们存在的原因。
从历史上看,一个 x86 节点会配备四个加速器或其他与之绑定的设备。现在,它们的比例是一比一或一比二,而这实际上就是管理它们。它还涉及创建一致的内存域,诸如此类。所以我认为这是一方面,而且我认为这肯定很有趣。
我认为,您所问的问题可能更多的是关于 CPU 将在哪些方面专门用于推理?我认为在这种情况下,我倾向于这样思考:最终,推理将渗透到计算的各个方面,这意味着它不会只与云中这些大型 pod 大小的系统相关联。它将渗透到从我墙上的温度传感器到数据中心的所有地方。在每种用例中,您都将拥有有效的通用应用程序,这些应用程序在每种用例中都在运行,然后它们将需要启动并能够执行推理。推理的大小将决定推理的落脚点——这与我们在其他所有计算动态中看到的情况并无不同——推理的大小将决定推理的落脚点。因此,这实际上与计算的粒度有关。
对于非常大的推理块,您将需要使用由最新的 Grace Blackwell 或其他产品组成的 pod — 选择您的加速器系统。对于最小的推理负载,它可能只会在 CPU 上发生。然后中间还会有一堆东西。会有像 SVE 这样的东西,[Arm 最新指令集架构中的可扩展矢量扩展]。SVE 现在会在 CPU 上处理一些,或者小型加速器,它们将与 SOC 内的每个 CPU 内核紧密耦合,例如,可以处理一些。因此,随着时间的推移,将会出现各种不同形状和大小的加速,而您距离核心 CPU 应用程序的距离实际上将决定它发生的位置。有时它会直接发生在设备上。有时不会。
AWS 高管 Dave Brown 去年 12 月表示,AWS 新增 CPU 容量的一半以上来自该公司的 Graviton CPU。这是一个非常有启发性的事实,我只是想知道:你们对云服务提供商中基于 Arm 的处理器的份额有进一步的了解吗?
它还在继续增长。我脑子里没有具体的数字,但它确实在继续以相当有意义的方式增长。AWS 在这方面一直处于领先地位。我们现在也看到其他所有超大规模企业都对此进行了广泛的采用。我认为那句话的其余部分是这样的,“在过去两年中增长了 50% 以上,比任何其他架构的总和都要多。”它的意义是如此重大,老实说,甚至我都觉得“哇”。我知道它很大。我不确定我是否完全理解这些人的投入程度。而且我们在很多方面都看到所有超大规模企业都做出了类似的投入。
就“我们正在扩展我们的基础设施,也许其中一半是基于 Arm 的?”而言。
我们确实看到他们全都致力于增加部署,比如他们现在正在推进的部署的倍数。你要记住,对于其中一些人来说,他们刚刚推出产品,他们刚刚进入[普遍可用]阶段,因此增长轨迹是可观的。
微软和谷歌的起步规模都比较小,但听起来他们仍将不断扩大自己的产能——
绝对是。我认为,要考虑的是,并非所有超大规模企业在基础设施布局或服务方面都是一样的。其中一些超大规模企业拥有计算分布,可能主要服务于其内部工作负载,而另一些则服务于外部工作负载。我之所以强调这一点,是因为对于那些服务于外部工作负载的企业来说,在许多情况下,由于 AWS 和生态系统所做的所有出色工作,已经有大量基于云的客户准备迅速采用。所以这是一个好故事。
但对于许多使用内部工作负载做更多事情的人来说,将内部工作负载转移过来其实非常简单。因此,只要 CPU 或硅片能提供更好的 [总拥有成本],它就会为他们创造一个天然的锚定客户,利用其内部属性来推动这些部署。因此,这是一个有趣的双管齐下的需求动态。
您能否谈谈为什么从成本角度来看设计基于 Arm 的处理器对这些公司具有吸引力?
成本有两个方面。我在开始时稍微提到了这一点。第一个方面是设计硅片的实际成本。归根结底,这实际上归结于,在 Arm,我们团队和我都专注于降低成本和缩短上市时间。这在很大程度上与我们在 Arm Total Design 等产品上所做的工作有关。这在很大程度上与我们在计算子系统上所做的工作有关。因此,我们将继续降低成本。硅片的成本很高。我们正在努力找出降低这一障碍的方法。就是这样。
显然,硅片设计的另一部分是人们倾向于考虑芯片的实际物理设计,但如果没有运行软件,CPU 就毫无意义。现在实际发生的情况是,由于有这么多参与者:Oracle、Microsoft、Google、AWS 等,他们采用了 Arm 并在其中投入了大量资金,他们积极投资软件生态系统,因此飞轮实际上正在加速,我们已经从“软件在 Arm 上运行”发展到现在,在某些情况下,在很多情况下,“软件在 Arm 上运行得最好”。所以这实际上正在推动一种全新的动态。当我说“在 Arm 上运行最好”时,我的意思是每瓦性能。就这么想吧:每瓦每美元的性能。所以这正在推动一种动态。
我认为另一个动态——我认为我们经常强调的还不够——就是 Arm 诞生于提高 CPU 设计效率的想法。是的,Neoverse 是为基础设施而设计的。但现实情况是,它的根源来自移动领域,那里已经出货了数十亿台设备,每一毫瓦都很重要。我认为这种传统以及继续发扬它确实让我们与众不同。在能源如此稀缺的世界中,随着人们试图扩大越来越多的人工智能,每瓦每美元的性能变得如此重要,因为它不仅关乎在计算上花费更少——也就是你关于成本的问题——还关乎释放能源以用于其他用例,例如耗电的加速器。因此,这不仅仅是美元方面的成本。这是电力方面的成本。我认为正是这些因素的融合推动了这一切。
您如何看待 Arm 在本地服务器领域的发展?
事实上,早在 Neoverse 推出时(也就是 2018 年底、2019 年初),我们就做出了一个明智的决定,将我们的努力真正集中在计算的最大消费者身上,而实际上,冰球的去向,很大一部分是在云端。所以这一直是我们的重点,部分原因是推动采用与推动一些传统企业用例相关的软件提升。我当然认为基于 Arm 的产品有发展空间,我称之为市场中下一层级的参与者,他们也消耗了大量的计算,拥有一种类似云原生的软件堆栈,可能正在运行混合云,并正在寻找本地产品。
这也是我们如此紧密合作建立 Arm Total Design 生态系统的原因之一,因为它实际上正在开始创建实际上可互换的芯片。因此,我们有许多这样的团队正在基于我们的计算构建计算芯片,这些芯片看起来与超大规模计算公司正在构建的芯片非常相似,但现在它们是现成的。所以,如果你仔细想想,那些构建架构实现的人,他们要花费数亿美元来获得他们的硅片,甚至要花费数十亿美元来生产他们的硅片。那些采用 IP 的人,有些花费更少。那些采用 [Neoverse 计算子系统] 的人花费更少的钱来更快地进入市场。提供芯片类型产品的人可以更快地以更低的成本进入市场。这实际上是为了减轻我们的负担,以便我们能够解决下一个市场,因此这是我们将继续寻求创新的领域。
有一段时间——可能是几年前,也可能更早——人们想知道,我能在 Arm 上运行这些东西吗?但就像你说的,它已经从与 x86 一样好变成了比 x86 更好。Arm 是什么时候跨越这些门槛的,从“一样好”到“更好”?那么在你看来,AWS、微软和谷歌的客户对它的接受程度如何?
我确实认为我们确实开始走上这条轨迹,但我真的很难确定跨越这条轨迹的某个时刻。我儿子周一就要满 18 岁了,我想,他是在什么时候成为男人的?我有点不清楚那一刻究竟是什么时候发生的,好像我们突然就到了那里。从某种程度上来说,这感觉就像是同一件事。它已经酝酿了差不多同样长的时间。这是我们长期以来一直在投资的事情。当我想到它时,我想到几个重要的里程碑。
坦率地说,我认为当 AWS 推出第一个 Graviton 实例时,那是一个关键时刻,因为它使基于 Arm 的计算变得广泛可用,因此人们可以以低风险、低成本非常轻松地在云中尝试它。结果很明显,对吧?排名前 50,000 的客户正在使用它,排名前 1,000 的客户中有 90%,排名前 100 的客户全部都在使用 Arm。您从 [Dave] 那里听说了计算量,所以这是其中之一。
我认为 Neoverse 的推出,让我们放弃了这样的想法:你要么采用移动核心,尝试拼凑一个服务器 [CPU],要么使用架构许可证进行完整的从头设计,我们放弃了这种想法,并说:“不,实际上,我们将承担更多的工作,让你更容易接受和采用”,那是在 2019 年左右。那是一个重要的里程碑。
然后我认为这种趋势是一代又一代发生的,每一代似乎都比前一代好一点。当你看到所有这些公司都在尝试,并将总拥有成本降低 40%、60% 时,你也会尝试。我认为在过去三四年里,这确实取得了进展。所以我认为没有特定的时间点。我认为我们一直在建设这个,但有几个特定的里程碑推动了它的发展。
因此,Nvidia、微软和谷歌都承诺将开发基于 Arm 的 CPU 路线图,这对 Arm 来说显然意义重大。Arm 下一步将走向何方?你们现在正被最大的超大规模计算公司和 Nvidia 采用,但你们下一步将走向何方?您是否认为未来其他大公司会使用 Arm?还是会更多地出现在初创公司方面?您的期望是什么?
首先,就初创公司而言,我们拥有一个非常强大的生态系统,其中有很多年轻公司利用了 Arm 的技术,我们与其中一些公司密切合作。即使你看看 Annapurna [实验室],它最终被纳入 AWS [以启动 Graviton 系列],我们也是它们的早期投资者之一。这是我们拥有的长期传统,我们将继续这样做,继续与这些人合作。所以我确实认为这绝对是一个载体。
我想正如你之前所说,现在很多参与者都在以有意义的方式部署 Arm,而我们关注的重点是帮助他们取得成功,这意味着还有很多软件工作要做。我们有很多与他们合作的事情要做。
坦率地说,我们今天所做的很多工作实际上都是在思考下一代计算是什么样子。因此,我们实际上在流程的早期就与许多超大规模计算公司密切合作,与他们并肩工作,实际修改和优化两、三、四、五年后推出的 CPU 的微架构,以便根据他们所看到的基础设施的发展方向进行优化。因此,我认为我们将继续更广泛地开展这方面的大量工作。
然后我想最后一件事,你之前也强调过,那就是下一个计算层级,对吧?我们已经有了这些——你谈到了最顶端的四个人。坦率地说,还有很多其他参与者,还有很多其他大参与者,我们将继续与他们合作,找到降低采用成本的方法,降低他们在内部获得硅片所需的成本,这将是一个重点,这样我们才能真正让它像 Arm 在其他一些市场一样无处不在。