Meta 的Charlotte在 2024 年旧金山 QCon 上登台,探讨大规模运行 LLM 所面临的挑战。
据InfoQ报道,她的演讲重点介绍了如何在现实系统中管理海量模型,强调了模型的规模、复杂的硬件要求和苛刻的生产环境所带来的障碍。
她将当前的人工智能热潮比作“人工智能淘金热”,每个人都在追逐创新,但却遇到了重大障碍。齐说,有效部署 LLM 不仅仅是将它们安装到现有硬件上。而是要在控制成本的同时充分利用性能。她强调,这需要基础设施和模型开发团队之间的密切合作。
让 LLM 适应硬件
LLM 面临的第一个挑战是其对资源的巨大需求——许多模型对于单个 GPU 来说实在太大了。为了解决这个问题,Meta 采用了诸如使用张量和流水线并行将模型拆分到多个 GPU 上的技术。Qi 强调,了解硬件限制至关重要,因为模型设计与可用资源之间的不匹配会严重阻碍性能。
她的建议是什么?要有策略性。“不要只抓住你的训练运行时或你最喜欢的框架,”她说。“找到一个专门用于推理服务的运行时,并深入了解你的人工智能问题,以选择正确的优化。”
对于依赖实时输出的应用程序来说,速度和响应能力是不可妥协的。Qi 重点介绍了一些技术,例如连续批处理以保持系统平稳运行,以及量化,这可以降低模型精度以更好地利用硬件。她指出,这些调整可以使性能提高一倍甚至四倍。
当原型遇见现实世界
将 LLM 从实验室带到生产环境是一件非常棘手的事情。现实世界的条件会带来不可预测的工作负载以及对速度和可靠性的严格要求。扩展不仅仅是添加更多 GPU,它还涉及仔细平衡成本、可靠性和性能。
Meta 使用诸如分解部署、优先处理常用数据的缓存系统以及确保效率的请求调度等技术来解决这些问题。Qi 表示,一致性哈希(一种将相关请求路由到同一服务器的方法)对于提高缓存性能非常有益。
在管理如此复杂的系统时,自动化极其重要。Meta 严重依赖监控性能、优化资源使用和简化扩展决策的工具,Qi 声称 Meta 的定制部署解决方案使公司的服务能够响应不断变化的需求,同时控制成本。
总体情况
对于 Qi 来说,扩展 AI 系统不仅仅是一项技术挑战,而是一种心态。她说,公司应该退一步,从更大角度考虑问题,以找出真正重要的事情。客观的视角有助于企业专注于提供长期价值的努力,不断完善系统。
她传达的信息很明确:要获得法学硕士学位,不仅需要模型和基础设施层面的技术专长——尽管在一线,这些要素至关重要。它还关乎战略、团队合作和关注现实世界的影响。