Hugging Face与NVIDIA联手,为全球最大的 AI 社区之一提供推理即服务功能。此次合作在SIGGRAPH大会上宣布,将为 Hugging Face 的 400 万开发人员提供简化的访问方式,让他们能够对流行的 AI 模型进行 NVIDIA 加速推理。
这项新服务使开发人员能够快速部署领先的大型语言模型,包括Llama 3系列和 Mistral AI 模型,并通过在 NVIDIA DGX Cloud 上运行的 NVIDIA NIM 微服务进行优化。此次集成旨在简化使用托管在 Hugging Face Hub 上的开源 AI 模型进行原型设计并将其部署到生产环境中的过程。
对于 Enterprise Hub 用户,该产品包括无服务器推理,有望提高灵活性、最小化基础设施开销并通过 NVIDIA NIM 优化性能。该服务是对 Hugging Face 上现有的Train on DGX Cloud AI训练服务的补充,为 AI 开发和部署创建了一个全面的生态系统。
新工具旨在解决开发人员在不断发展的开源模型领域中所面临的挑战。
通过提供一个集中的模型比较和实验中心,Hugging Face 和 NVIDIA 正在降低尖端 AI 开发的准入门槛。可访问性是重点,新功能可通过 Hugging Face 模型卡上简单的“训练”和“部署”下拉菜单获得,让用户以最小的阻力开始使用。
该产品的核心是 NVIDIA NIM,它是一套 AI 微服务,包括 NVIDIA AI 基础模型和开源社区模型。这些微服务使用行业标准 API 进行了推理优化,显著提高了标记处理效率——这是语言模型性能的关键因素。
NIM 的优势不仅限于优化。当以 NIM 形式访问时,与在 NVIDIA H100 Tensor Core GPU 驱动的系统上进行现成部署相比,700 亿参数版本的 Llama 3 模型可以实现高达 5 倍的吞吐量。这种性能提升意味着开发人员可以获得更快、更强大的结果,从而有可能加速 AI 应用程序的开发周期。
这项服务的基础是 NVIDIA DGX Cloud,这是一个专为生成式 AI 构建的平台。它为开发人员提供可扩展的 GPU 资源,支持 AI 开发的每个阶段(从原型到生产),而无需长期的基础设施承诺。这种灵活性对于希望在无需大量前期投资的情况下尝试 AI 的开发人员和组织尤其有价值。
随着 AI 不断发展并在各个行业找到新的应用,简化开发和部署的工具将在推动采用方面发挥关键作用。NVIDIA 与 Hugging Face 之间的此次合作为开发人员提供了所需的资源,以突破 AI 的极限。