Alluxio 推出了用于 AI 任务的数据管理平台的新版本,可以更好地利用高性能 GPU 系统,帮助企业和组织增强其数据密集型 AI 工作负载。
Alluxio Enterprise AI 数据编排平台的新版本使得使用基于 GPU 的系统来训练和操作 AI 应用程序以及在 HPC 级别为 AI/ML 系统提供数据变得更加容易。
Alluxio Enterprise AI 的新 3.2 版本还提供增强的数据 I/O 功能和更高的 HPC(高性能计算)存储系统性能,以增强 AI 处理能力。
Alluxio 产品总监 Adit Madan 在接受采访时表示:“此版本主要针对 GPU,具体来说是针对不同 GPU 的数据加载性能和存储性能。”
Alluxio 总部位于加利福尼亚州圣马特奥,致力于开发其旗舰 Alluxio Enterprise Data 平台,用于处理一系列大数据管理任务。10 月,该公司推出了 Alluxio Enterprise AI,这是基于该公司核心数据编排技术构建的新系统,专门用于数据密集型 AI 和机器学习任务。
Madan 指出,在配置人工智能和机器学习应用程序时,许多组织都有单独的计算和存储基础设施,专门用于开发和训练人工智能/机器学习应用程序——包括使用 PyTorch 和 TensorFlow 等深度学习框架——以及用于这些应用程序在生产中运行。
因此,尽管组织可以使用基于高性能 GPU 的系统来训练 AI/ML 系统,但 AI/ML 应用程序在投入生产后可能无法利用这种计算能力,Madan 说。
Alluxio 平台提供了所需的灵活性,可以根据需要访问这些 GPU 资源。Madan 表示:“由于 GPU 稀缺,我们看到很多早期客户都对此产品产生了共鸣。”该公司表示,3.2 版本在大型语言模型训练基准测试中提供了超过 97% 的 GPU 利用率。
新版本还提供了增强的数据 I/O 性能,为 AI/ML 应用程序实现了高达 10GB/秒的吞吐量和 200K IOPS。新软件还提供数据存储性能,该公司表示,基于 MLPerf 基准,该性能可与 HPC 存储相媲美,而无需额外的 HPC 存储基础设施。
Alluxio Enterprise AI 还为 Python 应用程序提供了一个新的文件系统 API,即 FSSpec 实现,此举扩展了 Alluxio 在 Python 开发生态系统中的互操作性。新的高级缓存管理功能为管理员提供了更多的数据管理控制。
Madan 表示:“通过实现与 HPC 存储相当的性能并实现在任何地方使用 GPU,我们不仅解决了当今的挑战,还为下一代创新做好了 AI 工作负载的保障。”