用心打造
VPS知识分享网站

Ivo Everts,Databricks:增强开源AI并改善数据治理

在欧洲人工智能与大数据博览会召开之前,AI News 采访了Databricks高级解决方案架构师 Ivo Everts ,讨论了影响开源人工智能和数据治理未来的几个关键发展。

Databricks 的显著成就之一是DBRX模型,它为开放大型语言模型 (LLM) 设立了新的标准。

“发布后,DBRX 在标准基准测试中的表现优于所有其他领先的开放模型,推理速度比 Llama2-70B 等模型快 2 倍,”Everts 解释道。“得益于各种技术进步,它的训练效率更高。

“从质量的角度来看,我们认为 DBRX 是最好的开源模型之一,当我们提到‘最佳’时,这意味着广泛的行业基准,包括语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)。”

该开源 AI 模型旨在“使定制 LLM 的培训不再局限于少数模型提供商,并向各大组织展示,他们可以以经济高效的方式利用自己的数据培训世界一流的 LLM”。

Ivo Everts,Databricks:增强开源AI并改善数据治理

为了履行对开放生态系统的承诺,Databricks 还开源了Unity Catalog

Everts 指出:“开源 Unity Catalog 增强了其在云平台(例如 AWS、Azure)和本地基础设施上的采用率。这种灵活性使组织能够统一应用数据治理策略,无论数据存储或处理在何处。”

Unity Catalog 通过各种功能解决数据蔓延和访问控制不一致的挑战:

  1. 集中式数据访问管理: “Unity Catalog 集中了数据资产的治理,允许组织以统一的方式管理访问控制,”Everts 表示。
  2. 基于角色的访问控制 (RBAC):据 Everts 称,Unity Catalog“实施基于角色的访问控制 (RBAC),允许组织根据用户配置文件分配角色和权限。”
  3. 数据沿袭和审计:此功能“可帮助组织监控数据使用情况和依赖关系,从而更轻松地识别和消除冗余或过时的数据”,Everts 解释道。他补充说,它还“记录所有数据访问和更改,提供详细的审计跟踪,以确保遵守数据安全政策。”
  4. 跨云和混合支持: Everts 指出,Unity Catalog“旨在管理多云和混合环境中的数据治理”并且“确保数据得到统一治理,无论其位于何处”。

该公司推出了Databricks AI/BI,这是一款新的商业智能产品,利用生成式人工智能来增强数据探索和可视化。Everts 认为,“真正智能的 BI 解决方案需要了解业务的独特语义和细微差别,才能有效地回答业务用户的问题。”

AI/BI系统包括两个关键组件:

  1. 仪表板: Everts 将其描述为“一个由 AI 驱动的低代码界面,用于创建和分发快速、交互式的仪表板”。其中包括“标准 BI 功能,如可视化、交叉过滤和定期报告,无需额外的管理服务。”
  2. Genie: Everts 将其解释为“通过自然语言解决临时和后续问题的对话界面”。他补充说,它“从底层数据中学习,生成自适应可视化和建议以响应用户查询,通过反馈不断改进,并为分析师提供工具来改进其输出。”

Everts 表示,Databricks AI/BI 旨在提供“对数据语义的深刻理解,使组织中的每个人都能进行自助数据分析。” 他指出,它由“复合 AI 系统提供支持,该系统不断从组织整个数据堆栈的使用情况中学习,包括 ETL 管道、沿袭和其他查询。”

Databricks 还推出了Mosaic AI,Everts 将其描述为“一个用于构建、部署和管理机器学习和生成式 AI 应用程序的综合平台,集成企业数据以增强性能和治理。”

Mosaic AI 提供了几个关键组件,Everts 概述如下:

  1. 统一工具:提供“用于构建、部署、评估和管理 AI 和 ML 解决方案的工具,支持预测模型和生成式 AI 应用程序”。
  2. 生成式 AI 模式: “支持快速工程、检索增强生成 (RAG)、微调和预训练,随着业务需求的发展提供灵活性。”
  3. 集中式模型管理: “模型服务允许集中部署、治理和查询 AI 模型,包括自定义 ML 模型和基础模型。”
  4. 监控和治理: “Lakehouse Monitoring 和 Unity Catalog 确保整个 AI 生命周期的全面监控、治理和沿袭跟踪。”
  5. 经济高效的定制 LLM: “能够以显著降低的成本培训和提供定制的大型语言模型,并针对特定的组织领域进行量身定制。”

Everts 强调,Mosaic AI 对基础模型进行微调和定制的方法包括独特的功能,例如通过“利用集群内基础模型缓存”实现的“快速启动时间”、用户可以“跟踪模型的响应在整个训练过程中的变化”的“实时提示评估”,以及对“自定义预训练检查点”的支持。

这些创新的核心是数据智能平台,Everts 表示,该平台“通过使用人工智能模型深入了解企业数据的语义,从而改变数据管理。”该平台结合了数据湖和数据仓库的功能,利用 Delta Lake 技术进行实时数据处理,并结合 Delta Sharing 实现跨组织边界的安全数据交换。

Everts 解释说,数据智能平台通过提供以下功能在支持新的人工智能和数据共享计划中发挥着至关重要的作用:

  1. 一个统一的数据和人工智能平台,“将数据湖和数据仓库的功能结合到单一架构中”。
  2. Delta Lake 用于实时数据处理,确保“可靠的数据治理、ACID 事务和实时数据处理”。
  3. 通过 Delta Sharing进行协作和数据共享,实现“跨组织边界的安全和开放的数据共享”。
  4. 通过 MLflow、PyTorch 和 TensorFlow 等流行库集成对机器学习和 AI 模型开发的支持。
  5. 通过其云原生架构和 Photon 引擎(“优化的查询执行引擎”)实现可扩展性和性能。

作为欧洲人工智能与大数据博览会的主要赞助商,Databricks 计划在活动期间展示其开源人工智能和数据治理解决方案。

“在我们的展台,我们还将展示如何使用 Lakehouse 应用程序从头开始创建和部署自定义 GenAI 应用程序,该应用程序使用了来自 Hugging Face 的开源模型和来自 Unity Catalog 的数据,”Everts 说道。

“通过我们的 GenAI 应用程序,您可以生成自己的卡通图片,所有这些都在数据智能平台上运行。”

赞(0)
未经允许不得转载;国外VPS测评网 » Ivo Everts,Databricks:增强开源AI并改善数据治理
分享到