用心打造
VPS知识分享网站

数据湖与数据网格:引领组织数据策略的未来

十多年来,组织已经采用数据湖来克服数据仓库的技术限制,并发展成为更加以数据为中心的实体。虽然许多组织已经使用数据湖来探索新的数据用例并改进其数据驱动的方法,但其他组织发现所承诺的好处很难实现。因此,许多数据湖计划的有效性和投资回报率现在正在受到审查。

数据湖与数据网格:引领组织数据策略的未来

克服陷阱:当数据湖变成数据沼泽时

随着一些组织面临管理大量数据存储和避免“数据沼泽”(数据被存储但不使用)的挑战,技术社区对数据湖的看法也发生了变化。这些数据沼泽是巨大的存储库,数据被不加区别地转储,导致可发现性和可用性方面的问题。集中化可能会造成瓶颈,从而减慢访问和分析速度,如果没有严格的治理,数据质量可能会迅速恶化。此外,数据湖的一刀切方式无法满足不同业务领域的具体需求。由于缺乏适当的工具或数据本身的复杂性,用户难以提取价值,因此数据湖的潜力往往尚未开发。

实施良好的数据湖 数据湖实施不当
单一事实来源 难以访问的数据孤岛
经济高效的存储 存储了大量不必要的数据(“数据是新石油”)
数据民主化 访问数据所需的专业技能
数据格式的灵活性 数据质量差且不一致
高级分析和机器学习 从大量非结构化数据中获取价值的困难
更快的洞察力 沟通冗长且缺乏工具、界面和技能
简化的数据管理 随着湖泊的扩大,管理变得繁琐

数据生产者与消费者:组织鸿沟

这些问题的根本原因是一方面是数据生产者和消费者之间的组织交互,另一方面是中央数据湖团队之间的组织交互。数据生产者通常更愿意开发新的应用程序功能,而不是为分析用例提供数据。他们专注于事务性工作负载而不是分析工作负载,这意味着他们共享的数据质量可能很差。他们还缺乏与数据消费者的联系,导致生产的数据与需求的不匹配。

数据湖团队也有自己的问题:他们对数据源不堪重负,必须执行复杂的技术维护,并不断应对不断变化的优先级。由于分析能力有限以及与数据生产者的脱节,消费者因缺乏透明度、价值不明确以及需求优先级低而感到沮丧。数据消费者和生产者通常不直接交互;这种通信被数据湖的代理组织阻止,所有数据都集中存储在该代理组织中。

为团队提供数据网格:通往分布式数据生态系统的道路

技术社区的讨论已经转向一种更细致、适应性更强的数据策略,称为数据网格。它旨在通过推广更加分布式、以人为中心和特定于上下文的数据管理方法来克服集中式数据湖的一些限制。

数据网格是解决集中化问题的另一种方法。它将分析数据的责任分配给构建和运行应用程序并生成事务数据的特定领域团队,例如电子商务团队,以及使用数据并使用数据来获得见解的团队。例如,拥有网店结帐页面并将销售数据存储在事务数据库中的团队还负责使销售数据可用于分析、报告和 AI/ML 用例,例如营销或财务。数据网格使消费者能够更轻松、更简单地使用这些分析数据。

它不仅仅是实现了另一个接口;这些数据作为独立的数据产品提供,为实际消费者提供特定的好处。该数据产品由特定数据及其元数据、准备和交付数据所需的源代码、必要的测试和生产基础设施(如 IaC)及其配置组成。

培养数据素养:在数据网格团队中引入新角色

创建和使用数据的团队(例如我示例中的电子商务结帐团队和营销部门)通常缺乏开发和管理分析数据的专业知识。然而,他们对数据业务背景的深入了解是无价的。在数据网格框架中,必须通过提高这些团队的技能来实现分析用例来利用这些知识。这包括为现有成员提供广泛的培训并创建额外的专门角色。有两个关键角色至关重要:数据产品所有者负责指导数据的战略方向,数据工程师负责处理构建和管理这些数据产品的技术方面。

数据产品负责人是面向业务的数据人员,从事务和分析的角度非常了解业务领域。他们直接与数据产品的消费者沟通,并定义产品、其策略和路线图。

数据工程师是数据工程和数据科学领域的多面手,在业务所需的数据相关领域拥有更深入的专业知识。此人构建实际的数据产品,并且是其他团队技术问题的联系人。

为成功奠定基础:数据网格平台

为了充分发挥数据网格的潜力,我建议将这两个角色直接嵌入到生产团队和消费团队中。一个有效但次优的变体是为每个业务领域(例如电子商务)建立一个单独的数据网格团队,因为它重新引入了代理团队。数据网格平台为生产者和消费者提供支持,使他们的工作更轻松、更高效。数据网格平台团队不创建数据产品或存储或处理数据。

数据网格平台具有三个作用:(1)提供数据目录、访问控制、CI/CD管道、监控以及准备开发和测试环境等工具和基础设施; (2) 为生产者和消费者提供培训和建议,并在必要时为他们提供额外的发展能力支持; (3) 以联合方式调整整个组织必须遵守的共同标准和程序。数据网格平台的使命是让生产者和消费者的生活变得简单、高效、无压力。

不幸的是,成功且可持续地运行一个平台并不像技术社区中的一些人所说的那么容易。

如果做得正确,数据网格模型可以采用主动的方法来维护数据质量、相关性和可访问性,并定制数据产品以满足不同业务部门的独特需求。通过将分析数据与其操作环境紧密结合,数据网格有助于在整个组织内更有效地使用和共享数据。它利用现代分布式架构原则(例如源自微服务架构的原则),不仅可以更有效地存储数据,而且可以随时使用数据,从而推动与业务目标密切相关的可操作的见解。

赞(0)
未经允许不得转载;国外VPS测评网 » 数据湖与数据网格:引领组织数据策略的未来
分享到