|
大数据:就像石油是上一次工业革命的自然资源一样,数据也将成为这次工业革命的自然资源。2
就像石油是上一次工业革命的自然资源一样,数据也将成为这次工业革命的自然资源。 —Abhishek Mehta,Tresata 首席执行官 大数据 大数据是指收集、管理、规范化和交付大型数据集所需的角色和实践,这些数据集可帮助企业做出更明智的、基于事实的决策。 数据在整个企业中变得至关重要。它影响业务决策,帮助创造更好的产品,改进产品开发,并提高运营效率。本文介绍数据在企业中的关键作用、管理和交付大量数据的 DataOps 流程,以及如何在 SAFe 中应用 DataOps。 详 在数字时代,企业以惊人的速度生成数据。每次网站点击、涡轮发动机旋转、车辆加速和信用卡交易都会创建有关产品、消费者和操作环境的新信息。信息的快速发展催生了存储、管理和服务海量数据收集的新实践。如图 1 所示,这些大数据实践提供了专门构建的数据产品,为整个企业提供价值。 大数据在企业中不断演变的作用 数据积累通常始于组织孤岛。一个部门收集有关其用户和系统的信息,以增强产品、发现运营改进、改善营销和销售等。虽然这种本地化数据很有价值,但聚合整个组织的大型数据集比孤立的数据提供的价值成倍增加。 利用大数据获得竞争优势 每个企业都使用数据来改进其产品、优化运营并更好地了解其客户和市场。媒体和消费产品组织使用大数据解决方案为新产品和服务构建预测模型,以预测客户需求。制造业使用大数据解决方案进行预测性维护,以预测故障。零售企业利用大数据解决方案来改善客户体验并有效管理供应链。金融机构使用大数据解决方案在数据中寻找表明潜在欺诈行为的模式。 支持人工智能计划 组织使用人工智能 (AI) 和机器学习 (ML) 作为竞争优势,为客户提供更好的产品,提高运营和开发效率,并提供能够增强业务的见解。专注于机器学习的人工智能计划需要大量丰富的数据来训练和验证模型。缺乏足够的数据是人工智能计划失败的常见原因。为了实现 AI 目标,组织必须开发一种企业范围的方法来收集、管理和交付在整个组织中收集的数据,并与外部数据集成以填补空白。 大数据挑战 收集和汇总这些数据带来了挑战。数据社区用“3 V”来描述大数据: 数据量 – 数据洞察需要在整个企业中收集广泛的数据,这些数据可以扩展到数百 PB。例如,Google 每天处理 20 PB 的网络数据。大数据解决方案必须收集、聚合大量数据并将其交付给数据使用者。 速度 – 数据驱动的决策需要最新数据。速度决定了从数据源接收和刷新新数据的速度。例如,波音 737 发动机每小时生成 20 TB 的信息。大数据解决方案必须决定要存储哪些数据以及存储多长时间。 多样性 – 数据在整个组织中以多种形式存在。来自数据库、电子表格和文本的传统数据易于存储和分析。来自视频、图像和传感器的非结构化数据带来了新的挑战。大数据解决方案必须处理所有类型的数据。 最近,数据社区增加了可变性、准确性、价值、可见性和其他“V”,以进一步描述大数据的特征,并增加了存储、管理和服务大数据的挑战。 了解企业中的 DataOps 为了应对这些挑战,组织需要一种统一的方法。数据科学社区认识到组织在数据科学需求层次中的阶段 [3](图 2)。在基础上,数据工程师(可能是开发价值流中的系统或解决方案架构师)设计收集和管理数据的解决方案。这些数据及其存储针对应用程序进行了优化,无需担心更广泛地使用。 随着这些数据与组织的关系越来越密切,数据工程师(通常作为集中式数据功能的一部分)将更广泛的应用程序数据集转换并聚合到数据仓库中,以便通过市场、多维数据集和视图等数据产品提供数据。数据分析师和其他人使用这些只读的、适合目的的数据产品进行统计分析和可视化。数据科学家使用它们来开发和训练 AI 和 ML 模型。 个人通常扮演多种角色。例如,创建具有数据工程技能的仪表板的数据分析师可能会返回数据仓库,以转换和重新聚合新视图或更新视图的数据。但是,组织的治理规则可能会限制个人在金字塔的多个部分采取行动的能力。虽然大多数组织都采用集中式数据仓库方法来处理数据,但像Data Mesh[4]这样的分布式策略正在出现,特别是对于大型组织而言。 DataOps 生命周期 上述大数据实践作为 DataOps 生命周期模型的一部分持续执行,如图 3 所示。DataOps 是一项跨敏捷团队、数据从业者和企业利益相关者的协作数据管理活动,它利用精益敏捷和 DevOps 思维方式、原则和实践,以可预测和可靠的方式交付高质量的数据产品。 生命周期的顶部显示了孤立的、特定于应用程序的数据如何流向提供给各种使用者的数据产品。底部显示了如何使用、治理数据以及使用数据来增强解决方案,从而在管道中生成更多数据。本部分的其余部分介绍每个 DataOps 活动。 收集数据 – 系统和解决方案架构师、敏捷团队和系统管理员构建遥测、日志记录和监视,以收集有关系统和用户行为的数据。产品管理优先考虑这项工作。系统架构师确保解决方案易于检测和架构设计,以便通常通过 API 从外部访问应用程序数据。随着数据对更广泛的企业变得越来越重要,收集更好的数据并通过 API 公开数据的工作可能会增加优先级,并且需要容量分配(请参阅 ART 待办事项列表)以确保与其他待办事项列表项的适当平衡。 聚合和转换 – 数据工程师将来自整个企业的数据转换并聚合为规范化表单,这些表单经过优化,可供数据使用者高效使用。集中式数据架构可确保在整个企业中高效存储和交付一致的数据产品。数据工程师必须平衡前面讨论的“V”,并确定要存储哪些数据、多长时间、可容忍的访问时间等。他们将数据视为产品,并应用设计思维和内在质量。角色和旅程地图帮助他们理解数据消费者的痛苦、收益和用户体验,并确定如何提供更好的数据产品。 部署和监控 – 数据工程师将数据仓库中的数据产品部署到各种形式中,包括数据集市、多维数据集和数据使用者使用的视图。与其他技术解决方案一样,数据解决方案利用云技术,并通过专为数据设计的 DevOps 管道应用持续交付。这些做法通过开发、Q/A、UAT和生产环境快速移动数据更改,以获得消费者反馈。多种环境可确保仪表板、报表、模型和其他依赖于数据内容和格式的项目可以随数据一起发展。 本着DevOps的精神,监视发生在数据管道的所有阶段,以检测数据中的异常(行计数、数据超出范围)和数据操作(意外超时),并向数据团队发送警报。 消费– 大数据消费者可以分为两组,如图 4 所示。分析师使用数据产品来发现见解并为特定数据客户创建可视化。数据科学家和 ML 开发人员使用它们来开发和训练模型。他们的客户(图 4 中的数据客户)是企业范围的利益干系人,他们寻求业务洞察力以进行决策、改进运营和增强解决方案。 不同的业务线、产品经理、AI 开发人员和其他人都有独特的数据需求。为了通过自助服务模式为这些人提供支持,企业应投资于工具、分析包和资源,以支持对本地化操作的临时访问。这项投资减轻了集中式数据团队成员在报告和其他日常任务方面的负担。 治理 – DataOps 必须强制执行数据隐私、机密性、驻留、共享、保留和其他法律要求。大数据解决方案必须通过访问控制、审计和监控来检测入侵和数据泄露,从而确保安全性。与其他数字产品一样,它还必须通过供应商或自主开发的解决方案提供容错和灾难恢复。 增强解决方案 – 产品组合和敏捷发布培训 (ART) 领导者使用数据来增强解决方案,从而提供更好的客户价值(更好的产品)和业务价值(更好的数据)。数据分析可以揭示新解决方案产品的机会,并为现有解决方案的功能优先级提供信息。数据缺口还显示了增强解决方案以收集额外数据的机会。 在 SAFe 中应用 DataOps 前面几节介绍了清晰且令人信服的数据策略的重要性。本节介绍 SAFe 组织可以采取的其他指导来支持其大数据之旅。 DataOps 是一个项目组合级别的问题 SAFe 解决了项目组合层面的大数据问题,因为它需要组织最高层的愿景、投资和治理(图 5)。虽然 ART 创建数据,但价值来自投资组合和企业级别的数据聚合。大数据解决方案需要组织的战略投资和全面的方法,使组织的每个开发价值流与常见的 DataOps 实践保持一致,从而产生在整个组织中使用的有凝聚力的数据集。项目组合领导者使用精益预算来投资大数据基础设施和 DataOps 实践来实现这一目标。他们还使用 Portfolio Epics 和 Portfolio Backlog 来指定支持组织的基础设施、技术和数据需求并确定其优先级(图 5)。 最初集中数据功能 SAFe 的原则 #10,围绕价值组织,致力于通过确保团队和 ART 拥有交付价值所需的所有技能来优化流程。不幸的是,大多数组织仍在发展其数据工程和科学职能,导致对这些技能的需求大于能力。初始集中化通常有助于早期技术采用,以最大限度地提高可用技能并创建 DataOps 基础架构和实践。集中化还简化了隐私和安全的治理,而这些治理几乎不可能通过孤立的方法得到保护。 这种集中式功能可以通过前面描述的以客户为中心的方法来满足组织的大部分数据需求。在需要额外支持的情况下,SAFe 具有通过共享服务向组织的其他部分提供额外服务的已知模式,如图 6 所示。 随着时间的推移,组织将发展其数据功能以支持更广泛的企业,并将个人嵌入到 ART 和运营价值流中。然而,数据工程师提供聚合企业数据的“大数据”开发价值流可能会存在一段时间。 培养技术人才 数据工程、分析师和 AI/ML 开发人员技能需求量巨大,招聘知识渊博、技术娴熟的数据专家是一项重大挑战。组织必须创建一个引人注目且鼓舞人心的数据和 AI 愿景,以吸引和留住这些人才。数据专家希望向其他数据专家学习和成长,以跟上快速发展的技术和实践的步伐。 应用 DataOps 构建更好的解决方案 解决方案由数据提供信息和增强,而 ART 需要数据科学和数据工程技能。如前所述,数据函数可以作为共享服务向 ART 提供一些资源。但是,他们必须平衡 ART 工作与其创建和发展 DataOps 实践的主要责任,包括向企业提供数据产品。在支持 ART 时,他们应该像一个赋能团队(参见敏捷团队)一样,在整个组织中提高技术数据能力。以这种身份,他们不是在那里做工作,而是教别人如何去做。 |