什么是数据血统?为什么它是重要的跟踪数据流

2021年9月28日

数据沿袭

一些专业人士认为数据沿袭的GPS数据。

这是因为数据沿袭帮助用户得到一个视觉数据的路径和转换的概述。文件数据如何处理、转换和传输构成有意义的信息企业利用经营业务。

数据沿袭帮助企业获得颗粒对数据流从源到目的地。许多组织使用数据虚拟化软件与数据沿袭帮助他们跟踪数据,同时为用户提供实时信息。

数据沿袭通知工程师数据转换和他们为什么会发生。它帮助组织跟踪错误,执行系统迁移,拉近数据发现和元数据一起,用更少的风险和实施过程变化。

数据沿袭表示

战略业务决策取决于数据的准确性。没有良好的数据沿袭,成为具有挑战性的跟踪数据流程和验证。数据沿袭使用户能够可视化的完整流从源到目的地的信息,使其更容易检测和修复异常。数据沿袭,用户可以重播特定部分或输入数据流调试或生成了输出。

的情况下,用户不需要细节技术血统,他们使用的数据来源获得数据流的高级概述。许多数据库系统利用数据来源来满足调试和验证的挑战。

数据来源是什么?

数据来源的文档数据的来源和它的生产的方法。

虽然数据来源和数据血统有相似之处,数据来源更有用的业务用户需要的数据从何而来的高级概述。相反,数据沿袭包括业务级别和技术水平血统和提供了一个细粒度的数据流。

数据沿袭和数据治理

数据治理是一组规则和程序组织的使用维护和控制数据。数据沿袭是数据治理的重要组成部分,因为它告诉如何数据流从源到目的地。

企业利用不同层次的数据血统根据他们的需求。低水平的数据沿袭提供一个简单的可视化表示的数据流在一个组织内部,不包括具体细节的转换发生在整个管道。最高层次是属性级数据沿袭提供洞察如何优化和数据流的方法来提高数据平台。

组织选择数据沿袭层基于他们的治理结构,在实现和费用监控、监管问题,它会对业务的影响。

理解数据沿袭元数据管理的一个重要方面,是必不可少的数据仓库湖和数据管理员。元数据管理通过各种系统允许您查看数据流,使其更容易找到所有与特定的报告或相关的数据提取、转换、加载(ETL)流程。

“收集数据血统——描述原点,结构,和依赖项的数据-自动增加提供元数据的质量,减少手动工作。”

约瑟夫Viehhauser
平台在宝马

数据沿袭为什么重要?

数据沿袭不仅帮你解决问题或执行系统迁移,它还使您能够保证数据的机密性和完整性通过跟踪变化,他们是如何执行的,谁让他们。

数据沿袭,团队可以可视化数据的端到端旅程从开始到结束。它使It专业人员的工作和为业务用户提供了信心更容易做出有效的决策。

数据沿袭工具帮助您回答下列问题:

  • 数据的改变,过程怎么样?
  • 谁是负责数据的修改?
  • 是什么时候改变?
  • 的地理位置是什么人做的修改?
  • 为什么改变了其背后的背景是什么?

要求数据沿袭系统主要是由个人的角色和组织的目标。然而,数据沿袭可以产生重大影响的地区包括:

  • 战略决策:数据沿袭使业务用户能够更好地理解数据通过查看它如何通过转换处理。这个数据是业务操作和提高产品和服务的关键。
  • 最佳使用新老数据集:数据沿袭允许企业跟踪不同的数据集,因为他们改变由于收集技术的不断发展和技术。
  • 数据迁移:数据沿袭帮助IT团队迅速移动数据到新的存储位置的位置和理解生命周期的数据来源,使移植项目风险较小。
  • 数据治理:因为数据沿袭提供细粒度的能见度数据生命周期,它帮助企业管理风险,遵守行业规定和执行审计。

专业人士看到数据沿袭作为dataGovOps实践血统,测试和沙盒受到数据治理实践。

“数据沿袭是最重要的一个技术“了解”风景和了解客户的数据实现数据转换”。

沃尔夫冈•摩根
数据顾问Cubido业务解决方案GMBH是一家

沃尔夫冈•摩根进一步“需要了解组织中的岛屿和系统的数据之间的依赖关系是至关重要的。它不仅需要从技术的观点;更好的你知道你的系统之间数据流反应可以让你更好的和看到的信息来自以及转换被应用于目标系统的方法。在我们的一些项目中,我们已经能够找到系统依赖关系,即使客户不知道的。”

有多种方法数据沿袭可以帮助个人在不同的工作角色。例如,ETL开发人员可以发现bug的ETL作业和检查任何修改在数据字段列删除,添加,或重命名。至少确定一个数据管理员可以使用血统和最有用的数据资产的ETL作业。对于商业用户来说,它有助于检查报告的准确性和识别所涉及到的流程和工作时产生错误的报告。

数据沿袭也发现其应用机器学习,用于训练模型基于新的或修改数据。它还有助于减少漂移模型。模型的漂移指模型性能的退化变化数据和输入和输出变量之间的关系。

粗粒度和细粒度的数据沿袭

学术学者有时使用粗粒度和细粒度数据沿袭不同,但基本上涵盖了概念层次的数据沿袭,用户可以得到。

粗粒度的血统和细粒度的血统

粗粒度的数据沿袭描述数据管道、数据库、表和它们是如何相互关联的。通常,一个家族收集系统在运行时积累粗粒度的血统。他们捕获之间的互联性数据管道、数据库和表没有细节转换用于修改数据。这有助于他们降低他们捕捉开销(数据流)的详细信息。在一个用户想要进行法医分析用于调试目的,他们必须重复数据流以收集细粒度的数据沿袭。

另一方面,细粒度的数据沿袭包括详细的应用创建或修改数据的转换。活跃的血统收集系统在运行时捕获粗粒度组件和细粒度数据沿袭。它使优秀的回放和调试。然而,捕获管理费用高是由于细粒度的血统的体积数据。

数据沿袭用例

数据沿袭帮助组织跟踪数据流在整个生命周期,看到依赖关系,理解转换。团队利用数据流并使用它的细粒度视图用于许多目的。

识别错误的根源

有混乱的情况下销售数字不匹配财务部门的记录,这是具有挑战性的查明错误的实际存在。数据沿袭等实例提供了一个合理的解释。商业智能(BI)管理人员可以使用数据血统追踪完成数据流和处理过程中看到任何修改。

无论一个错误存在,BI经理可以自信情况提供一个合理的解释。如果有一个错误,团队可以纠正其来源,使统一的终端用户的数据在不同的团队。

系统升级

而升级或迁移到新系统中,至关重要的是要了解相关数据集和已过时或根本不存在。数据沿袭帮助你知道你实际使用的数据进行业务操作,并限制用于存储和管理无关的数据。

使用数据沿袭,可以无缝地计划和执行系统迁移和更新。它帮助您可视化数据来源、依赖和过程,让你知道你需要迁移。

影响分析

任何良好的商业标识报告、数据元素、和最终用户之前实现变化的影响。数据沿袭软件帮助团队可视化下游数据对象和测量的影响变化。

数据沿袭让你看看业务用户与数据交互和变化将如何影响他们。它帮助企业理解特定修改的影响,让他们来决定是否应该坚持到底。

数据沿袭技术

组织可以对战略执行数据沿袭使用一些标准的技术数据。这些技术确保每个数据转换或处理跟踪,使您将数据元素映射信息资产通过每个阶段的过程。

数据沿袭技术收集和存储元数据数据转换后,这是后来用于数据沿袭表示。

家族通过解析

家族通过解析最先进的传承形式之一,用来处理数据读取逻辑。你可以得到全面的端到端的跟踪能力通过逆向工程数据转换逻辑。

家族通过解析技术是相对复杂的部署,因为它需要了解所有的工具和编程语言用于转换和处理数据。这可以包括ETL逻辑,基于结构化查询语言(SQL)的解决方案,JAVA解决方案,可扩展标记语言(XML)的解决方案,遗留数据格式,等等。

很难创建一个数据沿袭解决方案,支持的编程语言,和各种工具,支持动态处理增加其复杂性。在选择一个数据沿袭的解决方案,确保它占输入参数,运行时信息,默认值并解析所有这些元素自动化端到端数据沿袭交付。

基于模式的血统

基于模式的血统使用模式来提供血统表示而不是阅读任何代码。基于模式的沿袭利用关于表的元数据、报告和列和概要文件创建一个血统基于共同的相似之处和模式。

你毫无疑问有监测数据,而不是算法的优势在这个技术。你的数据沿袭的解决方案没有理解编程语言和工具用于处理数据。可以用它以同样的方式在任何像Oracle这样的数据库技术或MySQL。但与此同时,这种技术并不总是显示准确的结果。许多细节,如转换逻辑,不是可用的。

这种方法适用于数据沿袭用例时理解编程逻辑是不可能的因为无法访问或不可用的代码。

独立的血统

独立的血统跟踪每一个数据移动和转换在一个广泛的环境提供数据处理逻辑,主数据管理等等。很容易跟踪数据流及其生命周期。

不过,独立的解决方案仍然是独享一个特定的环境和忽视外面的一切。出现新的需求和新的工具用于处理数据,独立的数据沿袭的解决方案可以在提供低于预期的结果。

血统的数据标签

血统的数据标签,每一块数据或变换得到标记转换引擎。所有标签都从头到尾读,然后生成一个血统表示。虽然它似乎是一个有效的数据沿袭技术,它只能如果有一个一致的转换引擎或工具来控制数据移动。

这种方法排除了数据转换引擎外的运动,使其适合关闭数据系统上执行数据沿袭。在某些情况下,这可能不是一个优先数据沿袭技术。例如,开发人员避免正式数据列添加到解决方案模型数据在每一个接触点运动。

区块链是一个潜在的解决方案来解决复杂数据血统的标签,但是它没有足够的广泛应用导致组织对数据生命周期产生重大影响。

手动血统

手动血统涉及到与人交谈了解的数据流在一个组织和记录。你可以访问应用程序所有者、数据集成专家、相关数据管家,和其他人数据生命周期。接下来,您可以定义沿袭使用电子表格和简单的映射技术。

有时,你可能会发现相互矛盾的信息或错过面试别人,导致不适当的数据沿袭。通过代码的时候,你也必须手动审查表,比较列,等等,一个耗时且乏味的过程。动态增长的代码量和其复杂性增加手动数据沿袭并发症。

不管这些挑战,这种方法证明有利于理解的一个环境。手工数据沿袭也证明有效代码不可用或无法访问。

如何实现数据血统

实现数据沿袭文化强烈依赖于组织的数据。确保你有一个建立数据管理与数据管理框架和建立一个强大的合作成功的数据沿袭实现专业人士和其他利益相关者。

按照以下七个步骤成功在您的组织中实现数据沿袭。

  1. 识别关键业务驱动因素:讨论原因来实现数据沿袭并找到他们是否满足业务目标至关重要。这些原因可以包括业务变化,数据质量计划,听觉要求,或立法要求。
  2. 在高级管理项目:实现数据沿袭需要很多资源(包括人力和财力)和时间。确保你有高级管理层的支持移动实现对完成项目。你可以说服解释管理数据沿袭的好处,以及它如何帮助在遵守行业法规。
  3. 范围的倡议:一旦高级管理层批准该项目,决定其范围的基础上,确定业务驱动和关键数据元素(CDE)。关键数据元素对组织的影响最重要的性能和用户体验。
  4. 定义范围:数据沿袭的范围从数据源和最终使用点结束。大型组织可以解决有限长度的数据沿袭,因为他们有很多子公司,以避免并发症。
  5. 准备业务需求:利益相关者可能有不同的预期数据沿袭。主要有业务涉众和技术利益相关者不同的利益。业务利益相关者价值更感兴趣,在概念数据沿袭数据模型水平,和根本原因分析。相反,技术在影响分析利益相关者利益、元数据设计血统,在物理层和数据血统。
  6. 解决方法记录数据沿袭:你可以去用描述性或自动数据沿袭文档。评估哪条路会更适合你的组织,考虑到时间和资源消耗。
  7. 选择一个合适的数据沿袭软件:选择一个数据沿袭软件解决方案,最适合你的目标和期望。你可以探索主数据管理软件提供自动化的血统能力。

数据沿袭的最佳实践

血统可以帮助你获得可靠和准确的数据来支持公司的决策过程。数据治理的规划和实施是一个关键元素——你需要确定你的数据从何而来,带你。

有一些实践可以考虑在规划和实施数据沿袭组织:

  • 自动化数据沿袭提取:数据及其家族是一个动态实体。您需要手动超越电子表格和自动化过程中捕获数据沿袭在敏捷的环境中竞争。
  • 包括元数据来源:数据库管理系统,大数据工具,ETL软件和其他自定义应用程序创建自己的数据对数据的过程。此元数据包含在您的天堂,因为它有助于了解数据流和修改。
  • 验证元数据来源:鼓励用户的应用程序和工具来验证相应的元数据来源自他们清楚地理解的准确性和相关的元数据。
  • 计划逐步提取:提取元数据和数据沿袭同样的顺序流经你的系统。它简化了映射关系,关系、系统和内部数据之间的依赖关系。
  • 验证端到端数据血统:验证血统逐步从高级系统之间的连接,然后深入研究连接数据集之后,数据元素前验证转换文档。
  • 实现数据目录软件:领养一个智能和自动数据编目软件收集血统来自所有来源的数据。这个软件还使您能够提取和推断血统元数据

跟踪粒度级别的数据流

数据沿袭使组织能够得到粒状能见度数据流在整个生命周期,帮助他们识别错误的根源,管理数据治理,进行影响分析,并使数据驱动的业务决策。

记录数据沿袭可能会非常棘手,但有利于组织有效地理解和使用他们的数据。

了解更多关于如何获得实时数据做出战略业务决策数据虚拟化

数据虚拟化软件
访问分布式数据从一个单一的平台

使用数据虚拟化软件获得无缝访问数据存储在多个数据库中。

数据虚拟化软件
访问分布式数据从一个单一的平台

使用数据虚拟化软件获得无缝访问数据存储在多个数据库中。

从来没有错过一个帖子。

订阅保持手指科技脉搏。

通过提交此表格,你同意接收来自G2的营销传播。
Baidu
map