产品中心PRDUCTS DISPLAY

联系我们

联系人:张生

咨询热线:400-123-4657

传真:+86-123-4567

手机:13800000000

邮箱:admin@youweb.com

地址:广东省广州市天河区88号

在线咨询

新闻动态

您现在的位置是: 首页 > 新闻动态

本文是对数据仓库的详细介绍,主要涉及到数据质量理论与经验。文章转载自微信公众号「数仓与大数据」,作者为otw30。

如需转载本文,请联系“数仓与大数据”公众号。数据质量管理涉及从数据的计划、收集、记录、存储、回收、分析到展示的整个生命周期中可能出现的数据质量问题。这一管理过程包括识别、度量、监控、预警等一系列活动,旨在通过提升组织的管理水平来改善和增强数据质量。数据质量管理的最终目标是通过保证数据可靠性来提高数据在使用中的价值,并最终为企业带来经济效益。以上信息取自百度百科。

我认为,数据质量管理不仅仅是一个概念,也不止是一种技术,更不仅仅是一个系统,而且也不仅仅是一套管理流程。数据质量管理是一个将方法论、技术、业务和管理融合为一体的解决方案。通过有效的数据质量控制方法,对数据进行管理和控制,消除数据质量问题,从而提高企业数据的利用价值。数据治理过程中,所有的业务、技术和管理活动都围绕着这一目标展开。

提示:我认为最后一句话不够准确,因为数据质量只是数据治理的一部分。注:以上内容摘自公众号“谈数据”,作者石秀峰。在这篇文章中,0x00讨论了四个常见的数据管理知识体系。网上有很多与数据质量相关的文章,它们的阅读量都很高,很多数据方面的博主也喜欢反复探讨这些问题。这表明数据工作者对数据质量的重视程度非常高。DAMA国际是一个全球性的专业组织,成立于1980年,旨在推动数据管理和数字化研究、实践以及相关知识体系的发展。 该内容主要分为两个部分,其中包括DAMA数据管理知识框架和专业考试证书。DAMA数据管理知识体系采用DMBOK框架,由11个数据管理职能领域组成车轮图,以及涵盖7个基本环境要素的六边形环境因素图。数据管理的职能包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据管理、数据仓库与商务智能、元数据管理以及数据质量管理等方面。基本环境要素有目标与原则、组织与文化、工具、活动、角色和职责、结果交付、技术。DAMA金字塔图(Aiken金字塔)包含四个阶段,分别是数据、信息、知识和智慧。这一层层递进的过程将数据管理知识划分为四个阶段,为大家提供学习DAMA知识体系和开展数据管理工作的指导。

是一种专业考试认证,在国外称为数据管理专业人员认证(CDMP)。随着引进到国内,DAMA中国对CDMP进行了适当的本地化改造。包括数据治理工程师(CDGA)和数据治理专家(CDGP)两种证书,均为国际通用。个人如果希望长期从事数据管理工作,持有相关证书和没有证书之间确实存在一定的区别。就算退一步来看,也不必考证,增加一些知识也是很好的。

数据管理成熟度评估模型

DCMM是由国家工业和信息化部信息软件服务管理司主导制定的,它是具有中国特色的国家级数据管理领域标准。它是指导企业数据管理能力建设的理论指导和能力评估的标准。DCMM(数据治理能力成熟度模型)涉及两个方面的概念,一个是建设概念图,另一个是等级定义。在等级定义方面,DCMM将数据管理能力的成熟度划分为五个等级,依次为初始级、受管理级、稳健级、量化管理级和优化级。不同的等级代表企业数据管理和应用的成熟度水平不同。当然,国家的认证对很多企业来说依然很具吸引力。甚至有人愿意支付费用来获取DCMM评估申请材料模板:付费获取一整套文件!!!

最近即将发布国家级的数据管理证书 CDP(Certified DCMM Professional),该证书是基于 DCMM 体系的。喜大普奔!工信部数据管理人才证书!!!数据治理是近年来国内热门话题,与数据相关的面试经常涉及该概念,不过每个人对其理解程度差异很大。在这里,我们提供了被广泛认可的 DAMA 国际对数据治理的定义:数据治理是对数据资产行使权力和控制的一系列管理活动,包括规划、监控和执行。数据治理是一个广泛而完整的知识框架。在数据管理的各个领域或全流程应用中,数据治理都应参与其中,以确保数据管理朝着更好的方向发展。对于已经建立好的数据体系,我们需要收集现有问题并按优先级排序,作为数据治理工作的阶段性目标,例如数据质量、成本控制、数据规范、数据模型、数据安全等等。

数据资产管理

的概念提出已有近40年,而数据治理的概念则已有近20年。数据资产管理的提出则相对比较新,只有最近5年的时间。企业拥有或控制的数据资产是指能为企业带来未来经济利益的记录在物理或电子形式中的数据资源,比如文件资料和电子数据。在公司中,并非所有的数据都能被视作数据资产,只有那些能为公司创造价值的数据资源才能被视为数据资产。数据资产管理(DAM,Data Asset Management)是指一组业务职能,用于规划、控制和提供数据及信息资产。包括制定、执行和监督与数据相关的计划、政策、方案、项目、流程、方法和程序,以实现对数据资产的控制、保护、交付和增值。数据资产管理需要充分融合业务、技术和管理,以确保数据资产的保值和增值。企业管理数据资产的核心在于通过完整的数据生命周期管理,提升数据资产的质量,从而促进数据在内部增值和外部效益两个方面实现其价值。数据首先经过规范定义、创建或获取,随后进行存储、维护和使用,最终被销毁。数据的生命周期始于数据获取之前,企业先制定数据规划并定义数据规范,以确保获得实现数据采集、交付、存储和控制所需的技术能力。数据资产管理通常包括四个主要阶段:整体规划、实施管理、审计检查和资产运营。

数据资产的实施方式:

这包括数据资产目录、数据分类、数据地图、数据安全和数据质量保障机制。 我们需要在上层建立一套指标体系和标签体系。最终,我们需要建立一套有效的评估体系来检测数据管理成本和数据应用的价值。

数据仓库 这个就不需要再进行介绍了。此系列主题总计十篇,其中数据治理单独一篇,表明其高度重要。如果有人问我,数据仓库最关键的因素是什么,我会说数据应用和数据质量。我们所有数据管理工作的最终目标是通过获取信息来创造价值,包括了解业务现状、预测趋势、支持决策、发现商机、辅助运营、进行数据交易等,而这些价值的最终实现基本上都体现在应用上。例如各种报表、分析报告、用户画像、运营支持、风险控制甚至是数据交易和联合建模。当然,这个价值可以是现在的,也可以是未来的。

数据的多种应用解决了数据的使用问题,我们可以利用这些应用程序来创造价值。数据的质量是确保应用最终能够真正发挥作用的必要条件。想象一下,错误的数据、缺失的数据、迟到的数据会降低数据的价值,轻微的情况下无法使用,严重的情况下会导致决策失误并引发重大损失。在数据的角度,五个数据质量评估标准为:完整性、准确性、一致性、时效性(及时和有效)。从数据使用的角度来看,可访问性是非常重要的。

数据完整性

数据完整性指的是记录和信息是否完整,是否存在数据缺失的情况。数据缺失的主要原因是记录缺失和重要字段信息缺失。这两种情况都可能导致统计结果的不准确性。数据完整性是保证数据质量最基本的要素。例如,一个稳定的业务每天产生约100万条记录的数据量,但某一天突然减少了1万条,这可能意味着出现了记录丢失的情况。例如,在某科高考成绩表中,每份考卷的分数都对应着一个准考证号。当准考证号的字段中存在空值数量大于0时,可能出现了信息缺失的情况。

一致性通常表现在具有大幅度跨度的数据仓库中。比如说,一家公司拥有多个业务数据仓库分支,为确保数据的一致性,在不同的数据仓库分支中需要保持数据相同。比如,从在线业务数据库处理数据到数据仓库,再到各个数据应用节点,用户ID的类型和长度必须保持一致。因此,您需要设计数据仓库的公共层,以确保数据的统一性和一致性。

的准确性指的是记录的数据信息是否准确无误,是否存在异常或错误。在成绩单中,如果出现了负数分数或者订单中的买家信息有错误,那就属于问题数据。{对于} 确保记录的准确性,也是保证数据质量必不可少的一部分。

的时效性包含两个要素:及时性和有效性。只有及时产生数据才能凸显数据的价值,而且对于一些时间敏感的数据也必须在有效期内加以利用。举例而言,决策分析师通常希望在工作日开始前就能获取前一天的数据。若等待时间过长,数据的时效价值将失去,导致数据分析的工作变得毫无意义。举个例子,运维人员在收到故障告警时,需要立即获取关键的运行日志数据,以便快速排查问题并恢复系统。数据的有效性指的是数据的值、格式和展示方式符合数据定义和业务定义的要求。好的,这个可以移除,这也应该是涉及准确性的范围。数据用户最核心的需求是,当他们需要使用数据时,能够访问到这些数据。因此,数据的可访问性是非常重要的。他们希望了解企业拥有哪些数据。放置的地方在哪里?这些数据的访问方式是什么?许多数据平台都提供了统一的数据资源目录功能来解决这个问题。

数据质量问题可以分为三类:

源端数据问题,包括数据的准确性、一致性、完整性和可访问性方面的问题; 数据处理问题,包括同步集成、计算、存储和查询过程中出现的准确性、一致性、完整性、及时性和可访问性方面的问题。数据口径不统一,导致各方对数据的理解存在偏差和不准确。数据质量保障是一个系统化的工程,我们需要全面协调一致才能做好。接下来,我们将从三个不同的角度为大家详细阐述,以便让大家对此有更深入的理解。 0x02 技术业务管理综合体的保障体系

技术

我们需要确保数据在从源头到最终应用端的流转过程中保持高质量。为此,一方面我们需提升每位数据开发者的技术能力,以提升模型和ETL设计及实施的质量;另一方面,我们还需借助数据质量工具监控ETL过程。针对数据源端的问题,有时可以采用技术手段进行解决,例如进行编码映射、ID匹配、缺失值填充等等。数据模型设计的质量问题包括但不限于:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,导致数据录入无法校验或校验不当,从而引起数据重复、不完整、不准确的情况。 数据源的数据质量存在问题。例如,一些数据是从生产系统采集过来的。在生产系统中,这些数据可能存在重复、不完整或不准确等问题。采集过程可能没有对这些问题进行清洗处理,这种情况也很常见。 在数据采集过程中,可能会存在质量问题。这些问题包括但不限于:采集点、采集频率、采集内容、映射关系等采集参数和流程设置不正确,以及数据采集接口效率低。这些问题可能导致数据采集失败、数据丢失、数据映射和转换失败等情况。在数据传输过程中会出现一些问题,比如数据接口本身存在问题、数据接口参数配置错误、网络不可靠等,都可能导致数据传输过程中的数据质量问题。数据加载过程中可能存在一些问题,比如数据清洗规则、数据转换规则和数据加载规则的配置可能存在问题。 数据存储的质量问题包括多方面,比如:数据存储设计不合理、存储容量有限、人为后台调整导致的数据丢失、数据无效、数据失真和记录重复等。 不同系统之间数据不一致的问题。有时候,业务问题导致了数据质量问题的根本原因,我们需要从业务角度入手来解决。我们需要确保业务专家或相关业务部门的参与,以统一数据标准和纠正理解上的偏差,通过深入沟通明确业务需求。数据质量的改进驱动因素永远源自业务目标,离开业务需求谈论数据质量是不可行的。制定数据质量改进方案的基础在于清晰地定义业务需求,此后,据此定义数据质量问题的优先级,考虑其对企业业务的长期影响。衡量业务的影响,并确定问题的优先级有助于明确治理目标,以及跟踪数据质量改进的进展。由于业务需求不够明确,比如数据的业务描述不清晰,业务规则不清楚,技术人员无法构建出合理、正确的数据模型。业务需求一旦发生变更,实际上对数据质量的影响非常显著。需求的改变可能会影响数据模型设计、数据录入、数据采集、数据传输、数据加载和数据存储等方面,稍有疏忽就可能导致数据质量问题的发生。 业务端数据输入不规范,常见的问题包括大小写、全半角以及特殊字符等,稍有不慎便会导致录入错误。数据的质量与业务人员录入数据的质量紧密相关。只有那些认真、严谨地录入数据的人,才能保证数据的质量较好。反之,录入数据不严谨的业务人员,则会导致数据质量较差。 数据造假,没错,你没看错,就是数据造假!为了调整考核指标,操作人员对某些数据进行处理,导致数据的真实性无法得到保证。

管理

技术尽管再努力,其作用毕竟有限,某些事情必须通过管理手段加以约束。通过有效管理实施规范,提升团队成员数据质量意识,运用管理手段协调各方,以达到提高效率的目的。建立数据质量保障委员会,应该由源端团队负责人、数据团队负责人和业务团队负责人共同参与。制定一个整体的规划和设计,确立统一的数据框架和标准,设计管理数据质量的机制,并采用分类处理来不断改善数据质量。最好在数据产生的起始端解决数据问题,建立统一的数据指标体系,明确数据问题的责任归属,由责任人负责解决。无论如何,只有管理层重视,整个工作才能顺利进行。这似乎是个认知上的难题。企业管理中缺乏数据思维,未意识到数据质量的重要性,过于关注系统的建设,而忽视了数据本身的价值,认为系统可以解决一切问题,数据质量的差异不值得重视。 没有专门的管理部门或职位来负责数据归口管理,缺乏数据认责机制,因此出现数据质量问题时找不到负责人。缺乏数据规划,缺少明确的数据质量目标,并未制定相关的数据质量政策和制度。数据输入规范不统一,存在着各业务部门、不同时期,甚至在处理相同业务时对数据输入规范的差异,导致数据出现冲突或矛盾。由于缺乏有效的数据质量问题处理机制,数据质量问题的处理缺乏统一的流程和制度支持,无法从发现、指派、处理到优化形成完整的闭环。由于缺乏有效的数据管控机制,历史数据的质量检查和新增数据的质量校验均缺乏明确而有效的控制措施,导致数据质量问题无法进行考核。影响数据质量的因素可以分为两类,客观因素和主观因素。客观因素:数据在各个环节流转时可能会出现系统异常和流程设置不当等问题,从而影响数据质量。主观因素指的是在数据处理的各个环节中,由于人员素质不高或管理缺陷等原因导致的操作不当,进而引发数据质量问题。

0x03数据全周期管理保障体系

数据的生命周期始于规划,包括设计、创建、处理、部署、应用、监控、存档和销毁等阶段,并持续循环。企业在管理数据质量时,应该贯穿整个数据生命周期的过程,包括数据标准的规划设计、数据建模、监控数据质量、诊断数据问题、数据清洗、完善数据优化等。进行数据规划。从企业战略的角度持续优化企业数据模型的规划,将数据质量管理纳入企业战略,建立健全的数据治理体系,并融入企业文化之中。设计

。我们需要推进数据标准化的制定和贯彻,遵循数据标准化的要求进行模型的统一管理,对数据进行分类、编码和存储结构的统一。这样为数据的集成、交换、共享以及应用奠定了基础。创建

数据。通过使用数据模型,可以确保数据结构的完整性和一致性,执行数据标准化并规范数据维护流程,同时加入数据质量检查,以确保源系统中数据的准确性、完整性和唯一性。使用

数据。使用元数据监控数据的使用;遵循数据标准以确保数据的准确性;进行数据质量检查以确保加工正确。元数据提供了一个统一的数据模型,用于各个系统的使用,监控数据的来源和去向,并提供全面的数据地图支持;企业在技术、管理和业务三个方面进行规范化,严格执行数据标准,以保证数据输入的正确性;数据质量提供了事前预防、事中预警和事后补救三个方面的措施,构建了完善的数据治理体系。这是一个数据流转链路保障体系的数据源。最好在数据来源解决数据问题。有时候,为了减少下游计算的复杂度,需要对源端进行必要的修改。需要与数据使用方商定并共同制定解决方案,以解决源头无法解决的问题。实现数据的集成、存储和计算。制定规范可以确保设计和开发的高质量开展,从而减少错误。使用数据质量稽核工具可以及时发现数据问题。同时,监控告警程序可以实时发现并处理 ETL 任务异常。使用

数据。统一标准,纠正误解。 数据处理 的

、 中

、 后

三个

阶段 保障体系,确保 事前 预防 控制。数据开发人员需要加强对数据质量的重视,同时在组织内建立严格的数据仓库规范,确保模型设计、ETL开发等关键流程能够有效地执行优质的方法论。掌控

的过程。我们可以通过建立一套可行的数据质量监控体系、设计数据质量稽核规则、加强对数据源头的控制、整体把控数仓设计和开发过程,实现全生命周期数据质量管理的覆盖。事后监督控制是指在活动或过程完成后进行的监督和控制。发生数据质量问题后,需要明确确定数据技术责任人,展开整改和迭代工作,确保数据质量管理能够形成良好的循环,从而实现将数据转变为优质资产的目标。 ame} umber} umber} umber} ame} ositio ame}

在线客服

关注我们 在线咨询 投诉建议 返回顶部