数据质量管理:6个维度,50个检查项

VIP专享
4.0 海阔天空 2024-02-27 197 441.77KB 10 页 免费
侵权投诉
数据质量管理:6个维度,50个检查项
大数据时代,数据资产及其价值利用能力逐渐成为构成企业核心竞争力的关
键要素;然而,大数据应用必须建立在质量可靠的数据之上才有意义,建立
在低质量甚至错误数据之上的应用有可能与其初心南辕北辙、背道而驰。因
此,数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的
上限,而低质量的数据则必然拉低数据应用的下限。
数据质量定义
数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他
们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以
理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比
较。 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、
评估、改进和保证数据的恰当使用。
数据质量维度
1、准确性:数据不正确或描述对象过期
2、合规性:数据是否以非标准格式存储
3、完备性:数据不存在
4、及时性:关键数据是否能够及时传递到目标位置
5、一致性:数据冲突
6、重复性:记录了重复数据
谈数据
数据质量分析
数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指
不符合要求以及不能直接进行相关分析的数据。脏数据包括以下内容:
1、缺省值
2、异常值
3、不一致的值
4、重复数据以及含有特殊符号(如#、¥、*)的数据
我们已经知道了脏数据有4个方面的内容,接下来我们逐一来看这些数据的产
生原因,影响以及解决办法。
产生原因:
1、有些信息暂时无法获取,或者获取信息的代价太大
2、有些信息是被遗漏的,人为或者信息采集机器故障
3、属性值不存在,比如一个未婚者配偶的姓名、一个儿童的固定收入
影响:
1、会丢失大量的有用信息
2、数据额挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更加难以
3、包含空值的数据回事建模过程陷入混乱,导致不可靠输出
解决办法:
通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未
缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不
处理三种情况。
产生原因:
业务系统检查不充分,导致异常数据输入数据库
影响:
不对异常值进行处理会导致整个分析过程的结果出现很大偏差
解决办法:
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的
统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围。如
果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值
的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多
少倍标准差来描述。
产生原因:
不一致的数据产生主要发生在数据集成过程中,这可能是由于被挖掘的数据
是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。例
如,两张表中都存储了用户的电话号码,但在用户的号码发生改变时只更新
了一张表中的数据,那么两张表中就有了不一致的数据。
影响:
直接对不一致的数据进行数据挖掘,可能会产生与实际相悖的数据挖掘结
解决办法:
注意数据抽取的规则,对于业务系统数据变动的控制应该保证数据仓库中数
据抽取最新数据

标签: #数据质量

摘要:

数据质量管理:6个维度,50个检查项大数据时代,数据资产及其价值利用能力逐渐成为构成企业核心竞争力的关键要素;然而,大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心南辕北辙、背道而驰。因此,数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质量的数据则必然拉低数据应用的下限。01.数据质量定义数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制...

展开>> 收起<<
数据质量管理:6个维度,50个检查项.pdf

共10页,预览3页

还剩页未读, 继续阅读

声明:菜根智库所有资料均为用户上传分享,仅供参考学习使用,版权归原作者所有。若侵犯到您的权益,请告知我们处理!任何个人或组织,在未征得本平台同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
作者:海阔天空 分类:数字化 价格:免费 属性:10 页 大小:441.77KB 格式:PDF 时间:2024-02-27

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 10
客服
关注