好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

一种基于数据质量维度的数据清洗方法.docx

9页
  • 卖家[上传人]:ji****81
  • 文档编号:226436292
  • 上传时间:2021-12-18
  • 文档格式:DOCX
  • 文档大小:24.05KB
  • / 9 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 一种基于数据质量维度的数据清洗方法 李琳摘 要:随着社会经济的发展和大数据时代的到来,数据在人们日常生活中扮演的角色越来越重要利用决策支持系统、客户关系管理系统(CRM)等数据库应用项目,我们可以从海量数据中提取更有价值的信息然而,调查发现很多数据库应用项目的运行效果并不令人满意数据数量增长的同时,数据质量的控制也给广大研究人员带来一定的困扰人们越来越意识到,高质量的数据是商业成功的一个重要因素,而数据源中的“脏数据”是导致数据质量低的一个重要原因为了保证高质量的数据,企业需要采取一系列措施来控制数据质量,并采用一定的手段来处理“脏数据”然而现实中,检测与清洗数据源中所有“脏数据”的开销是昂贵的因此,如何根据不同的商业的需求来拣选部分“脏数据”进行清洗具有一定的现实意义文章在文献分析的基础上,回顾了数据质量、数据质量维度的定义,探讨了常见数据质量问题,阐明了数据质量管理与数据清洗之间的关系针对“脏数据”拣选问题提出了一种数据清洗方法最后对数据清洗相关研究进行了展望关键词: 数据质量;数据质量维度;数据质量规则;数据清洗:TP311.13 文献标志码:A :2095-2945(2017)21-0001-051 研究背景目前,数据在人类日常生活中所扮演的角色越来越重要,利用决策支持系统、客户关系管理系统(CRM)等数据库应用项目,我们可以从海量数据中获得更有价值的信息。

      然而,调查发现很多数据库应用项目的运行效果并不令人满意其中一个重要的因素就是数据质量问题[1]普华永道会计事务所在纽约的研究也表明,75%的被调查公司存在因“脏数据”问题造成经济损失的现象,只有35%的被调查公司对自己的数据质量充满信心[2]据统计,一些具有代表性的大公司的数据错误率预期在大约1%~5%,大部分数据源中都含有一定比例的“脏数据”[3]数据是信息的载体,好的数据质量是使各种数据分析(例如数据挖掘等)能够得到有意义结果的基本条件根据“进去的是垃圾,出来的也是垃圾(garbage in, garbage out)”这条原则,“脏数据”的存在会造成信息失真[4]在各种数据处理任务中,数据清洗这一任务是至关重要的数据清洗是数据质量提高技术研究的主要内容,数据清洗主要研究如何检测并消除数据中的错误和不一致,以提高数据质量,目前有很多数据清洗框架存在[5]然而研究发现,数据质量问题并没有引起大多数企业足够的重视,同时这些企业也没有应用有效的方法和措施来提高其数据质量其中一个主要原因是这些企业缺少对各种脏数据类型的了解[6]因此,为了提高数据质量,有必要了解留存于数据源中的各类脏数据及其清洗方法。

      目前已有部分学者针对这一任务,展开了研究[3][7][8][9]在现实中,清洗所有数据源中的脏数据花销是昂贵的,尤其是考虑到企业的实际需求时,清洗所有数据源中的脏数据是不划算的比如某公司只考虑清洗某一组特定类型的脏数据用来提高数据的准确率问题这样的问题涉及到如何在脏数据中拣选特定类型的脏数据进行清洗在本文中,该问题被定义为“脏数据选择问题”(DDS)虽然目前有不少文献针对脏数据的分类进行了研究,但对于DDS这一问题并没有展开进一步的研究在现实中仅仅依靠各类脏数据的划分,很难根据不同企业的实际需求来解决DDS问题来提高相应的数据质量为了解决这个问题(DDS),本文提出了一种数据清洗方法从数据质量维度的这一角度出发,同时配合各类商业规则,将脏数据进一步划分进而解决DDS问题利用该方法,用户可以根据不同的商业需求来制定不同的优先权,选择特定的脏数据进行清洗同时该方法为我们提供了一种基于数据质量维度与数据质量规则的脏数据划分,该划分为提高数据质量问题进一步提供了指导准则2 数据质量,数据质量维度与数据质量规则基于目前现有的技术,企业可以创建、存储、处理大量的数据但数据质量问题的存在却降低了某些数据库应用项目的处理效果。

      接下来,数据质量、数据质量维度、数据质量规则的相关概念将进一步讨论2.1 数据质量针对数据质量问题的研究,最早可以追溯到十九世纪60年带,由Fellegi与Sunter等人提出[10]然而,直到1990年,关于数据库及数据仓库系统中的数据质量问题才在计算机科学领域中被正式研究越来越多的人意识到,数据质量的问题是导致数据库应用项目运行失败的一个重要因素目前,数据质量被广泛的定义为“适合使用的程度(fitness for use)”Orr提出数据质量从本质上讲与我们如何在系统中使用数据有相当大的关系[11]我们可以从两个方面对这一说法进行解释第一,如果数据有效并且符合用户需求,则该数据可以直接进行使用第二,在某些环境下符合用户需求的数据有可能在另一环境中是不符合用户需求的例如,某公司的财务人员要求数据以万为单位显示来进行数据分析,而同一公司的审计员则要求数据精确到分也就是说公司的商业策略或者商业规则在此时决定了数据质量通常来说,数据质量可以借由数据维度来进行衡量[12]常用的数据质量维度包括准确度,完整度,时效度,一致度等因此,数据质量评估的核心在于如何具体地评估各个维度对各个维度从定性的角度来分析其“好”或“坏”是目前数据质量评估方法的主流。

      2.2 数据质量维度文献[12]指出, 数据质量维度是一组数据质量属性的集合,每一种属性代表着数据的某一特征依靠调查研究报告而收集的179种数据质量属性,Wang和Strong等人将这些数据质量属性归纳为20种不同的维度这些维度从不同的角度对数据质量进行衡量,并且将衡量的结果归纳为不同的类别Wang和Strong的研究工作认为数据质量的概念是一种多维的概念文献[13][14][15]也针对数据质量维度展开了调查研究大部分学者认为以下六个数据维度组成了最基础的衡量数据质量的标准:准确度,完整度,一致度,现时度,可解释性,以及易接近性在這六个维度中,同具体数据值相关的数据质量维度包括准确度,完整度,一致度和现时度[16]本文将以这四个数据质量维度为基础进行脏数据的划分接下来,将对这四个数据质量维度进行简要的介绍 2.2.1 准确度(accuracy)假设数据以的方式来进行描述,其中e代表实体,a代表实体的属性,v代表属性a的值则数据的准确度表示值v与其真实值v的接近程度若v等同于v,则该数据被认为是准确的例如,数据库中某学生实体,姓名属性的值被记录为“Elizbeth Fraser”而非“Elizabeth Frazer”。

      这个值是不准确的2.2.2 完整度(completeness)Fox等人将数据的完整度定义为对于一切实体的所有属性,其所对应的值是否完整的程度[16]数据的完整度可以由三个级别来进行度量:纪录级别,属性级别与关系级别纪录级别的完整度代表数据库中每条纪录中已录入的值与该条纪录所有属性应具有的值的数量百分比属性级别的完整度代表数据库中纪录的每列属性中非缺失值与全体值的数量百分比关系级别的完整度代表每张数据表中所有非缺失值与全体值的数量百分比2.2.3 现时度(currentness)数据库中所记录的某些数据是静态的,也就是说其值是不可变的比如某人的出生日期,出生地点等相反人的年龄,住址,体重等信息会随着时间的变化而发生改变这样的数据被称为时态数据现时度就是为了衡量时态数据的一个维度Fox等人提出,如果一个数据在t时刻是准时的,则说明该数据的值在t时刻是正确的如果一个数据在t时刻是过期数据,说明该数据的值在t时刻是不正确的,但它在t时刻之前的某一时刻是正确的[16]例如,某人在2008年居住在中国上海,其居住地址在数据库中已有所记录在2016年这个人居住在英国伦敦,则数据库中反映该人“现居住地址”的信息应进行更新。

      这样的数据则被称为现时度高的数据现实生活中,由于数据没有被及时更新而造成的经济损失是非常高昂的例如某调查研究表明,平均每公司每年因邮件地址信息过期而造成的损失高达9000美金[17]2.2.4 一致度当数据的值符合相应的数据模型所定义的一系列约束条件时,该数据是一致的数据例如,由于不同的商业需求,数据库在不同环境中可能被设计成不同的模式因此同一数据的值在不同的数据库中的表现形式也各不相同,其度量单位也会有差别当不同数据源的数据进行抽取和整合时,数据的不一致性问题就会出现例如,为记录某人的收入信息,在某些数据库中该人的收入会以人民币做为结算单位进行记录,在另一些数据库中则以美元为结算单位进行记录2.3 数据质量规则根据Adelman等人的研究, 数据质量规则可以被归纳为以下四组:商业实体规则, 商业属性规则, 数据依赖规则以及数据有效性规则[19]表1归纳了这四组规则在这四组规则当中,数据有效性规则是专门用来考察同数据值相关的质量规则由于本文所考虑的数据质量维度仅针对于数据值而言,因此本文将采用数据有效性规则这一组数据质量规则应用于所提出的清洗方法之中根据文献[19],数据有效性规则包含六条数据质量规则,分别为数据完整规则,数据正确规则,数据准确规则,数据单一规则以及数据一致规则。

      本文继续将这六条规则进行细分进而形成更加详细的数据质量规则,并為每条规则配备一个规则号详细的内容见表2所示根据表1,数据单一规则被归入数据有效性规则组中在表2中,规则R5.1与R5.2是专门用来衡量由于数据库中冗余纪录的存在而引起的一类特殊的数据质量问题现实中有很多原因会导致数据库中冗余记录的产生,例如数据录入错误,针对同一数据值的不同表达方式等目前,针对于不同的研究领域,有不同的方法用来解决冗余记录问题同时很多学者也开展了相应的研究工作[20]因此,除了前文所提到的四个数据质量维度,本文同时引入“单一度”作为另一数据质量维度专门用来衡量冗余记录存在的问题3 脏数据类型脏数据分类系统可以帮助人们更好的理解数据质量问题目前针对脏数据分类问题已有很多工作展开了相关研究[3][7][8][9]文献[8]将数据质量问题分为两组:单数据源问题、多数据源问题在每一组中,又将对应的数据质量问题划分为模式层问题与实例层问题例如,在单数据源的实例层次上,数据的错误有可能来自数据输入的错误,冗余记录的存在以及矛盾数据的存在等在多数据源实例层次上,不一致性数据的错误会发生在数据整合的过程中文献[7]针对数据质量问题也提出一组脏数据的分类。

      这组分类包括词汇错误(Lexical error)、域值错误(Domain format error)、不规则性错误(Irregularities)、条件约束错误(Constraint violation)、缺失值(Missing value),冗余值(Duplicates)以及无效记录(Invalid tuple)相比前两个分类,文献[3]提出了一个更详尽的脏数据分类,该分类以分层的方式来表现根据不同的脏数据表现方式,从各类数据源中所捕获的脏数据首先可以归入以下三类:(1)缺失值(2)非缺失但错误数据(3)非缺失非错误但无法使用的数据这三类错误数据组成了整个脏数据分类的主体作者进一步对这三类错误数据进行细分,最终提出了一个含有33种不同的脏数据类型的分类文献[9]则提供了一个更加完整的脏数据分类系统作者采用了一种自底向上的方式将脏数据进行分类(从单一数据源中单一记录的具体的属性值问题到多数据源中存在的数据问题)在单一数据源中,数据质量问题从两个方面进行划分,最终分为两组分别是单数据表数据质量问题与多数据表中的数据质量问题在多数据源中,数据质量问题被归纳为9类问题表3总结了文献[9]提出的数据质量问题。

      由于Oliveira等人的脏数据分类在目前现有的研究工作中比较完整地归纳了不同的脏数据类型,因此本文所提出的数据。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.