
基于大数据的数据治理建设方案.docx
54页基于大数据的数据治理建设方案目 录一ﻩ数据管理的现状 3二ﻩ数据治理的概述ﻩ4(一)ﻩ数据治理概念 4(二) 数据治理目的ﻩ5三 数据治理体系ﻩ5四 数据治理核心领域ﻩ6(一)ﻩ数据模型 6(二) 数据生命周期ﻩ6(三) 数据原则 8(四)ﻩ主数据ﻩ9(五) 数据质量ﻩ10(六) 数据服务ﻩ12(七)ﻩ数据安全ﻩ12五ﻩ数据治理保障机制ﻩ13(一)ﻩ制度章程 13(1)ﻩ规章制度 13(2)ﻩ管控措施ﻩ13(3) 考核机制 13(二) 数据治理组织ﻩ15(1) 组织架构 15(2) 组织层次 16(3) 组织职责ﻩ17(三)ﻩ流程管理 19(四) IT技术应用ﻩ19(1) 支撑平台 19(2) 技术规范 22附件A 数据管理规范 23附件B 数据质量评估措施ﻩ38附件C 数据质量管理流程ﻩ42有关数据治理的理解1. 数据管理的现状根据行业信息化发展的现状,结合当今行业数据治理的规定,大型集团或政务管理部门现阶段数据管理方面存在如下的局限性:(1) 数据多头管理,缺少专门对数据管理进行监督和控制的组织信息系统的建设和管理职能分散在各部门,致使数据管理的职责分散,权责不明确组织机构各部门关注数据的角度不同样,缺少一种组织从全局的视角对数据进行管理,导致无法建立统一的数据管理规程、原则等,相应的数据管理监督措施无法得到贯彻。
组织机构的数据考核体系也尚未建立,无法保障数据管理原则和规程的有效执行2) 多系统分散建设,没有规范统一的省级数据原则和数据模型组织机构为应对迅速变化的市场和社会需求,逐渐建立了各自的信息系统,各部门站在各自的立场生产、使用和管理数据,使得数据分散在不同的部门和信息系统中,缺少统一的数据规划、可信的数据来源和数据原则,导致数据不规范、不一致、冗余、无法共享等问题浮现,组织机构各部门对数据的理解难以应用一致的语言来描述,导致理解不一致 (3) 缺少统一的主数据,组织机构核心系统间的人员等重要信息并不是存储在一种独立的系统中,或者不是通过统一的业务管理流程在系统间维护缺少对集团公司或政务单位主数据的管理,就无法保障主数据在整个业务范畴内保持一致、完整和可控,导致业务数据对的性无法得到保障 (4) 缺少统一的集团型数据质量管理流程体系目前现状中数据质量管理重要由各组织部门分头进行;跨局跨部门的数据质量沟通机制不完善;缺少清晰的跨局跨部门的数据质量管控规范与原则,数据分析随机性强,存在业务需求不清的现象,影响数据质量;数据的自动采集尚未全面实现,解决过程存在人为干预问题,诸多部门存在数据质量管理人员局限性、知识与经验不够、监管方式不全面等问题;缺少完善的数据质量管控流程和系统支撑能力。
(5) 数据全生命周期管理不完整目前,大型集团或政务单位,数据的产生、使用、维护、备份到过时被销毁的数据生命周期管理规范和流程还不完善,不能拟定过期和无效数据的辨认条件,且非构造化数据未纳入数据生命周期的管理范畴;无信息化工具支撑数据生命周期状态的查询,未有效运用元数据管理2. 数据治理的概述2.1 数据治理概念数据治理是指将数据作为组织资产而展开的一系列的具体化工作,是对数据的全生命周期管理数据治理体系是指从组织架构、管理制度、操作规范、IT应用技术、绩效考核支持等多种维度对组织的数据模型、数据架构、数据质量、数据安全、数据生命周期等各方面进行全面的梳理、建设以及持续改善的体系2.2 数据治理目的数据治理的目的是提高数据的质量(精确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享;推动信息资源的整合、对接和共享,从而提高集团公司或政务单位信息化水平,充足发挥信息化作用3. 数据治理体系数据治理体系涉及两个方面,一是数据质量核心领域,二是数据质量保障机制具体两者内容及互相关系可以参见下图:4. 数据治理核心领域为了有效管理信息资源,必须构集团级数据治理体系。
数据治理体系涉及数据治理组织、数据构架管理、主数据管理、数据质量管理、数据服务管理及数据安全管理内容,这些内容既有机结合,又互相支撑4.1 数据模型数据模型是数据构架中重要一部分,涉及概念数据模型和逻辑数据模型,是数据治理的核心、重点抱负的数据模型应当具有非冗余、稳定、一致、易用等特性逻辑数据模型能涵盖整个集团的业务范畴,以一种清晰的体现方式记录跟踪集团单位的重要数据元素及其变动,并运用它们之间多种也许的限制条件和关系来体现重要的业务规则数据模型必须在设计过程中保持统一的业务定义为了满足将来不同的应用分析需要,逻辑数据模型的设计应当可以支持最小粒度的具体数据的存储,以支持多种也许的分析查询同步保障逻辑数据模型可以最大限度上减少冗余,并保障构造具有足够的灵活性和扩展性4.2 数据生命周期一般涉及数据生成及传播、数据存储、数据解决及应用、数据销毁四个方面1)数据生成及传播数据应当可以按照数据质量原则和发展需要产生,应采用措施保证数据的精确性和完整性,业务系统上线前应当进行必要的安全测试,以保证上述措施的有效性对于手工流程中产生的数据在有关制度中明确规定,并通过事中复核、事后检查等手段保证其精确性和完整性。
数据传播过程中需要考虑保密性和完整性的问题,对不同种类的数据分别采用不同的措施避免数据泄漏或数据被篡改2)数据存储这个阶段除了关注保密性、完整性之外,更要关怀数据的可用性,对于大部分数据应采用分级存储的方式,不仅存储在本地磁盘上,还应当在磁带上,甚至远程复制到磁盘阵列中,或者采用光盘库进行存储对于存储藏份的数据要定期进行测试,保证其可访问其数据完整数据的备份恢复方略应当由数据的责任部门或负责人负责制定,信息化管理部门可以予以相应的支持同步还需要注意由于部门需要或故障解决的需要,也许对数据进行修改,必须在数据管理措施中明确数据修改的申请审批流程,审慎看待后台数据修改3)数据解决和应用信息化有关部门需要对数据进行分析解决,以挖掘出对于管理及业务开展有价值的信息,为保证过程中数据的安全性,一般应采用联机解决,系统只输出分析解决的成果但是实际中,由于有关数据分析系统建设不到位,需要从数据库中提取数据后再对数据进行必要的分析解决,在这个过程中就需要关注数据提取操作与否也许对数据库导致破坏、提取出的数据在交付给分析解决人员的过程中其安全性与否会减少、数据分析解决的环境安全性等等4)数据销毁这个阶段重要波及数据的保密性。
应明确数据销毁的流程,采用必要的工具,数据的销毁应当有完整的记录特别是对于需要送出外部修理的存储设备,送修之前应当对数据进行可靠的销毁4.3 数据原则数据原则是集团单位建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的原则化体系数据原则的建立是集团单位信息化、数字化建设的一项重要工作,行业的各类数据必须遵循一种统一的原则进行组织,才干构成一种可流通、可共享的信息平台数据治理对原则的需求可以划分为两类,即基本性原则和应用性原则前者重要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、互换以及应用的基本,涉及数据分类与编码、数据字典、数字地图原则;后者是为平台功能发挥所波及的各个环节,提供一定的原则规范,以保证信息的高效汇集和互换,涉及元数据原则、数据互换技术规范、数据传播合同、数据质量原则等1)数据分类与编码数据分类与编码原则是信息化建设中原则化的一项基本工作,该类原则规定平台汇集、互换有关信息统一的分类系统和排列顺序以及编码规则,目的是在不同系统和顾客之间建立交通数据的一致参照,对提高数据采集、解决和数据互换效率具有重要作用数据分类与编码原则的制定将有力推动平台原则化及交通信息化建设原则化的进程。
2)数据字典针对实际需求,定义数据集,建立各个领域的数据字典,规范数据概念和数据定义在此基本上,形成完备的集团单位数据集和数据字典3)元数据原则元数据原则是描述数据资源的具体对象时所有规则的集合,它涉及了完整描述一种具体数据对象时所需要的数据项集合针对多种信息资源分别制定合适的元数据原则,可为信息的管理、发现和获取提供一种实际而简便的措施,从而提高数据互换效率 (4)数据互换原则为了保证数据共享和互换的顺利实现,必须明拟定义和规范数据互换的有关原则数据互换的原则规范是集团单位综合信息平台的核心原则其中应当涉及数据互换内容、数据互换格式、数据传播方式、各类中心间数据接口的原则化等方面 (5)数据质量原则由于数据采集任务一般由其她二级平台完毕,数据治理平台的原则措施重要集中在数据的加工和管理上应当重点开发的一种领域是数据质量控制措施应当从三个方面对数据质量措施进行研究:“ 坏数据”或“不可靠数据”的辨认,错误数据的编辑措施,以及缺少值的解决4.4 主数据主数据管理要做的就是从各部门的多种业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、精确的、具有权威性的主数据传送给集团单位范畴内需要使用这些数据的操作型应用系统和分析型应用系统。
主数据管理的信息流应为:1) 某个业务系统触发对主数据的改动;2) 主数据管理系统将整合之后完整、精确的主数据传送给所有有关的应用系统3) 主数据管理系统为决策支持和数据仓库系统提供精确的数据源因此对于主数据管理要考虑运用主数据管理系统实现,主数据管理系统的建设,要从建设初期就考虑整体的平台框架和技术实现4.5 数据质量数据质量不高将影响数据仓库应用限度不高低下的数据质量往往导致开发出来的系统与顾客的预期大相径庭,数据质量关系建设有关分析型信息系统成败,同步数据资源是集团单位的战略资源,合理有效的使用对的的数据能指引集团单位做出对的的决策,提高省综合竞争力不合理的使用不对的的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里数据质量管理涉及对数据的绝对质量管理、过程质量管理绝对质量即数据的真实性、完备性、自治性是数据自身应具有的属性过程质量虽然用质量、存储质量和传播质量,数据的使用质量是指数据被对的的使用再对的的数据,如果被错误的使用,就不也许得出对的的结论数据的存贮质量指数据被安全的存贮在合适的介质上所谓存贮在合适的介质上是指当需要数据的时候能及时以便的取出数据的传播质量是指数据在传播过程中的效率和对的性。
高质量的交通运送行业数据至少有如下几项规定:一是对的性,在转换、分析、存储、传播、应用流程中不存在错误;二是完整性,数据库应用或规定的所有记录、字段都存在;三是一致性,体目前整个数据库的定义和维护方面,保证数据在使用的整个过程中是一致的;四是时效性,衡量指标是在指定的数据与真实的业务状况同步的时间容忍度内,即指定的更新频度内,及时被刷新的数据的比例;五是可靠性,提供数据的数据源必须可以可靠稳定地提供数据数据质量管理的规划和实行涉及如下内容:一是数据质量管控体系的建立,涉及数据质量的评估体系,定期评估数据质量状况;二是在部门各个应用系统中的贯彻,涉及每个应用系统中的数据质量检查等;三是在最开始建立数据质量管理系统的时候,借助数据治理平台上,通过建立数据质量管理的规则来集中化地建立数据质量管理系统,发现问题并持续改善; 四是数据质量管理与业务稽核的结合,通过业务规则的稽核来发现数据质量深层次的问题,将数据质量与业务一线结合起来,使业务人员对数据质量问题有更加清晰和明确的结识完善的数据。
