
数据稽核文档.docx
7页1.1 数据稽核1.1.1 稽核策略如图所示,DM数据稽核的大致思路是通过数据完整性、数据一致性、数据准确性三方面依次对DM层数据进行稽核,每一步都为下一步做准备,层层递进,环环相扣,以保证DM获取层、基础层、衍生层、复合指标层以及视图层的数据质量1.1.1.1 数据完整性数据完整性稽核主要包括,实体是否在规定的时间点提供了并加工生成了数据,实体中指标是否完整覆盖订阅指标两个方面,首先考虑实体中各账期各省份是否有数据(即判断数据是否缺失),只有在实体有数据的基础上才能做进一步的数据稽核,其次检查数据中指标是否满足需求,是否包含指标订购的指标实体是否在规定的时间点提供了并加工生成了数据,相当与已经具备了一个完整的木桶,指标覆盖了订购,相当与已经盛满了鱼数据完整性稽核的目的也就是,用完整的“木桶”,盛满我们需要的“鱼“1.1.1.2 数据一致性数据在由数据源到数据获取层,数据获取层到基础数据层,再由基础数据层到衍生数据层的传递过程中,数据能否保持一致也成为纵向实体间稽核的内容在此基础上,检查横向实体间在相同口径下的相同指标的指标值是否一致虽然实体间相同口径下相同的指标是建设集市极力避免出现的,但是一旦出现并使用,就要要对此进行严格的稽核管控。
这种大量横纵十字交叉的方式进行一致性的检查,便形成了一种网状稽核数据一致性网状稽核的目标便是无“漏网之鱼”复合指标层的一致性稽核主要包括复合指标层实体内上期值、累计值等对应一致的稽核,这不仅保证了复合指标层的数据一致,而且便于数据的准确性稽核 1.1.1.3 数据准确性数据在时间推移的过程中不可能一成不变,会按着一定规律波动,我们依照以往指标数据,确定不同指标的波动上限,波动下限,形成一个指标的正常波动范围在数据保证完整一致的基础上,对当前更新的月数据作环比来表现月指标的变化状况,对当前更新的日数据作同比来表现日指标的变化状况,严格控制阀门,一旦超出指标正常波动范围,准确及时地找到异常数据另外,我们用排名对比的方法体现复合指标层指标较上月的排名变化,把指标省内排名和全国排名变化较大的标记为异常指标以上是本月比起上月同期值的变化情况,如果指标为异常,我们并不能确定哪个月的数据异常,因此,引出在时间序列上的指标数据展现,从而确定异常数据来源1.1.2 稽核规则根据稽核策略,我们制定了数据完整性、数据一致性、数据准确性稽核的标准,提供数据稽核时参照的依据,也就是稽核规则1.1.2.1 数据完整性稽核规则1.1.2.1.1 数据是否缺失稽核依照数据应出数时间,与数据实际出数时间对比,检查实体是否在规定的时间点提供了并加工生成了数据。
例如:日指标的应出数时间为第二天的四点,我们就可以以此为标准,检查日指标是否在规定的时间点提供了指标数据1.1.2.1.2 指标是否缺失稽核将表中所含指标与需求订购表作对比,表中没有且订购表中有的指标即是表中缺失的指标比如说一个表我们需要N个指标,但数据接口层的表只提供了这N个指标中的N-1个,那我们就可以找出这一个缺失的指标,反馈给数据提供方如图所示,显示了两个表的所有订购指标,稽核这两个表的完整性时以这些指标为参照,找出缺失的指标列出来类型表名订购指标日DM_KPI_ESS_TERM_D终端补贴用户主叫计费时长、终端销售量上网流量、网上用户数、流量用户数、三无用户数、活跃用户数、终端补贴金额、终端补贴主叫通话用户数月DM_KPI_W_MOB_BAS_M套餐包上网流量、短信条数、下行流量、佣金、预流失用户、套餐包主叫计费时长、计费时长、上行流量、流量用户数、活跃用户数、三无用户数、携入用户数、欠费用户数、新增用户数、出账用户数、离网用户数、合约到期用户数、注销用户数、转网用户数、停机用户数、发展用户数、套餐转移用户数、通话用户数、流失用户数、未出账用户数、终端补贴用户数、通话次数、终端补贴金额、上网次数、上网时长、通话时长、上网流量、综合优惠金额、缴费金额、欠费金额、出账收入、网上用户数、出账收入、上网流量、活跃用户数、短信条数、出账用户数以上是稽核基础指标是否缺失,要考虑基础指标在非公共维度上是否缺失,这种情况我们可以通过稽核复合指标是否缺失来实现。
系统页面展示时会以复合指标+公共维度的方式展现,我们通过稽核复合指标在公共维度(时间、地域、产品类型、渠道类型等)上是否缺失来实现1.1.2.2 数据一致性稽核规则1.1.2.2.1 数据纵向表间传递稽核纵向表间稽核可分为数据获取层与数据仓库数据源指标值的对比稽核、基础数据层同衍生数据层指标值的对比稽核数据获取层与数据仓库数据源指标值的对比稽核:通过对数据获取层,数据源在相同账期,相同省份的相同口径下的各指标值作差若差值为零,则数据正常;否则数据在传递过程中有误;基础数据层同衍生数据层指标值的对比稽核:通过对基础数据层,上层衍生数据在相同账期,相同省份的相同口径下的各指标值作差若差值为零,则数据正常;否则数据在传递过程中有误通过这两部分稽核,保证了各层数据在传递过程中的一致准确性,并能够及时发现传递有误的数据1.1.2.2.2 数据横向表间对比稽核横向表间稽核又分为数据获取层表间指标值的对比稽核及数据获取层表内指标值的对比稽核数据获取层表间指标值的对比稽核:通过对横向基础表在相同账期,相同省份,相同业务口径下的各共有指标值作差若差值为零,则数据正常;否则数据有误,而且若接口层数据传递无误,则表明数据仓库数据源横向表数据有误;例如:DM_KPI_W_FLUX_M表中流量在限制了用户群时,应该和DM_KPI_W_MOB_BAS_M表中的流量数据完全一样;而限制了卡类用户群时,应该和DM_KPI_W_CARD_M表中的流量数据完全一样。
接口表接口表共有指标DM_KPI_W_CARD_MDM_KPI_W_CHARGE_M无线上网卡出账收入DM_KPI_W_MOB_BAS_MDM_KPI_W_CHARGE_M出账收入DM_KPI_W_MOB_BAS_MDM_KPI_W_VOICE_M通话时长、通话次数、计费时长DM_KPI_W_MOB_BAS_MDM_KPI_W_FLUX_M上网时长、上网次数、上网流量、上行流量、下行流量DM_KPI_W_MOB_BAS_MDM_KPI_W_SMS_M短信条数数据获取层表内指标值的对比稽核:对于一些基础数据层表内有分档,分群的情况,比如说,DM_KPI_W_LVL_M表中对于网上用户会根据不同需要进行分档,对于3G无限上网卡网上用户的分档为:3G无线上网卡流量分档与3G无线上网卡上网时长分档,虽然是按不同的需求进行了分档,但是都是统计3G无限上网卡的网上用户,通过这两个分档算出的网上用户数的总值应该是一样的我们对不同分档下的相同指标值在一致口径下作差对比,对不同拍照群下的观察分散指标求和与拍照群数据在相同口径下作差对比若差值为零,则数据正常;否则数据有误,而且若数据获取层数据传递无误并通过了横向表间稽核,则该表数据有异常。
通过这两部分稽核,保证了基础数据层的横向数据准确性,并能够检验特殊需求表内的数据准确性,为数据质量增添砝码1.1.2.2.3 复合指标表内一致性稽核 复合指标表内一致性稽核是检查账期内除本期值以外的其他值的一致性,主要针对复合指标层的月复合指标表和日复合指标表,其中月复合指标表中的上期指标值、本年累计指标值、去年同期指标值、去年同期累计指标值,日复合指标表中的昨日指标值、上月同期值、本月同期累计值、上月同期累计值、去年同期值、去年同期月累计对比规则:1.1.2.3 数据准确性稽核规则1.1.2.3.1 月数据环比预警稽核参考以往合理月数据指标的环比变化,确定该指标变化的波峰,波谷,由此形成其正常变化范围通过对当月账期值与上月账期值对环比对照,若该数据在正常变化范围内,则说明该指标数据正常;若偏离正常变化范围之外,则说明该指标数据异常举例,我们通过稽核网上用户类的6个关键月指标,保证了3.19%的复合指标的准确性序号分类覆盖率稽核指标稽核方法周期1网上用户类3.19%2G网上用户环比月23G网上用户环比月33G网上用户环比月4固定网上用户数环比月5宽带网上用户数环比月6无线上网卡用户环比月7离网用户类1.34%3G离网用户环比月82G离网用户环比月93G离网用户环比月10固定离网用户环比月11宽带业务离网用户环比月12无线上网卡离网用户环比月1.1.2.3.2 日数据同比预警稽核参考以往合理日数据指标的同比变化,确定该指标其波峰,波谷,由此形成其正常变化范围。
通过对当日值与上月同日值对同比对照,若该数据在正常变化范围内,则说明该指标数据正常;若偏离正常变化范围之外,则说明该指标数据异常举例,我们通过稽核新增用户类的6个关键日指标,保证了11.11%的复合指标的准确性序号分类覆盖率稽核指标稽核方法周期1网上用户类14.29%2G网上用户同比日23G网上用户同比日3固话当日网上用户同比日4宽带当日用户到达数同比日53G网上用户同比日63G无线上网卡业务网上用户同比日7新增用户类11.11%3G新增用户同比日8宽带当日新增用户数同比日9固定当日新增用户数同比日103G新增用户同比日考虑到公司仍有部分低层及高层人员的补充,因此在选择招聘渠道供应商的附加值时以配送普工现场招聘会和高端人才交流会为佳,另外根据供应商平台实力,若能给公司提供合适的猎头服务也应当纳入甄选范畴。












