好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据校验手册.docx

10页
  • 卖家[上传人]:今***
  • 文档编号:105751110
  • 上传时间:2019-10-13
  • 文档格式:DOCX
  • 文档大小:387.70KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 数据质量校验说明手册-------------------------------------------HIVE一、 目前支持的所有校验规则1. 模型校验规则包括单字段校验、多表多字段关联校验1) 单字段校验1.1 非空(exist)字段不能为空,如果为空则数据不符合要求具体配置文件填写方法:1.2 必须为空(nexist)字段必须为空,如果不为空则数据不符合要求1.3 列的最大长度(maxLength)字段的值的长度不能大于参数指定的最大长度,如果大于则数据不符合要求1.4 列的最小长度(minLength)字段的值的长度不能小于参数指定的最小长度,如果小于则数据不符合要求1.5 不包含空格(ncontainsBlank)字段的值不包含空格1.6 不包含回车(ncontainsEnter)字段的值不包含回车,即\r 1.7 不包含换行符(ncontainsEnterN)字段的值不包含换行符,即\r 1.8 不包含Tab(ncontainsTab)字段的值不包含Tab,即\t 1.9 字符等于(stringValue)字段的值等于规则里写的字符串1.10 字符不等于(nstringValue)字段的值不等于规则里写的字符串。

      1.11 值小于(valueLess)字段的值是个数字,且必须小于规则里指定的数1.12 值大于(valueMore)字段的值是个数字,且必须大于规则里指定的数1.13 值等于(valueOf)字段的值是个数字,且必须等于规则里指定的数1.14 值不等于(nvalueOf)字段的值是个数字,且必须不等于规则里指定的数1.15 值为0(zero)字段的值是个数字,且必须等于01.16 值属于(枚举值)(valueIn)枚举值判断:规则里写下 11,12,13,14 这些值,用逗号隔开然后程序把这些转化为一个数组11 12 13 14 ,字段的值是这几个数字里的其中1个即满足规则1.17 值属于(包含)(valueBetween)Between判断:规则里写下11,12,13,14这些值,用逗号隔开然后程序把这些转化为一个数组11 12 13 14,假如字段的值的一部分包含数组里其中某一个数字即满足规则比如字段的值是110,那么110包含11,满足规则1.18 连接点号校验(ndLong)校验连接点号(nd或ind或jnd等)是否按规范填写具体规则如下:连接点号是8字节long型,高4位为0,第3字节保存区域号,第0-2字节保存节点号,需要校验连接点号是否按该规则填写,区域号是否属于该地区。

      注:福建省调(区域号35)模型不考虑该规则1.19 唯一性校验字段的值全表唯一有重复的则重复的不符合规则,需记录到日志里true2) 多表多字段关联校验2.1 关联字段非空且填写一致校验关联字段非空且填写一致校验:表A的字段a能在表B的字段b里找到2.2 关联相互校验(清洗)库A里的表A的字段a和库B里的表B里的字段b均不为空,且能互相在对方里找到记录2.3 流转过程唯一标识校验具体描述:同一个设备在多次同步过程中,唯一标识不能发生变化比如:fj_ems.busbarsection的字段code和fj_global_ems.busbarsection的字段code相同,且name必须相同;fj_global_ems.busbarsection的字段id,code和fjudm4.hive_mr_ems_oms_busbarsection的字段id,code这两个字段都相同,且name也必须相同其中name是在这三个表2次流转过程中都相同的字段流转次数配置成动态的次数;id活code这些流转过程中相同的字段也配置成动态可配置的。

      2.4 拓扑连接校验(1) 拓扑连接点非悬空校验设备的连接点(nd或ind或jnd等)没有连接其他设备,即该连接点空挂2) 拓扑连接设备的属性一致性校验关联到同一连接点的设备所属电压等级、所属基准电压、所属厂站需一致2. 数据校验规则3. 模型数据关联校验二、 模版示例HIVE单表和多表关联的校验模版如下:里面已经包含了各种规则的具体填写方式,请按照示例填写双击可打开:具体例子如下:该例子是按照《数据清洗校验规则-V2.0-20160715.docx》配的以下两文件,双击可打开: 三、 如何填写配置文件第一部分为描述:该部分如下,可随意填写,不影响校验任务第二部分为任务参数:如模版里所示,写在里1.任务类型,值必须为HDFS或HIVE2.如注释所写,这个属性是HIVE里的是否优先级方式校验,如果有一个不满足就不再进行其他校验则写true,一般都是写false 全部规则全都校验3.同一个表的单表校验写在同一个里,这样任务可以生成一个任务链来校验4.其他一些基本的里的校验参数,这些根据注释即可知道意义 第三部分为校验规则,其中单表校验规则写在 标签里1.同一个字段的多个规则写在 里,不同的字段在里多写几个即可2.规则写在里,不同的规则多写几个即可。

      3. 是规则名称,按照hive或hdfs里规定的名字去写4. 是规则的值,比如枚举值校验,这里面写“1,2,3”-----------------------------------------------------------------------------------HDFS因HDFS校验待测试和一些规则待整理,该部分暂时未编写。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.