
数据校验手册.docx
10页数据质量校验说明手册-------------------------------------------HIVE一、 目前支持的所有校验规则1. 模型校验规则包括单字段校验、多表多字段关联校验1) 单字段校验1.1 非空(exist)字段不能为空,如果为空则数据不符合要求具体配置文件填写方法:1.2 必须为空(nexist)字段必须为空,如果不为空则数据不符合要求1.3 列的最大长度(maxLength)字段的值的长度不能大于参数指定的最大长度,如果大于则数据不符合要求1.4 列的最小长度(minLength)字段的值的长度不能小于参数指定的最小长度,如果小于则数据不符合要求1.5 不包含空格(ncontainsBlank)字段的值不包含空格1.6 不包含回车(ncontainsEnter)字段的值不包含回车,即\r 1.7 不包含换行符(ncontainsEnterN)字段的值不包含换行符,即\r 1.8 不包含Tab(ncontainsTab)字段的值不包含Tab,即\t 1.9 字符等于(stringValue)字段的值等于规则里写的字符串1.10 字符不等于(nstringValue)字段的值不等于规则里写的字符串。
1.11 值小于(valueLess)字段的值是个数字,且必须小于规则里指定的数1.12 值大于(valueMore)字段的值是个数字,且必须大于规则里指定的数1.13 值等于(valueOf)字段的值是个数字,且必须等于规则里指定的数1.14 值不等于(nvalueOf)字段的值是个数字,且必须不等于规则里指定的数1.15 值为0(zero)字段的值是个数字,且必须等于01.16 值属于(枚举值)(valueIn)枚举值判断:规则里写下 11,12,13,14 这些值,用逗号隔开然后程序把这些转化为一个数组11 12 13 14 ,字段的值是这几个数字里的其中1个即满足规则1.17 值属于(包含)(valueBetween)Between判断:规则里写下11,12,13,14这些值,用逗号隔开然后程序把这些转化为一个数组11 12 13 14,假如字段的值的一部分包含数组里其中某一个数字即满足规则比如字段的值是110,那么110包含11,满足规则1.18 连接点号校验(ndLong)校验连接点号(nd或ind或jnd等)是否按规范填写具体规则如下:连接点号是8字节long型,高4位为0,第3字节保存区域号,第0-2字节保存节点号,需要校验连接点号是否按该规则填写,区域号是否属于该地区。
注:福建省调(区域号35)模型不考虑该规则1.19 唯一性校验字段的值全表唯一有重复的则重复的不符合规则,需记录到日志里
2.4 拓扑连接校验(1) 拓扑连接点非悬空校验设备的连接点(nd或ind或jnd等)没有连接其他设备,即该连接点空挂2) 拓扑连接设备的属性一致性校验关联到同一连接点的设备所属电压等级、所属基准电压、所属厂站需一致2. 数据校验规则3. 模型数据关联校验二、 模版示例HIVE单表和多表关联的校验模版如下:里面已经包含了各种规则的具体填写方式,请按照示例填写双击可打开:具体例子如下:该例子是按照《数据清洗校验规则-V2.0-20160715.docx》配的以下两文件,双击可打开: 三、 如何填写配置文件第一部分为描述:该部分如下,可随意填写,不影响校验任务第二部分为任务参数:如模版里所示,写在
3.
