
kettle实践经验总结.docx
19页数据抽取工具Kettle实践经验小结 杭州州力数据-陈力同步数据常见的应用场景包括以下4个种类型:1.只增加、无更新、无删除 12.只更新、无增加、无删除 33.增加+更新、无删除 44.增加+更新+删除 55.调用存储过程 71无参数输入: 72、有参数输入 81.只增加、无更新、无删除对于这种只增加数据的情况,可细分为以下2种类型:1) 基表存在更新字段通过获取目标表上最大的更新时间或最大ID,在“表输入”步骤中加入条件限制只读取新增的数据这里要注意的是,获取最大更新时间或最大ID时,如果目标表还没有数据,最大值会获取不了其中的一个解决方法是在“获取最大ID”步骤的SQL中,加入最小日期或ID的联合查询即可,如:SELECT MAX(ID) FROM(SELECT MAX(ID) AS ID FROM T1 UNION ALL SELECT 0 AS ID FROM DUAL)2) 基表不存在更新字段通过“插入/更新”步骤进行插入插入/更新步骤选项:2.只更新、无增加、无删除通过“更新”步骤进行更新更新选项:3.增加+更新、无删除通过“插入/更新”步骤进行插入。
区别是“插入/更新步骤”中的选项,去掉“不执行任何更新”的勾选:4.增加+更新+删除这种数据同步情况,可细分为以下2种情况:1) 源库有表保存删除、更新和新增的信息通过条件判断,分别进行“插入/更新”和“删除”即可,如下图所示2) 源库没有保存增删改信息Kettle提供了一种对比增量更新的机制处理这种情况,可通过“合并记录”步骤实现,该步骤的输入是新旧两个数据源,通过关键字进行数据值比对,对比结果分为以下4种类型:“Identical” : 关键字在新旧数据源中都存在,域值相同“changed” : 关键字在新旧数据源中都存在,但域值不同“new” : 旧数据源中没有找到关键字“deleted”: 新数据源中没有找到关键字两个数据源的数据都进入下一步骤,上述4种结果类型作为输出表的标志字段进行保存以下为示例:Ø 源数据库测试脚本create table k1 (f1 varchar2(200),f2varchar2(200))truncate table k1;insert into k1(f1,f2) values('1','11');insert into k1(f1,f2) values('2','22');insert into k1(f1,f2) values('5','5');commit;Ø 目标数据库测试脚本create table k1 (f1 varchar2(200),f2varchar2(200))truncate table k1;insert into k1(f1,f2) values('1','1');insert into k1(f1,f2) values('2','2');insert into k1(f1,f2) values('3','3');insert into k1(f1,f2) values('4','4');commit; 合并过程如下:其中“合并记录”步骤的选项:执行后,查询K1_TEST结果如下:可以看到,该结果表的BZ字段保存了更新、删除、新增的记录信息,通过条件分支即可分别对这些记录进行相应的处理。
条件”选项:5.调用存储过程调用存储过程主要是分为,有参数输入与无参数输入两类1无参数输入:输入存储过程名称直接调用即可,但需要设置返回值(在参数设置中配置好)2、有参数输入此类比较常见,也比较复杂1)变量值固定:首先,在转换中设置变量对调用存储过程的转化进行配置:此3步骤的配置如下:注意:获取系统信息中的类型中的命令行参数X,指的就是下一步中对应的位置参数!故,在每次点击执行作业job(一个作业可能包含多个转换transform)时,需要配置或者核对参数值最后,点击开始运行你的作业,出现如下,在“位置参数”部分写上对应的值然后点击执行(这中方法当然是要在配置好与调用存储过程相匹配的变量获取后才行)此类参数经常作为查询或者同步数据用2)、当你需要的变量值,不是事先固定写死的,而是需要动态从数据库中某一张表中获取后,传入时,就不能直接在kettle系统的变量设置中配置变量了执行这一过程的,作业(job)如下:2.1 “获取ynzybi跟新时间(DB2数据库)”首先从,ynzybi(DB2)数据库的表SYNNO1DATASTATE中获取要同步数据的最后跟新时间lastupdatetime,并设置变量lasttime,如下图:2.2 “获取DC日期区间(Terdate数据库)”根据前一步获取的lasttime,从数据中心(terdate数据库)表K_COM_D_ALL中获取2个时间区间节点,并设置对应的变量。
注意,在执行时,一定要在“替换SQL语句里的变量”选项打钩,这样才会自动替换SQL语句中的'%%lasttime%%',否则或报错!在windows环境下,变量的替换格式均为%%变量名称%%2.3 “删除ynzybi表中时间区间内的数据”此转换中,就只有一个东东,既执行SQL脚本SQL脚本的设置:2.4“插入ynzybi数据”在上一步中,已经将ynzybi(DB2)数据库中的DC_K_COM_D_ALL表中对应区间的数据全部删除,接下来只需直接从Terdate数据库的K_COM_D_ALL表中抽取对应时间段内的数据全部插入到ynzybi(DB2)数据库的DC_K_COM_D_ALL表中,即可完成不同类型数据库中,不同表中数据的同步这里之所以这么大费周章,先删除后插入原因是在于,使用Kettle中自带的“数据同步”或者“更新/插入”转换,效率很低,每条数据都要merge一次,大概才100条数据左右/秒对于大量数据的更新同步,太耗时间了,下图是“插入ynzybi数据”转换的截图:下图是“表输入”和“表输出”的配置图: 表输入表输出注意:1.勾选“批量插入”,后可以大幅提高数据插入表的速度!2.勾选“忽略插入错误”,后插入过程中遇到某些原因,某些数据不能插入,将会被忽略,程序继续执行,不报错,但会有日志显示。
不选的话,遇到插入错误,就报错,转换停止!3.勾选“制定数据库字段”后,在数据库字段中就可以选择需要插入的字段 表输入b2.5“调用存储过程”转换过程图如下:表输入的设置图入下:注意:这的表输入,其实不需要任何一个表中的数据,其中SQL语句入下:“select '%%begindate%%' as v_dt1,'%%enddate%%' as v_dt2,'%%dc_updatetime%%' as dc_updatetime from sysibm.sysdummy1”这条语句从表中不选任何数据(sysibm.sysdummy1表,可以是你数据库中任何一张表)而是获取前面步骤中设定好的变量值,传到调用存储过程中去,作为输入参数之所以这么弄,是因为试了好多方法,去没能将前面步骤中的变量直接获取传入到存储过程中去故采用这种看似笨的方法,但很实用调用存储过程配置图:调用成功全过程结束!。
