datastage入门教程
17页1、简介DataStage 使用了 Client-Server 架构,服务器端存储所有的项目和元数据,客户端 DataStage Designer 为整个 ETL 过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。Datastage 的可运行单元是 Datastage Job ,用户在 Designer 中对 Datastage Job 的进行设计和开发。Datastage 中的 Job 分为 Server Job, Parallel Job 和 Mainframe Job ,其中 Mainframe Job 专供大型机上用,常用到的 Job 为 Server Job 和 Parallel Job 。本文将介绍如何使用 Server Job 和 Parallel Job 进行 ETL 开发。Server Job一个 Job 就是一个 Datastage 的可运行单元。Server Job 是最简单常用的 Job 类型,它使用拖拽的方式将基本的设计单元 -Stage 拖拽到工作区中,并通过连线的方式代表数据的流向。通过 Server Job,可以实现以
2、下功能。1. 定义数据如何抽取2. 定义数据流程3. 定义数据的集合4. 定义数据的转换5. 定义数据的约束条件6. 定义数据的聚载7. 定义数据的写入Parallel JobServer Job 简单而强大,适合快速开发 ETL 流程。Parallel Job 与 Server Job 的不同点在于其提供了并行机制,在支持多节点的情况下可以迅速提高数据处理效率。Parallel Job 中包含更多的 Stage 并用于不同的需求,每种 Stage 使用上的限制也往往大于 Server Job。Sequence JobSequence Job 用于 Job 之间的协同控制,使用图形化的方式来将多个 Job 汇集在一起,并指定了 Job 之间的执行顺序,逻辑关系和出错处理等。数据源的连接DataStage 能够直接连接非常多的数据源,应用范围非常大,可连接的数据源包括: 文本文件 XML 文件 企业应用程序,比如 SAP 、PeopleSoft 、Siebel 、Oracle Application 几乎所有的数据库系统,比如 DB2 、Oracle 、SQL Server 、Sybas
3、e ASE/IQ 、Teradata 、Informix 以及可通过 ODBC 连接的数据库等 Web Services SAS 、WebSphere MQ Server JobServer Job 中的 Stage 综述Stage 是构成 Datastage Job 的基本元素,在 Server Job 中,Stage 可分为以下五种:1. General2. Database3. File4. Processing5. Real Time本节中将介绍如何使用 Datastage 开发一个 Server Job。如图 1 所示:图 1. Server Job点击查看大图Sequential File StageSequential File Stage 可用来从一个 Sequential 文件中获取源数据或将数据加载到一个 Sequential 文件中。在使用 Sequential File Stage 时需要指定文件的路径和名称,文件的格式,列的定义和文件写入的类型(覆盖或追加)。图 2. Sequential File 属性框点击查看大图图 3. Sequential File
4、列定义点击查看大图上图是本节例子中使用到的 Sequence File。在 Input 页中,File Name 参数代表文件的实际路径,如果文件不存在将会被自动建立。Update Action 中选择 Overwrite existing file 表示此文件在加载数据之前将被清空;在 Format 页中,定义文件的格式,例如分隔符,NULL 值,首行是否为列定义等;在 Column 页中,需要输入文件的列定义。Hash File StageHash File 以主键将记录分成一个或多个部分的文件,在 Datastage 中通常被用做参考查找。在进行参考查找的时候,Hash File 文件会被加载到内存中,因此具有较高的查找效率。和 Sequence File 类似,使用 Hash File 时需要输入文件的实际地址,通过参数设置写入时的选项,并提供数据的列定义。需要注意的是,Hash File 需要指定主键,如果未指定,第一列被默认为主键。进行参数查找时,使用主键值在 Hash File 中搜索,如果找到则返回该数据,如果未找到则返回 NULL 值。图 4. Hash File 属
《datastage入门教程》由会员小**分享,可在线阅读,更多相关《datastage入门教程》请在金锄头文库上搜索。
2020年高考真题——理科综合(全国卷Ⅲ)+Word版含答案
2021年绝味鸭脖策划书
2021年熟食店创业方案
2021年熟食店开店策划
2021年卤菜店创业计划书
2021年周黑鸭网络营销策划方案
东大21年1月考试《现代设计方法》考核作业
谈我国行政管理效率的现状及其改观对策(论文)
单证员考试-备考辅导-复习资料:无贸易背景信用证案分析.docx
土木工程毕业生答辩自述.docx
建筑学毕业后工作状态真实写照.doc
C#代码规范(湖南大学).doc
xx区食药监局2019年工作总结及2020年工作计划
2019年中医院药物维持治疗门诊工人先锋号先进事迹
2019年度xx乡镇林长制工作总结
2019年性艾科工作计划书
2019年人才服务局全国扶贫日活动开展情况总结
关于组工信息选题的几点思考
摘了穷帽子 有了新模样
2019年某集团公司基层党支部书记培训班心得体会
2024-03-21 40页
2024-03-21 32页
2024-03-21 44页
2024-03-13 36页
2024-03-13 12页
2024-03-13 15页
2024-03-13 35页
2024-03-04 55页
2024-03-04 57页
2024-03-04 137页