1、DataaStaage企企业版白白皮书之之一目录1.绪论论31.1先先进的开开发和维维护31.2完完整的开开发环境境51.3企企业级实实施和管管理81.4高高扩展的的体系架架构1111.5端端对端的的企业级级元数据据管理1132.附录录A:DattaSttagee企业版版内嵌的的扩展SStagge1773.附录录B:扩展展连接2224.1. 绪论DataaStaage企企业版是是IBMM公司所所有企业业整合系系列产品品中关键键产品。企业版版支持大大容量数数据的收收集、整整合和转转换,数数据从简简单结构构到很复复杂的结结构。基基于高可可扩展性性的软件件架购,企业版版使得企企业能够够通过高高性能来来解决大大部分业业务问题题,并行行处理大大容量数数据。强强大的企企业元数数据管理理能力使使得可以以在数据据整合生生命周期期中在所所有工具具中共享享和使用用工具。DataaStaage企企业版发发布了四四个核心心功能来来成功实实施企业业数据整整合:先先进的开开发和维维护;完完整的开开发环境境;企业业级实施施和管理理;高扩扩展的体体系架构构;端对对端的企企业级元元数据管管理。1.1 先进的开开发和维维
2、护DataaStaage企企业版提提供了全全面的功功能去最最优化用用户在建建立、升升级和管管理数据据整合架架构时的的速度、灵活性性和效率率。DaataSStagge企业业版增强强的功能能减少了了学习的的周期、简单化化了管理理和优化化了开发发资源的的使用,减少了了数据整整合应用用的开发发和维护护周期。结果,DattaSttagee企业版版使得企企业能够够花更少少的时间间开发他他们的整整合应用用,更多多的时间间是不断断的从中中受益。DataaStaage企企业版使使用了CClieent-serrverr架构,如下所所示。图一、DDataaStaate企企业版CClieent-Serrverr架构用户通过过各个客客户端工工具访问问DattaSttagee企业版版的开发发、配置置和维护护功能。这些工工具包括括:Desiigneer:用用来建立立和编辑辑DattaSttagee作业和和表的定定义。DDesiigneer中的的“Jobb Seequeenceer”控制作作业的执执行,其其他作业业成功完完成(或或失败,等)的的条件。Admiinisstraatorr:用来来执行管管理任务务,如建建立
3、DaataSStagge用户户、建立立和删除除工程并并且建立立清洗标标准。Manaagerr:用来来编辑管管理用户户工程的的DattaSttagee资料库库。Direectoor:用用来验证证、时序序安排、运行和和监测企企业版作作业。如图一所所示,DDataaSagge企业业版的服服务器组组件运行行在一系系列的流流行服务务器上,如Unnix、Winndowws等。1.2 完整的开开发环境境用户使用用DattaSttagee企业版版的Deesiggnerr组件建建立企业业版数据据整合应应用。企企业版设设计是基基于数据据流的概概念。数数据流使使得用户户非常容容易建立立和理解解应用。用户在在一个强强大的图图形化调调色板上上通过一一系列的的功能组组件(SStagge)标标示数据据集合的的流程来来构建一一个数据据整合应应用。一一个完整整的数据据流图(DattaSttagee作业),从一一个永久久存储的的数据源源开始,并且执执行一系系列的增增值转换换和其他他处理操操作,最最后加载载数据到到一个永永久的存存储。但但是,企企业版DDesiigneer开始始使用户户可以灵灵活从任任何地方方可以建建立作业
4、业:从上上到下、从下到到上、从从中间开开始。一一个完整整的企业业版数据据流图如如图二所所示。图二、DDataaStaage企企业版数数据流图图示在建立一一个企业业版数据据流图表表时,通通过一系系列的处处理步骤骤对庞大大的数据据集合构构架顺序序流。用用户不需需要担心心如何在在多处理理器计算算机上运运行该应应用。企业版对对数据整整合应用用工作流流的顺序序描述和和在生产产环境中中应用的的并行执执行做了了一个清清晰的区区分。企业版处处理数据据集 (datta sset)。数据据集就是是对通过过数据流流程的记记录的收收集。一一个数据据集可以以是屋里里放置在在磁盘上上,也可可以是虚虚拟放置置在内存存中。数数据在数数据流中中的Sttagee中移动动使用的的是虚拟拟的数据据集,这这样可以以大大提提高性能能;分区区(在后后面介绍绍)是在在Staage的的属性中中设置的的。企业版提提供了多多个内嵌嵌的Sttagee来执行行通用的的数据整整合任务务,如SSortt、Meergee、jooin、fillterr、Trranssforrm和AAggrregaate。更完整整的内嵌嵌Staage列列表参考考本文档
5、档的Apppenndixx A。每个企企业版SStagge是一一个完整整的功能能组件,已经在在多处理理器系统统中高吞吞吐量和和高性能能并行执执行过。这些SStagge根除除了为通通常的数数据处理理应用进进行编码码的需要要。用户户可以在在企业版版Dessignner GUII中找到到这些内内嵌的SStagge。用用户可以以使用SStagge的下下拉菜单单来这只只Staage的的参数。企业版版Agggreggatoor SStagge的编编辑器如如下所示示。图三、企企业版编编辑Agggreegattor Staage图图标和SStagge编辑辑器例子子企业版TTrannsfoormeer SStagge是一一个强大大和灵活活的组件件,允许许用户对对inpput linnk输入入的数据据进行转转换。并并且将数数据传到到另一个个活动的的Staage或或者将数数据写到到目标数数据或文文件。TTrannsfoormeer编辑辑器(如如下所示示)使得得用户可可以在iinpuut llinkk和ouutpuut llinkk间简单单建立mmapppingg,并且且可以使使用BAASICC等语言言建立任
6、任意转换换。这些些转换可可以并行行执行来来提高吞吞吐量和和性能。企业版版提供了了超过1100个个内嵌的的功能,另外可可以用CC或C+编写写的rooutee在转换换中使用用和进行行互操作作。图四、企企业版TTrannsfoormeer SStagge图标标和Sttagee编辑器器例子DataaStaage企企业版内内嵌的SStagge包括括高性能能访问(加载和和读)关关系型数数据库的的强大组组件,包包括并行行的关系系型数据据库。例例如,企企业版的的Oraaclee Sttagee提供了了一个访访问Orraclle表的的高性能能并行接接口。OOraccle Staage支支持Looad和和Upssertt写方式式和支持持表和查查询的读读方式。企业版版也可以以利用DDB2强强大的数数据库分分区特性性和Teeraddataa的高性性能、并并行数据据加载和和导出。另外,DDataaStaage企企业版提提供了一一些Sttagee可以使使得SAAS用户户在大容容量数据据上执行行SASS。Paaralllell SAAS DDataa Seet SStagge通过过SASS Sttagee的连接接从
7、一个个并行的的SASS数据集集中读取取和写入入数据。通过利利用并行行硬件执执行平台台和并行行关系型型数据库库,这些些SASS Sttagee能够将将大大增增强需要要进行处处理和分分析大数数据量的的SASS的吞吐吐量和性性能。企业版的的内嵌扩扩展Sttagee提供了了数据整整合应用用中800到990的的最常用用的逻辑辑需要。另外,企业版版提供了了许多机机制用来来建立自自定义的的Staage:n Wrapppedd允允许并行行执行一一个顺序序程序。n Builld允许自自动并行行执行自自定义SStagge的CC语言表表达式。n Custtom 提供了了完整的的CAPII,来开开发复杂杂和扩展展的Sttagee。基于组件件架构和和扩展内内嵌组件件类库的的DattaSttagee企业版版消除了了对传统统编码方方式的需需要,最最大化了了组件的的重复使使用。对对于可扩扩展的数数据整合合应用来来说,企企业版开开放的和和可扩展展的架构构使得整整合第三三方软件件工具和和已存在在的程序序更加容容易。Stagge和作作业的单单独分区区,包括括每一个个Staage的的联合分分区、元元数据(表定义义)和TTra
8、nnsfoormeer转换换定义,可以在在共享容容器 (Shaare Conntaiinerr) 中中被其他他用户重重复使用用。共享享容器允允许用户户提高产产品性和和在用户户和工程程间共享享。作业模板板 (JJob Temmplaate)进一步步提升了了效率。用户能能够比以以前更快快地启用用已定义义好的模模板。同同时,标标准化的的模板也也提供给给用户一一个高效效的起始始点。智能帮助助提供建建造从简简单到复复杂的作作业。用用户通过过一系列列的询问问,智能能帮助可可以象魔魔术师一一样输出出一个DDataaStaage企企业版作作业或作作业序列列。他们们使用元元数据智智能提示示用户答答案和输输出最后后的结果果。Asceentiial载载入一些些智能助助手,一一个建立立纬度缓缓慢变化化 (SSloww Chhanggingg Diimennsioon) 的星型型架构 (Sttar Schhemaa) 的的数据库库(类型型1、22、3支支持)。1.3 企业级实实施和管管理许多大的的公司都都有他们们自己在在复杂生生产环境境下的配配置、时时间序列列、监测测和管理理应用的的标准。DattaSttage
9、e企业版版提供了了灵活功功能来迎迎合这些些需要。首先,DDataaStaage提提供了一一个图形形化的作作业顺序序器 (Jobb Seequeenceer),允许用用户定义义作业执执行的序序列。设设计一个个作业序序列就象象设计一一个作业业。用户户在DaataSStagge中设设计作业业序列。从工具具条增加加一个AActiivittiess(相对对于Sttagee),并并且通过过Triiggeer进行行连接用用以定义义控制流流。每个个acttiviity都都有属性性,可以以在trriggger表表达式中中测试并并且传到到序列前前面的其其他的aactiivitty中。Actiivitty也可可以有参参数,可可以用来来支持jjob参参数或rrouttinee参数。Job序序列可以以有自己己的属性性和参数数,这些些属性和和参数可可以顺序序传到aactiivitty中。序列也也可以包包括控制制信息,例如,序列中中jobb的成功功或失败败影响活活动的走走向。一一旦joob序列列被定义义完成,可以在在任何提提供的接接口(下下面做详详细的介介绍)中中建立时时间顺序序和执行行。图五、DDataaStaage Jobb序列例例子其次,企企业版提提供了DDireectoor和MManaagerr的图形形化功能能。象前前面说过过的,mmanaagerr是用来来管理工工程的,包括导导入和导导出组件件,用来来将应用用配置到到产品。Dirrecttor用用来建立立时序,执行和和监测jjob(或joob序列列)。另外,企企业版提提供了ccommmanddliine、APII和weeb sservvicees用来来对应用用进行配配置、执执行、监监测和管管理。JJob能
《产品白皮书之一DataStage》由会员ni****g分享,可在线阅读,更多相关《产品白皮书之一DataStage》请在金锄头文库上搜索。