您所在位置：网站首页 > 高等教育 > 研究生课件 > DataStage企业版产品白皮书之二

DataStage企业版产品白皮书之二.doc

23页

卖家[上传人]：汽***

文档编号：513939635

上传时间：2023-01-16

文档格式：DOC

文档大小：298.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 23 举报版权申诉马上下载

文本预览

下载提示

常见问题

DataStage企业版白皮书之二并行架构的五种关键要素目录1. 并行情况 52. 数据流架构 83. 可伸缩硬件环境支持 153.1.1 并行数据库连接 203.1.2 超越ETL——能够整合原厂软件和第三方软件的可扩展框架 233.1.3 参考文献 253.1.4 关于Ascential 26经营综述.................................................28如今的竞争环境和市场压力迫使各个公司不断提高产量和效率尤其是当一个企业能够在整个企业范围内利用其公司信息时，情况更是如此但数据量一直快速增长，并将持续如此IDC预测，全部数据仓库中将有68%在未来三年内至少会翻翻已经大于6TB的数据仓库中将有73%在未来三年内至少会翻翻为了满足企业整合和保持竞争力的商业需要，公司必须努力改善从前所未有的扩展来源涌入其系统的新数据的种类、数量和速度它们需要将其所有公司数据集成在一起，尽快提交给最终用户，以实现其价值最大化同时它们还要更精细地集成数据，在单笔交易级别进行处理，而不是单于处理总的概括性数据随着数据量不断增长和性能要求不断提高，架构必须能够与组织一道成长。

最重要的是，这种架构不应存在上限，并且应该能够与硬件环境成线性增长为解决这些困难，公司需要一种可伸缩的数据集成架构，它应该具有下列特性：1. 一种数据流架构，允许数据从输入到输出进行处理，无需存储到硬盘，批量并实时处理2. 动态数据分割和未定数据重新分割3. 可扩展硬件环境，可以跨SMP移植，簇环境，MPP平台，无需更改下层应用程序代码4. 支持主要的并行数据库，包括IBMDB2UDB、Oracle和并行和分割的配置下的Teradata5. 一种可整合原厂商软件和第三方软件的可扩展框架应当和向硬件环境中添加处理器或节点一样简单实际上，这些硬件升级可以在不更改下层应用的情况下进行测试基准的实际情况将证实这一点对CRM、运行和销售的优势采用并行基础结构，一家电信公司将能够把其在长途业务市场的营销活动从每月4个增加到40个，从而提前18个月获利一家运输公司开发了一种收益管理应用程序，这个程序允许其在一天内最多对业务重新定价四次，每年总计创收1亿美元一家银行只能从其数据仓库中获取概括性数据，但是概括级别的数据却无法执行高价值分析通过采用一种允许其分析更精细的客户交易数据并使SAS并行运行的并行基础结构，预计每年将额外创造盈利1亿美元。

据WinterGroup预测，规模在100到200兆兆字节原始数据的数据仓库将于2004年底前实用化，届时将可并发执行2,000个查询操作，占用磁盘空间将达到约一千兆兆字节（1,000兆兆字节）1. 并行情况本文是为那些负责设计、构造、支持和使用可伸缩数据处理系统的商业和技术决策人士而准备的数据量在增长因此需要能够更快地访问最新的交易数据数据仓库规模图1.数据仓库的规模和百分比来源：IDC100GB-999GB数据仓库三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率<25%成长率数据仓库>6TB三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率<25%成长率图2.预计未来三年数据仓库增长率来源：IDC1据2003年3月31日InformationWeek杂志报道IDC估计超过30%的数据仓库其规模在500千兆字节和2兆兆字节之间，如图1所示令人印象深刻的是预计将在未来七年内发生的爆炸性增长IDC预测，全部数据仓库中将有68%在未来三年内至少会翻翻已经大于6TB的数据仓库中将有73%在未来三年内至少会翻翻1据IDC调查，最大的数据仓库通常是在银行/金融、保险、零售/批发、以及保健/医疗/制药行业。

数据仓库>1TB三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率<25%成长率所有数据仓库三倍以上两倍以上100%成长率51%-99%成长率25%-50%成长率<25%成长率是什么在推动这种成长？因素是多方面的为具有竞争力，企业需要获得更精细的单笔交易详细数据，而不只是总计数据同时它们还需要能够更快地获得这些数据，以便应对快速变化的市场和竞争压力请考虑一下下面这些示例，每个示例具有下述特点：为了能够更快地做出商业决策，一家在北美地区拥有将近2000家店铺的大型零售企业希望每隔15分钟汇集一次发生在每个店铺物的交易数据，这些店铺每小时可能会发生数百次交易，因此数据量和性能要求都非常高货币交易是一种24小时全天候业务；经纪行需要实时向交易人提供数据，以应对市场变化一家美国电信公司打算一年内将其提供长途业务的地区从2个州扩展到14个州，这期间用于公司市场营销活动的数据量和处理要求以及数据仓库将会出现极大增长据Gartner估计，虽然只有10%的企业每天收集数据，但在未来几年内将有超过30%的企业过渡到每天或以更高的频率更新数据为支持这种日益增长的数据量、种类和速度，以及从每月或每周批量执行到每日甚至到分钟数据的过渡，企业数据仓库的构造者和用户需要有一种高性能且可伸缩的架构。

但是请注意，并不是所有“高性能”架构都一样并行处理”和“可伸缩性”之类的术语对于不同的厂商、分析家和业界专家来说具有不同的涵义本文论述了五种关键要素，IT企业在评估一个高性能和可伸缩的数据基础结构解决方案时必须考虑到这些要素并行架构的这五种关键要素为：1 一种数据流架构，允许数据从输入到输出进行处理，无需存储到硬盘，批量并实时处理2. 动态数据分割和未定数据重新分割3. 可伸缩硬件环境，可以跨SMP移植，簇环境，MPP平台，无需更改下层应用程序代码4 并行RDBMS支持，包括IBMDB2UDB、Oracle和并行和分割配置下的Teradata5 一种可整合原厂软件和第三方软件的可扩展框架2. 数据流架构在涉及与全局性的、具有高度伸缩能力的数据仓库应用有关的关键问题时，IT和数据管理人员一般希望在一个流程中完成许多步骤——从源机器拾取数据，对数据进行转换、增补，最后将其传送到企业数据仓库中或其他系统如数据集市或OLAP工具中，同时还要尽量减小甚至彻底消除步骤之间访问磁盘存储的需要IT开发企业将需要一种建立在应用程序编程和执行的数据流模型基础上的数据集成平台和并行处理框架，这种模型允许开发人员以可视方式创建顺序数据流。

数据可来自多种数据源，例如平面文件、数据库或应用程序（SAP、JDEdwards等）如果是实时数据提供的情况，源数据可能是消息，这时数据流将“一直有”，而不是在预定的应用程序/数据库才有但这是仅有的区别两种情况下，基于数据流架构而出现的高吞吐量仍然十分重要数据仓库加载增补转换源数据源目标图3.数据流架构传统的数据集成应用程序通常在一个步骤内处理所有数据，并且一般要在开始应用程序中的下一个步骤之前将数据写入磁盘这样就会存在一个“开始－停止－开始”序列，使应用程序产生停顿，从而严重降低性能同时这种处理方式还会造成不稳定的磁盘使用量，一个简单作业的一次执行会轻易占用原始源数据占用磁盘空间的4到7倍，使磁盘管理如同噩梦这种处理方式很快就变得不适合大数据量应用——磁盘I/O占用了大量处理，并且还需要兆兆字节的磁盘容量用于临时存储存档数据磁盘磁盘磁盘加载增补转换操作数据源目标图4.传统的批处理方式数据流水线技术消除了不断读写磁盘的需要，它通过共享存储器和流水线，甚至可以在上游处理还没有完成的时候，一旦数据可用就立即将其从上游处理传送到下游处理记录数量9,001每段1000个记录到100,000,000 第8段第7段第6段第5段第4段第3段第2段第1段数据仓库加载增补转换操作数据归档数据源目标图5.数据流水线为了更加精确，数据将被（或可以被）缓冲形成批量，以避免在执行一个组件或下一个组件时每个处理对系统性能造成重大影响。

这有效避免了死锁的发生，并通过允许上游和下游处理并发执行而极大地提高了性能如果不采用支持数据流水线的数据流架构，将意味着：必须在每个处理之间将数据存储到磁盘，使性能严重下降，存储要求大大提高，并使磁盘管理如同噩梦开发人员必须对每个组件之间的I/O处理进行管理对大数据量应用无法适用由于磁盘的使用、管理和设计复杂性增加，因此这种应用程序的速度将会比较慢并行：（名词）将一个问题分解成很多较小的问题，以并行的方式加以解决2虽然流水线改善了性能并消除了中间数据分段处理，但由于只有一个数据流在执行，因此可伸缩性仍然存在限制为实现多处理器系统，必须采用数据分割，允许对分离的数据分割并行执行应用程序逻辑的多个实例数据分割非常适合许多商业数据处理应用程序使用，因为数据记录通常只按照一个变量划分（例如客户帐户号码、邮政编码或交易日期），因而能够通过应用程序逻辑的并行执行而受益图6显示了以A-F开头的客户姓名划为一组（处理器）执行，以G-M开头的客户姓名划为另一组执行，等等处理器4处理器3处理器2处理器1转换转换转换转换U-ZN-TG-MA-F源数据图6.数据分割图7显示了通过对分割的数据执行应用程序逻辑的多个实例实现的并行机制。

分割流水线数据仓库加载增补转换源数据目标图7.数据分割和并行执行2参考：韦伯斯特辞典可伸缩架构应当支持许多数据分割类型，包括：键（数据）值范围循环随机整体模数数据库分割（例如DB2）缺少这种能力的典型工具套件要求开发人员采用“硬连接”方式实现数据分割，只要管理员想使用更多硬件容量，就需要对应用程序或数据分割进行重写，成本高昂，费时费力这一过程有时需要长达数周或数月的开发和生产前测试请记住，开发人员应当不必关心将要执行的分割的数量、增加分割数的能力，以及更重要的，数据的重新分割在上例中，根据客户的姓氏对数据进行了分割，并在整个流程中维持这一数据分割在很多应用中，这是不实际的请考虑这样一种变换，该变换基于客户姓氏，但出于家务目的，增补处理需要发生在邮政编码部分，随后需要基于客户的帐户号码加载到数据仓库中（下面有更多并行数据库接口）采用未定或动态数据重新分割技术时，将基于传输过程中所需的下游处理数据分割在处理器之间对数据进行重新分割，从而不需要将数据存储到磁盘就是说这将在存储器中完成请记住，当数据可用时也会通过流水线将其向下游处理传递流水线重新分割分割数据仓库加载增补转换源数据目标客户姓氏客户邮政编码信用卡号码图8.未定数据重新分割典型数据工具不能动态重新分割数据；它们需要对每个处理单独手动“映射”，强迫数据在步骤之间多次写入磁盘，以完成每个数据流程。

根据处理和数据大小的情况，这些I/O的延迟将使处理时间增加2到10倍甚至更高不采用分割和未定数据重新分割技术。

点击阅读更多内容