招商银行数据仓库方案.doc
59页1招商银行数据仓库方案建议书I目目 录录2第一章 前言 第二章 建议方案简介 第三章 硬件产品介绍 第四章 软件产品介绍 第五章 项目计划附录一 成功案例 附录二 IBM可以提供的服务 附录三 项目进度计划安排参考 附录四 产品报价第一章第一章 前言前言作为一个发展中的银行,总部位于我国南方著名经济特区深圳市3的招商银行的成长令人瞩目为了在五年内成为全国著名的银行,进 入世界大银行的排行榜,招商银行的决策者们制订了一整套行之有效 的计划,而作为现代化管理的一部分,与国际上先进的模式接轨,计 算机管理自然成为相当重要的一部分招商银行与世界信息产业的领 导者,美国国际商业机器公司,简称 IBM 合作,将其业务系统成功 运行在AS/400 平台之上,成功地迈出了计算机管理的第一步但是他 们并不满足于目前的状况,发扬一向紧跟新科技的传统,决定对目前 的业务数据作进一步的处理,将静态的数据转化为决策支持的依据 所以,准备采用目前信息产业界极为先进的数据仓库技术,完成招商 银行的决策支持系统,以进一步提高公司的实力和竞争力而世界上 最大的软件及咨询服务公司 IBM,将以其在该行业雄厚的实力和数十 年丰富的经验,为招商银行提供一套完整的解决方案,使招商银行的 管理能力再上一个台阶。
本方案以先进性和可扩展性为原则,使招商 银行的数据仓库系统既可以保证在几年内技术和设备不落后,使之站 在世界计算机发展潮流之上,又可以根据业务的高速发展,很方便地 升级,以达到业务发展需求的性能 先进性方面,IBM 提供的硬件平台是具有最强劲处理能力的 RS6000 SP 系列并行机,它综合业界的最高端技术,具备无与伦比的 处理能力和可扩展性、可靠性例如战胜世界冠军、国际象棋特级大 师卡斯帕罗夫的“深蓝”就是这种机型,其每秒数亿步的处理速度至 今仍被人们称道;软件平台是 IBM 提供最新推出的、业界好评如潮 的通用数据库产品 (Universal Database),这是 IBM 的又一大师级力 作;还有荣获本年度世界数据仓库产品大奖的数据采掘工具: Intelligent Miner;在应用上,IBM有成熟的整套数据仓库解决方案,和 其他仅仅能提供某些方面产品的厂商有着本质的区别 可扩展性方面,因为数据量越来越大,用户越来越多,为保证合 理的响应速度,对机器的性能提高就会有一个几乎线性增长的要求硬 件和软件的可扩展性就成为一个重要的考虑因素IBM 的 RS6000 SP 主机正是具备这种特性,从而成为硬件平台的首选;通用数据库在小 到手提机,大到并行主机的任何平台上,都能充分发挥硬件的性能。
这样就确保了整个数据仓库系统的正常运作也可以保证用户在今后 升级时,既可以保护现有投资,也使应用系统受到的影响降到最小,4做到无缝升级背景背景中国的银行业务正面临深刻的改革,各种新生事物不断涌现,如 新的业务,由于分工模糊而出现的很多非银行业的竞争者,业务全球 化的趋势,由新旧竞争者造成的越来越大的压力,快速发展的信息技 术,客户的需求和总体人口组成也在不断变化全球范围内的金融服 务企业间的关系变得更加紧密,促使决策者重新研究金融市场,资源 分配,组织结构和业务流程,从而采取更有创意的企业行为和策略, 如企业兼并,市场定位,产品和服务推陈出新,保持营销渠道畅通在银行业内,越来越多的企业正在采用数仓库工具来创造新的商 业机会:深入分析客户群的组成、发现特殊需求、设计新的产品、在 新业务推出前开展详细的建模和分析分析客户减少的可能原因,采 取预防措施,提高服务质量和整体竞争力分析重要客户的来源,保 证整体效益预防和制止信用卡诈骗活动正如 IBM 一向在计算机业的发展中扮演重要角色一样,IBM 早 在1988年,就发表了第一篇关于数据仓库的文章,成为这一领域的先 驱,从那时起,数据仓库的技术,服务和解决方案就在来断地完善, 时至今日,IBM 公司的数据仓库系统已经安装了数百个,在各个行业, 各种平台上运行。
1995年,IBM 重新评定了所有数据仓库资源,成立一支核心队伍, 专门开发运用于各行业的数据仓库解决方案,范围涉及银行及金融业, 电讯业,零售业,保险及卫生业等这个小组的任务是分析各行业的 业务需求,选择最好的软件和硬件产品,为客户提供咨询服务在数据仓库市场上,IBM 始终致力于提供全面解决方案,不但提 供技术和咨询服务,还为客户介绍专门的行业经验我们的数据仓库 系统运行在多种平台上,保证一个开放系统供应商的地位,是目前最 完整的全方位的集成式数据仓库解决方案IDC 最近在加拿大市场上作了一次数据仓库的调查,发现集成度 是大家最关心的问题,除了严格遵循开放标准,IBM 还发展了一些有 实力的策略联盟伙伴,如 Vality、进展技术公司 ETI、Cognos 以及 Information Advantage 等通过联合开发和集成调试,达到联盟的 主要目标:更高级的集成度IBM 始终致力于确立在以网络为中心的计算技术方面的领导地位, 我们也坚信目前我们站在潮流的尖端,公司内部建立起遍布全球100多5个国家,700多个城市的全球性的大型数据网络,在专门的互联网部门, 在这一领域的技术成果不断推出,都无可置疑地表明 IBM 是当之无愧 的领导者。
今天 IBM 更是提出了一套完整的解决方案以下就数据 仓库的概念和作用做一些简要的介绍数据仓库的概念及作用数据仓库的概念及作用所谓数据仓库,数据仓库之父 W.H.Inmon 曾对数据仓库作了这 样的描述:“数据仓库是九十年代信息技术构架的新焦点,它提供集 成化的和历史化的数据;它集成种类不同的应用系统;数据仓库从发 展和历史的角度来组织和存储数据,以供信息化和分析化处理之用” 这里要强调的是必须将业务系统和数据仓库分开两者功能不同,要 求迥异虽然业务系统为数据仓库提供数据但决不能将数据仓库建 立在业务系统之上一来两者所存的数据不同业务系统是存储实时 数据的地方;数据仓库可能更关心的是整个历史数据两者的数据传 递不是简单的复制,而是一个可能是比较复杂的转换和传递过程二 来,这样做对业务系统的影响太大不仅会对数据的安全性造成一些 不可预测的影响,还会影响业务系统的性能查询请求会使系统不堪 重负,响应速度降低,严重时甚至导致系统的崩溃,使业务系统瘫痪 所以必须将两者分开数据仓库的作用主要在于通过对大量数据的分析,得出需要的统 计结果还可以找出其潜在的关系,从而作出正确的判断例如,如 果银行要了解它的一个客户的情况,以目前的情况来看,需要查询储 蓄库,信用卡库,借贷信息等。
这些信息存储在不同的业务系统中, 不同的主机上,显然要获得完整的客户资料需要作大量的工作,消耗 大量的时间但是,如果这个银行拥有数据仓库系统,要完成这个工 作只需要一个最简单的查询命令,可能只需要几秒钟因为数据仓库 中已经有了所有的数据,而且都已经重新组织特别是如果你要查的 是一些历史数据,那么目前的系统就根本无能为力了所以,建立一 个数据仓库对公司的许多正确决策的作出有着举足轻重的影响它可 以以合理的代价取得有效的决策支持;促进企业中业务处理过程的重 组;改善并强化对客户的服务;强化企业的资产和负债管理;促进市 场分析;帮助实现企业的规模优化数据仓库的特点数据仓库的特点6由于差不多各个业务系统的各种数据都要放进数据仓库,所以, 随着时间的增长数据仓库的数据量是特别大的例如,某单位一天有 10G 数据,例如移动通讯局的计费系统(如果有几本流水帐,可能还会 超过这个数字),那么,仅仅过了两年,数据仓库中的数据量就有: 10*365*2=7300G,相当于七个多 TB 的数据那么五年后,十年后呢? 简直不能想象由此可见,数据仓库的特点:数据量大且有几乎线性 的增长性数据仓库对计算机系统的要求数据仓库对计算机系统的要求根据上述特点,我们认为支持数据仓库的计算机系统首先必须得 有一台不仅性能卓著,而且可扩展性也很好的主机。
谈到可扩展性, 许多人会想到对称多处理器系统 (Symmetrical Multi-Processing) 系统, 其实 SMP 系统的 CPU 数增加到一定数目后,对系统性能的提高已 十分有限,甚至会起反作用所以,主机的选用,一定要有非常好的 线性增长性这里,我们建议选用目前已经比较成熟的海量并行处理 系统(Massive Parallel Processing),简称为 MPP另外,数据库的选用 也是十分关键的一是要支持超大的数据量可能在初始阶段,数据 量已经到了 TB 级二是要有很强的稳定性数据仓库是为决策支持 系统提供准确的数据分析,如果数据库不十分稳定,那么,后果不堪 设想另外,数据库必须有可扩展性,支持多平台,高性能等等整 个网络环境的稳定和高速也应被列入计算机系统设计的考虑范畴数据仓库系统的体系结构数据仓库系统的体系结构一个完整的数据仓库系统,应当由定义部分、数据获取部分、管 理部分、数据分发部分、信息目录、数据库管理系统、数据存取与分 析等部分组成1.定义部分数据仓库系统的定义部分完成数据仓库环境的定义和设置这里 包括相应的定义工具供数据仓库的设计者和管理人员使用他们使用 这类工具进行:a.设计和定义数据仓库数据库;7b.定义数据仓库的数据源;c.指定一组规则用来约束当数据从外部源点进入数据仓库时的系统 行为。
定义部分的工作结果是一批元数据,这批数据将存放在信 息目录中2.数据获取部分数据获取部分负责从外部数据源析取数据,并在数据仓库内对所 析取的数据实施后处理为了实现数据仓库系统的主要目标----以最 终用户最容易理解和使用的方式组织和存储数据,进行后处理是必须 的一步后处理包括对所析取数据的提炼和变换在定义部分所建立 的规则用来约束实施后处理时的系统行为数据提炼包括以下内容: 记录或记录内栏目的重构,删去不需要的运行信息,字段值的解码和 翻译,补充缺漏的值以及检查数据的完整性和相容性变换的内容如 上所述需补充的两点是变换还可以包括对原数据加上时间标记及对 导出数据的计算,在完成后处理后,即可将处理的结果加载到相应的 数据仓库数据库中,这种加载可通过源数据库的加载工具实现,如果 源库是关系数据库,一般可用 SQL 类的工具实现对日常数据清理和归 整,来自外部数据源的数据不会原封不动地进入数据仓库,而是必须 进行必要的变换以增强其可用性最常见的数据变换有获取瞬像数据、 实施集运算(求和、求平均量等)、分组、填写缺漏值、预报趋势 (填入预测量)、数据结构与格式的转换、提取样本值、编码值与可 读值间的转化等等。
3.管理部分管理部分由一组系统服务工具构成,这类工具及其所提供的服务 可为数据仓库系统中其他部分所利用,还可以用于管理数据仓库中的 数据集,数据集是对特定的一个或一级用户有用的一组数据,这组数 据是从数据获取部分得到的基本数据导出的管理部分提供的服务包括数据的维护、数据的分发、数据仓库的 例行维护,其中,维护服务完成从基本仓库数据导出特定数据集的任 务;分发服务负责将集中的仓库数据分发到多个分设的数据仓库数据 库服务器和其他供最终用户使用的决策支持系统上面;例行维护服务 包括了对数据仓库的常规安全服务、归档服务、备份、恢复以及对 基本仓库数据和数据集的监督服务在当前,例行维护服务多由基本 操作系统和数据库系统软件来完成84.信息目录数据仓库所管理的数据,不仅有供最终用户(企业管理人员、各 级决策者)使用的,还包括供数据仓库系统的开发者和维护者使用的 数据后一类信息是用来描述仓库数据库结构的,称之为元数据元 数据的管理是数据仓库成功应用的关键数据仓库系统中的信息目录,用来反映本系统中元数据的组织情 况通过信息目录,可帮助用户了解在数据仓库中都存放着什么信息 以及如何访问和使用这些信息一般来说,一个完整的信息目录应当由几部分组成,即技术目录、 业务目录和信。





