中国银行NBU备份系统改造建议书.doc
19页中国银行NBU备份系统改造建议书版本号:1.3赛门铁克软件(北京)有限公司Systex2010年05月28日目录一、 中国银行备份系统现状 4黑山扈开放平台备份系统现状 4二、 备份系统改造目标 6三、 第一阶段 磁带库扩容改造,备份系统过渡方案 7四、 第一阶段 磁带库改造实施计划 10五、第一阶段备份系统改造风险分析 12六、 第二阶段NBU备份软件升级和调优计划 14七、第三阶段 同城数据容灾建议 17八、第四阶段 异地数据容灾建议(实现“两地,三中心”架构) 19一、 中国银行备份系统现状目前中行共有三个备份域,黑山扈开放平台备份域、黑山扈审计署备份域以及海鹰备份域中行三个备份域因其设计目的不同,决定了三个备份域在中行处于不同的重要级别首先开放平台备份域是其最重要的备份系统;同时审计署备份系统是刚建立不久,数据量不大;而海鹰备份系统因为运行的业务系统逐渐减少,在中行的未来规划定位是同城数据灾备中心中行备份系统在运行了多年之后,目前遇到了一些问题这些问题主要出现在开放平台备份系统中首先随着中行业务系统的不断上线,开放平台备份系统最初设计的备份架构已不能适应目前的备份现状,其次随着备份系统的逐渐庞大带来的备份系统性能方面的问题。
并且中行针对目前的数据中心现状,也计划利用现有条件,实现让海鹰数据中心实现数据级别的灾备中心黑山扈开放平台备份系统现状u 黑山扈开放平台备份域:备份软件:Symantec NetBackup 6.0+MP5存储设备:SUN VTL3540 + SUN STK 8500 (12个LTO3 Tape Drives) 根据中国银行的规划发展布局,目前黑山扈数据中心已经是中行最主要的数据中心而开放平台的备份域同样是目前中行最大最复杂的备份环境目前的备份架构实际是采用两步来实现的:1. 先通过NBU将数据备份到VTL内2. 再通过VTL的tape caching功能将VTL的数据迁移到物理带库内(STK L8500)所遇到的问题是:1) NBU备份时间窗口和VTL tape caching的时间窗口不能很好的协调,导致在一些特殊的时间点,NBU得不到资源来顺利的进行备份2) 恢复远期数据时,需要分两步骤来进行,即先将数据通过VTL软件恢复到VTL内,然后再由NBU进行到客户端的恢复使得恢复方案缺乏整体连续性二、 备份系统改造目标 根据中行目前的情况,我们建议备份系统改造分四个阶段:1, 磁带库的扩容改造;2, NBU备份系统升级,调优;3, 黑山扈与海鹰点的同城灾备;4, 黑山扈与上海张江异地容灾,实现“两地,三中心”容灾模式。
目前,首先要进行磁带库的扩容改造待系统改造完成后,再进行NBU的升级和调整完成调整后,稳定运行一段时间,再进行黑山扈和海鹰点的同城灾备实施,以及黑山扈和张江的异地容灾实施第一阶段 磁带库的扩容改造 我们建议中行取消目前的备份方式,采用增加VTL数量,然后让NBU直接管理所有的VTL和SUN 8500物理带库对于那些在一段时间内需要恢复的数据可以先写到VTL,在一定的时间周期后,再通过Vault方式写到物理带库;也可以针对不同的业务系统让部分数据直接写到物理带库不论是哪种方式都可以保证NBU服务器直接管理备份数据,在需要的时候可以从任意位置恢复实现Vault最终替代VTL的tape caching功能 由于原备份系统环境复杂,涉及到的设备众多,为了减少改造过程带来的风险,建议采取过渡方案,逐步将Vault完全替代Tape caching功能2009年赛门铁克在工商银行实施了NBU备份系统,为了减少维护的复杂度,在工行南北数据中心,用NBU的vault 代替了tape caching 功能,大大简化了用户的维护难度第二阶段 备份软件的升级和调优这一阶段建议对备份域进行详细调研,综合考虑进行优化。
对所有老的nbu版本进行分步升级,以保证备份系统处于比较新的版本,能得到更好的技术支持,保持在健康的状态第三阶段 利用同城的海鹰点,进行数据容灾这部分详细需求有待和用户进一步讨论可以利用海鹰点现有资源,按照需要进行一些带库的扩容,以及老的AIX系统的升级,将海鹰点配制成黑山扈点的数据容灾点第四阶段 完成黑山扈到张江数据容灾,实现“两地,三中心”容灾架构此阶段可最终实现“两地,三中心”容灾架构三、 第一阶段 磁带库扩容改造,备份系统过渡方案中国银行计划将新购一台VTL,并对STK SL8500进行扩容,可以利用这次扩容的机会对原有架构进行过渡改造 1. 原有的STK L8500有两个分区,由于扩容,我们可以将扩容部分扩展成第三个分区,两个分区继续由原有的SUN VTL 6540用来进行tape cachingSTK SL8500的新增分区将由NBU进行管理,由于服务器之间存在防火墙,管理SL8500的软件ACSLS只能工作在防火墙模式或者非防火墙模式,虽然NBU支持ACSLS server的防火墙模式,但VTL server不支持(tape caching功能需要VTL机头与ACSLS server通信), 因此要解决这个问题,要求ACSLS server工作在非防火墙的模式下,将NBU的一台或是多台media server与ACSLS server放在防火墙的一端。
以下是SUN所涉及到的工作:1) ACSLS软件通过划分pool的方式将SL8500磁带进行逻辑分区是否可用Pool方式?这里提到的分区便是指得pool方式2) SAN的连接拓扑的更改3) ACSLS服务器非防火墙工作方式的配置2. 新增的VTL被NBU主服务器管理实现数据本地vault 和将来异地的数据vault功能3. 由于目前NBU备份主服务器已经达到性能极限,建议新增一台介质服务器实现新VTL到PTL的vault功能以及将来实现数据灾备的数据vault功能media server硬件配置要求请参考后面单独段落)4. 在NBU主服务器上进行配置更改,将一部分客户端的备份目的地迁移到新增的VTL上5. 新的VTL到STK L8500新分区的数据迁移采用NBU的vault或duplicate功能进行对近期数据采用直接备份的方式对于需要长期保护的数据,先备份到VTL上,然后利用NBU的vault功能迁移到STK L8500物理带库上这部分工作有新增的介质服务器来进行这样从架构上,可以隔离由于本地迁移数据、往灾备(海鹰)迁移数据导致的对开放平台备份系统的错误影响利于将来的维护和管理。
6. 完成过渡方案的实施,并稳定运行后,将8500磁带库重新规划成两部分,由vault使用和部分media server使用,将数据直接备份到8500带库磁带库扩容改造期间数据备份方式1. 目前在STK L8500扩容及VTL升级之前,加入一台IBM TS7650G VTL进行改造扩容期间的数据备份接管;2. 根据改造期间数据备份量的统计,IBM TS7650G容量不足以支持改造期间的备份数据量,由于目前海鹰机房不具备进行vault的条件,所以在IBM VTL空间不足的情况下,建议将IBM VTL上的数据vault到审计署Quantum i2000一个分区上;3. 调整备份开始使用IBM VTL备份,并定时Vault到Quantum i2000;4. 停止备份,停用Tape Caching,开始导出SUN VTL数据至SL8500;进行扩容升级;新增NBU Media Server配置要求专用的网络通路:建议在Media Server和备份客户端之间采用专门的网络,从而提高备份效率;主机配置要求:media server的配置对内存及CPU的要求相对较高; 1)配置建议: media server建议配置内存8G以上,CPU数量建议4颗或更多;配置双4G HBA卡;2)建议采用AIX小型机, 为了提高高可用性,建议采用双机架构提升稳定性;四、 第一阶段 磁带库改造实施计划序号工作内容责任方预计时间1修改备份系统改造方案,并对方案进行评审。
Symantec5天2分析备份状态,搜集配置信息以及数据量Symantec5天3Quantum i2000带库扩容+Partition+配置用户 QuantumQuantum厂商评估4Master Server与新Media Server识别到新i2000 Partition用户 Quantum5NBU配置Quantum带库设备,测试VaultSymantec1天6IBM TS7650G+DS5100安装配置IBMIBM厂商评估7所有Media Server识别IBM VTL用户 IBM8NBU配置所有服务器的新VTL设备,创建新的storage unit,正确识别到虚拟磁带,对磁带进行划分pool,为将备份策略迁移到新VTL上来做好充分准备包含新增加的media server)Symantec6天为了识别设备,有些情况下,有可能需要重启主机9调整备份开始使用IBM VTL备份,并定时Vault到Quantum i2000Symantec2天10停止备份,停用Tape Caching,开始导出SUN VTL数据至SL8500SUN3天11SUN VTL 升级SUN12接续9,导出完成后。
SUN 3540 VTL已经可以使用可以分担IBM VTL的工作将一些Media SAN 迁回 SUN 3540备份Symantec2天13新购VTL安装上线,以及Master server及所有media server san media server操作系统正确识别到VTL设备(包含新增加的media server) 用户 品牌未定厂商进行评估14NBU配置所有服务器的新VTL设备,创建新的storage unit,正确识别到虚拟磁带,对磁带进行划分pool,为将备份策略迁移到新VTL上来做好充分准备包含新增加的media server)Symantec5天为了识别设备,有些情况下,有可能需要重启主机15与用户沟通在media server中找出一台或多台media server 进行简单备份测试,以验证新VTL的可读写性,为步骤6做好充分准备用户 Symantec1天16在新VTL接管并能支撑SL8500扩容期间的备份数据量,且运行稳定后,Sun STK SL8500开始扩容,与此同时开始NBU修改备份策略迁移到新VTL的 storage unit上Symantec SunSymantec需要1天Sun 需要10天(已知)17Sun STK SL8500上线,通过ACSLS软件对8500划分第三个分区给新的media server,其它两个分区恢复原来工作模式,将NBU备份策略按照需要恢复原来的storage unitSymantec SunSun 厂商进行评估(5天?)Symantec 需要2天18NBU 在新media server。





