
集群架构主流软件.doc
15页三款服务器集群软件简介(1) 作者: 出处:IT世界网 ( 1 ) 砖 ( 0 ) 好 评论 ( 1 ) 条 进入论坛 更新时间:2007-01-29 11:46 关 键 词:服务器集群 阅读提示:本文介绍3款常用的服务器集群软件分别是:Rose HA,LifeKeeper和Landcluster 1、ROSE HA 服务器集群软件 在双机热备的架构中,除了要考虑切换时间外,要根据每个系统的作业环境,包括网路系 统是单网或是双网,数据库的安装和作业内容及用户端的设备是经由广域网路、区域网路 接入不同用户有不同的需求,而要求有不同的切换模式,所以选择不同的切换模式,可以 使用户端的改变达到最少的程度 ROSE HA根据不同的行业及各行业不同的需求设计多种备援模式以弹性的调适用户的最佳 组合及选择 ROSE HA系统运作方式在正常的运作情形之下,主机之间透过冗余侦测线路互相侦测,当任一主机有错误产生时, ROSE HA提供严谨的判断与分析,确认主机出错之后,才完全启动备援接管动作 ※ 支持各种操作系统平台 ※ 支持众多的UNIX平台(如:IBM、DEC、HP、NCR、SUN、SGI、NEC、SIEMENS等) ※ 支持众多的PC平台的Unix系统(如:SCO/Unix、Solraris X86等) ※ 支持各种数据库:MS-SQL、Oracle 、Informix、Sysbase、Excheng|、Lotus/Nose、DB2等 接管动作包括※ 文件系统( File System) ※ 数据库( Database) ※ 网络地址( IP Address) ※ 应用程序(AP) ※ 系统环境(OS) ※ 容错备援运作过程自动侦测(Auto-Detect)阶段,由主机上的软件通过冗余侦测线,经由复杂的监听程序。
逻辑判断,来相互侦测对方运行的情况,所检查的项目有: ※ 主机硬件(CPU和周边) ※ 主机网络 ※ 主机操作系统 ※ 数据库引擎及其它应用程序 ※ 主机与磁盘阵列连线 为确保侦测的正确性,而防止错误的判断,可设定安全侦测时间,包括侦测时间间隔, 侦测次数以调整安全系数,并且由主机的冗余通信连线,将所汇集的讯息记录下来,以供 维护参考 自动切换(Auto-Switch)阶段 某一主机如果确认对方故障,则正常主机除继续进行原来 的任务,还将依据各种容错备援模式接管预先设定的备援作业程序,并进行后续的程序及 服务 自动恢复(Auto-Recovery)阶段 在正常主机代替故障主机工作后,故障主机可离线进行 修复工作在故障主机修复后,透过冗余通讯线与原正常主机连线,自动切换回修复完成 的主机上整个回复过程完成由EDI-HA自动完成,亦可依据预先配置,选择回复动作为半 自动或不回复 多种容错备援模式 1,双机相互备援模式 2,主从式备援模式 3,Hot Standby模式4,双网卡,单网段类型 5,双网卡、双网段模式 6,多主机备援系统 用户定制模式 在双机热备的架构中,除了要考虑切换时间外,要根据每个系统的作业环境,包括网路系 统是单网或是双网,数据库的安装和作业内容及用户端的设备是经由广域网路、区域网路 接入不同用户有不同的需求,而要求有不同的切换模式,所以选择不同的切换模式,可以 使用户端的改变达到最少的程度。
ROSE HA根据不同的行业及各行业不同的需求设计多种备援模式以弹性的调适用户的最佳 组合及选择 ※ 双主机通过一条TCP/IP网络线以及一条RS-232电缆线相联 ※ 双主机各自通过一条SCSI电缆线与RAID磁盘阵列相联 ※ 双主机各自运行不同的作业,彼此独立,并相互备援 ※ 主机A故障后,主机B自动接管主机A运行 ※ 主机A的作业将在主机B上自动运行 ※ 主机A的客户(client)要在主机B上重新登录 ※ 主机A修复后,主机B将把A的作业自动交还主机A ※ 已经连到主机B上的A的客户需要在主机A上重新登录 ※ 主机B故障时,主机A接管主机B的作业和数据 ※ 主机B修复时,主机A再将原来接管的作业和数据交还主机B ※ 双主机通过一条TCP/IP网络线以及一条RS-232电缆线相联 ※ 双主机各自通过一条SCSI电缆线与RAID相联 ※ 主机A为Master,主机B为Slave ※ 主机A处理作业和数据,主机B作为热备份机 ※ 主机A故障后,主机B自动接管主机A的作业和数据 ※ 主机B同时接管A的主机名(Host)及网络地址(IP) ※ 主机A的作业将在主机B上自动运行 ※ 主机A的客户(client)可继续运行,无需重新登录 ※ 主机B现为Master,主机A修复后作为Slave,作为热备份机 ※ 2个主机建议使用规格相同的主机 模式3---双机热备份(Hot Standby) ※ 双主机通过一条TCP/IP网络线以及一条RS-232电缆线相联 ※ 双主机各自通过一条SCSI电缆线与RAID相联 ※ 主机A为Master,主机B为Slave ※ 主机A处理作业和数据,主机B作为热备份机 ※ 主机A故障后,主机B自动接管主机A的作业和数据 ※ 主机B同时接管A的主机名(Host)及网络地址(IP) ※ 主机A的作业将在主机B上自动运行 ※ 主机A的客户(client)可继续运行,无需重新登录 ※ 主机A修复后,自动接管原来的作业和数据,主机B继续作备份机 模式4---双机双网络适配器(Dual Ethernet Adapter) ※ 双主机各自通过一条SCSI电缆线与RAID相联 ※ 双主机各自运行不同的作业 ※ 每一主机定义第一网口和第二网口 ※ 主机A上第一网口在故障时由第二网口接管 ※ 主机B上第一网口在故障时由第二网口接管 ※ 主机A故障后,主机B自动接管主机A的作业和数据 ※ 主机B同时接管A的主机名(Host)及网络地址(IP) ※ 主机A的作业将在主机B上自动运行 ※ 主机A的客户(client)可继续运行,无需重新登录 ※ 主机A同样可作B的备份机 ※ 进行数机双工备份和网卡的备份 ROSE HA 新功能介绍 RoseHA for Windows 增加了对Team 类型网卡的支持。
增加了对磁盘阵列的硬件锁功能的支持 修改了Volume资源的配置方式,以一个磁盘设备(Disk)作为基本卷单元进行配置 增强了对共享卷的处理,在主机发生卷资源切换不成功时,会主动关机或重新启动,确保 备机接管成功 对于NT Server 类型的资源,增加了新的配置方式:除传统的直接选择NT Service方式 进行配置外,还可以通过指定Start、Stop、Agent三个栏目(的程序)的方式进行配置 在Userdefine类型资源中,增加了是否允许Agent程序出现运行窗口的选项 增强了资源的修改编辑功能 增加了共享盘盘符被占用的报警机制 增加了对Switch或HUB断电的适应能力 增强了对FileShare资源可用共享资源的处理 增加了RoseHA界面中将各种配置信息保存到文本文件的功能 增加了日志部分的内容信息 重新设计了HOSTID机制,确保重新安装系统,硬盘重新分区不会改变HOSTID 其它管理界面各个方面操作及显示上的修改完善 手册针对相关功能进行了修改和补充 RoseHA for Linux 支持各种主流最新的Linux操作系统,如RedHat 7.x, RedHat 8.x。
新的基于Java2的GUI管理配置界面 支持Intel网卡的iANS功能,Intel网卡必须使用Intel提供的e100, e1000的驱动程序配置界面中增加了GroupID的设定功能,可以更加轻松直观的将多个服务指定为一组,这 些组中的服务将同时切换带入带出 配置界面中提供了多个卷的配置方式,可以为一个Job配置一个以上的卷资源 增加了管理界面的修改功能,可以在管理界面中直接修改处于BringOut状态的Job,无须 删除后重新配置 增加了新的磁盘系统监控机制,可以更加高效,准确,及时的监控磁盘阵列状态 规范统一Agent的返回值,正常时返回0值,异常时非0值 增强安全性,修改部分执行文件权限确保root用户才能运行HA的相关程序 RoseHA for UnixWare 支持UnixWare 7.1.1最新补丁包 uw711m2.ima 新的基于Java2的GUI管理配置界面 增加了新的磁盘系统监控机制,可以更加高效,准确,及时的监控磁盘阵列状态 规范统一Agent的返回值,正常时返回0值,异常时非0值 增强安全性,修改部分执行文件权限确保root用户才能运行HA的相关程序。
更新HostID机制通过安装RoseHA后,使用RoseHA提供的hostid工具获得申请 License所需的hostid,不再使用UnixWare系统的SystemID作为hostid确保重新安装 操作系统,硬盘重新分区不会改变HOSTID 2、LifeKeeper 服务器集群软件 LifeKeeper提供了基于Windows NT (2000),Linux,UNIX多平台操作系统的容错软件并同 时支持远程灾难备份LifeKeeper提供数据、应用程序和通信资源的高度可用性 LifeKeeper不需要任何特别的容错硬件你可以集合使用二到十六个服务器结点.并访 问特定地点的配置数据.然后,LifeKeeper 会自动地提供错误检测和多层现场恢复. 在出现 故障的情况,LifeKeeper会将保护资源自动转换到一个根据优先权而设定的系统.在实际进 行切换用户时,会经历一个十分短暂的休眠.但是当系统完成了切换操作后, LifeKeeper 会在所选择的系统上自动地恢复操作现用. LifeKeeper 2.04 for WindowsNT为例加以说明: LifeKeeper2.04保护起来的资源是: 卷、IP地址、共享文件、LAN(局域网)管理器服务器名称、应用程序、定义的用户、 MSCS应用程序 心跳故障检测Heartbeat: LifeKeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制.即 通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信 号到了一定的数目,LifeKeeper就把这条路径标示为失效(红色),如果你只定义了一条通信 路径当 LifeKeeper 把这唯一的一条通信路径标为失效时,LifeKeeper便立即开始恢复过 程.然而,如果有冗余路径.LifeKeeper能够通过第二条路径确定是系统故障还是只是通信 路径有问题。
如果LifeKeeper开启优先级第二的通信路径并收到了心跳信号,它就不开始 failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一 下有故障的路径 一般情况下LifeKeeper 只在下列事件发生时,启动系统恢复功能: 所有的通信路径故障.如果所有节点都没能收到心跳信号.把所有通信路径都标为失效, Lifekeeper开始安全检查安全检查失败.当所有通信路径故障时,LifeKeeper向整个网络 发出安全检查信号.如果信号指出配对系统还“活“着的时候,LifeKeeper不启动Failover 如果安全检查没从配对节点返回信号,LifeKeeper 就开始Failover因而,为了减少由 于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径.通信路径: LifeKeeper支持在节点之间和心跳通讯中,使用如下通讯路径: (1)socket,即套接字你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议 这样的硬件包括:以太网、快速以网、令牌环网以及FDDI 或CDDI (2)串行口 在LifeKeeper配置中,你应当。
