您所在位置：网站首页 > IT计算机/网络 > 架构五种业界主流存储双活方案解析之故障转移

五种业界主流存储双活方案解析之故障转移

30页

卖家[上传人]：Baige****0346

文档编号：266122614

上传时间：2022-03-14

文档格式：DOCX

文档大小：2.92MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金贝

/ 30 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、五种业界主流存储双活方案解析之故障转移在前面的三篇文章五种业界主流存储双活方案解析（方案特点）、（仲裁与两地三中心）和（读写性能）中，笔者对华为 HyperMetro 、 EMC Vplex 、 IBM SVC 、 HDS GAD 和 NetApp MetroCluster 等五个厂商多种存储双活方案的特点、仲裁机制、两地三中心扩展及两个站点主机的读写 I/O 流程和时延进行了详细的解析。在本篇文章中，笔者将从最后一个角度，也是存储双活方案的另一大关键点 - 故障转移入手，剖析这五种存储跨中心双活方案的高可用保护特性和仲裁处理。故障转移之所以成为建设存储跨中心双活方案的关键点在于，双活存储不仅仅需要两个存储并行对外提供读写服务，提升整体读写服务能力和存储资源利用率，更为重要的是建立足够可靠、稳定的存储间相互保护能力，以满足 RPO （ Recovery Point Objective ）， RTO （ Recovery Time Objective ）的严苛的要求，将企业业务系统连续性提升至一个更高的台阶。因此，各类存储双活解决方案必须要具备足够充分的高可用特性和合理的容灾保护与仲

2、裁机制，以应对各种各样复杂的的灾难故障场景，以极短的故障恢复时间和几乎为零的故障恢复目标，解决可能遇到的故障灾难。下面公正客观地就这五钟业界主流存储双活方案在各类故障转移场景下的表现一一展开解析。一、华为 HyperMetro华为 HyperMetro 具有独特的双仲裁机制，能够提供静态优先与仲裁服务器两种仲裁模式，且这两种模式可以共存 , 但优先通过仲裁服务器模式仲裁，这样可以在不同故障场景下，最大限度保障存储双活方案的高可用性。1 、静态优先级模式静态优先级模式主要应用在无第三方仲裁服务器的场景，在发生链路中断脑裂现象时，强制使优先的存储节点继续提供服务。如下表所示为，静态优先模式仲裁示意图，列举了三个故障场景和对应的仲裁处理结果：（ 1 ）当两个站点间链路出现故障时，静态优先模式设置为 H1 站点为静态优先站点，此时 H1 站点将继续对外提供读写服务， H2 站点将停止读写服务，在主机端 I/O 访问策略设置为优选阵列模式时， H1 站点的主机将继续本地读写 H1 站点存储， H2 站点主机既无法读写 H2 站点存储也无法通过切换跨站点链路访问 H1 站点存储；（ 2 ）当非静态

3、优先的站点 H2 存储出现故障时， H1 站点存储同样继续提供读写服务，但 H2 站点主机可通过配置的 Ultrapath 多路径 I/O 策略，通过跨站点链路继续读写 H1 站点存储；（ 3 ）当静态优先的站点 H1 存储出现故障时， H1 和 H2 站点均不再对外提供读写服务，两个站点主机的读写将完全中断，此时，只能通过人工的方式，将 H2 站点的存储激活，继续提供读写服务。2 、仲裁服务器模式仲裁服务器模式应用在有第三方仲裁服务器的场景，将仲裁服务器部署于第三个站点，在这种模式下，可同时设置静态优先模式，实现双仲裁保护能力。在以下的单故障场景中， QS 为仲裁服务器， S1 为静态优先仲裁方。有以下几种故障场景：（ 1 ）当仲裁服务器本身出现故障时， S1 和 S2 存储能够持续对外提供读写服务，主机业务无任何影响，此时由于缺少了仲裁服务器，将自动进入静态优先模式；（ 2 ）当 S1 或 S2 存储出现故障时，仲裁服务器能够及时探测到故障存储，停止故障存储的读写，全部读写均由存活存储提供，在主机端 I/O 访问策略设置为优选阵列模式时，存活存储所在站点的主机可以继续本地读写存活存

4、储，而远端主机则将自动切换至跨站点 I/O 路径继续读写存活存储；（ 3 ）当 S1 和 S2 存储间的链路出现故障时，等同于单站点存储故障场景，均需要仲裁服务器进行仲裁，判定某个站点存储失效，全部读写服务由一个存储提供，只有此存活的存储所在站点的主机能够读写存活存储，而远端站点主机由于链路故障，无法通过跨站点 I/O 路径继续读写存活存储。在该场景下，存活的存储将通过 DCL （ Data Change Log ）空间记录链路故障期间，存储间的数据差异，待链路恢复后，通过差异数据增量同步配置和数据；（ 4 ）当 S1 或 S2 存储与仲裁服务器间的链路中断时，双活存储间链路正常，不做任何仲裁判断，两端主机正常读写双活存储。同样在以下双故障场景中， QS 为仲裁服务器， S1 为静态优先仲裁方。有以下几种故障场景：（ 1 ）当 S1 存储与仲裁服务器， S2 存储与仲裁服务器间的链路同时或者先后中断时，由于 S1 和 S2 间的链路完全正常，主机正常读写双活存储，并且由于缺失了仲裁服务器响应，双活存储将自动进入静态优先模式；（ 2 ）当 S1 和 S2 存储，其中单个存储与仲裁服务器间

5、的链路同时或者先后中断时，此时仲裁服务器将介入仲裁，判定与仲裁服务器通信正常的存储存活，并对外提供读写服务，且只有存活存储所在站点的主机才能继续访问存活存储；（ 3 ）当单个存储出现故障，另一个存储仲裁胜利后，存活存储与仲裁服务器间的链路再出现故障时，由于已经仲裁完成，选举了获胜存储，只要不是该存活存储故障，其他仲裁服务器故障和链路故障都不再影响获胜站点主机的读写访问；（ 4 ）当仲裁服务器出现故障后，单个存储也随后出现故障。该场景下，仲裁服务器故障将使得仲裁模式进入静态优先模式，由 S1 存储继续提供服务，当故障的存储为非静态优先存储时，即 S2 存储故障，此时 S1 存储可继续对外读写， S1 和 S2 站点的主机均可通过多路径访问 S1 存储。当故障的存储为静态优先存储时，即 S1 存储故障，此时无法继续仲裁，所有存储读写访问中断；（ 5 ）当仲裁服务器出现故障，存储间的链路也也随后中断，此时由于仲裁服务器故障将进入静态优先模式，存储间链路中断不会影响优先站点存储继续提供读写服务，但只有优先站点的主机才能读写该存活存储。最后在一些极端多故障场景中， QS 为仲裁服务器， S1 为

6、静态优先仲裁方， H1 为主机集群的主机 1 ， H2 为主机集群的主机 2 。有以下几种故障场景：（ 1 ）当在本地机房部署存储双活时，该机房突然断电。恢复电力启动双活存储后，将自动恢复双活，如果此时仲裁服务器未上电，则仲裁模式自动进入静态优先模式。如果此时仲裁服务器上电恢复后，阵列将自动进入仲裁服务器模式；（ 2 ）当静态优先存储和仲裁服务器同时掉电时，此时无法提供读写服务，业务中断。当重新将优先存储上电后，会自动恢复双活，并按照仲裁服务器恢复与否进入不同的仲裁模式；（ 3 ）当 S1 和 S2 存储同时故障，读写访问中断，当两个存储恢复后，继续自动恢复双活；（ 4 ）当仲裁服务器故障、阵列间链路同时中断或者三个站点间链路同时中断时，此时发生脑裂问题， S1 和 S2 存储都中断对外读写服务。当阵列间链路恢复后，需要强制启动 S1 或者 S2 ，手动触发一次双活同步来恢复双活，并按照仲裁服务器恢复与否进入不同的仲裁模式；（ 5 ）当 S1 和 S2 间链路中断，然后 S1 存储前端主机链路也发生中断。此时 S2 将失效， S1 获取仲裁胜利，前端链路中断后， H1 主机集群业务中断

7、， H2 主机集群也无法切换至跨站点链路路径访问 S1 存储，同样业务中断。（ 6 ）两个双活的存储阵列中的 3 个控制器故障时，由最后剩余的控制器提供读写服务， H1 和 H2 主机集群均可通过多路径访问存活的存储，待控制器修复上电启动后，原双活将自动恢复。二、 EMC VplexECM Vplex 同样具备两种仲裁规则，第一种是分离规则，在没有第三仲裁节点时选用，通过预定义两个 Vplex 集群间链路中断后 I/O 一致性组的处理方式来实现防脑裂目的。第二种是 Vplex Witness ，通过整合 Witness 自身的观察与集群定期向 Witness 的报告信息，来区分判断是集群内故障还是集群间链路故障。但该仲裁方式无法和分离规则并用，只能在分离规则设置为“无自动优胜者”时，才能生效。在以下单 / 多故障场景中， C1 和 C2 为两个双活的 Vplex 集群， W 为 Witness 节点，存在有以下 15 种通用的故障场景：（ 1 ）当 Witness 节点故障时， C1 和 C2 两个 Vplex 集群能够持续提供读写服务；（ 2/3 ）当单个 Vplex 集群出现故障时

8、， Witness 将进行脑裂仲裁，选举正常的 Vplex 集群为存活集群，存活集群所在站点的主机通过 PowerPath 多路软件配置的 ACTIVE/PASSIVE 路径，访问本地 Vplex 集群，而非存活端的主机则切换跨站点 PASSIVE 路径为 ACTIVE 路径，访问远端存储的 Vplex 集群；（ 4/5 ）当 Witness 节点和单个 Vplex 集群同时故障时，发生脑裂同时也没有第三方仲裁，所以将读写 I/O 挂起，所有集群读写将全部中断；（ 6 ）当两个集群间的链路中断时， Witness 将介入仲裁，获胜的 Vplex 集群将继续提供读写服务，且只有该存活集群所在站点的主机能够读写访问，远端主机无法切换多路径跨站点读写；（ 7/8 ）当任意一个 Vplex 集群与 Witness 节点间的链路发生中断时，两个 Vplex 集群间可以相互通信，无任何读写中断，两个集群继续提供读写服务；（ 9/10 ）当两个集群间、单个集群到 Witness 节点间的链路同时中断时，发生脑裂现象，但 Witness 节点可以与另一集群正常通讯，由该集群继续提供读写服务，且只有该集

9、群所在站点的主机能够继续访问集群后端存储数据；（ 11 ）当两个集群和 Witness 节点间的链路同时中断时，类似于 Witness 节点自身故障场景，两个集群可继续提供读写服务；（ 12 ）当 Witness 节点和两个集群间链路同时故障时，发生脑裂现象，但无第三方仲裁节点对此进行仲裁，所有集群读写服务中断；（ 13/14 ）当单个 Vplex 集群、 Witness 节点与另一个 Vplex 集群间的链路同时故障时，发生脑裂现象，按规则将选举正常的 Vplex 集群获胜，然而 Witness 节点却无法和该 Vplex 集群正常通信，无法顺利仲裁，造成所有读写服务中断；（ 15 ）当两个集群间、集群和 Witness 节点间所有的链路中断时，发生脑裂现象，但 Witness 节点无法和任何集群正常通信，无法选举获胜站点，造成所有集群读写服务中断。另一个需要详细说明的是主机跨集群连接拓扑，合理的主机与本地 Vplex 集群、主机与远端 Vplex 集群连接拓扑，可以防止的故障场景将根据主机光纤通道适配器端口的数量， WAN 和跨集群主机连接通道的数量以及 SAN Fabric 的数量而有所不同。有几种不同类型的 SAN Fabric 拓扑可用于主机与 Vplex 集群间的连接。可以根据以下特征对这些拓扑进行分组：（ 1 ）两个或四个 SAN Fabric ：对于两个 SAN Fabric 的拓扑，主机的每个 HBA 端口与到本地和远端 Vplex 集群的前端端口做成一个 ZONE ；对于四个 SAN Fabric 的拓扑，将使用一组独立的主机 HBA 端口访问本地 Fabric ，另一组独立的 HBA 端口用于跨数据中心（站点）访问合并的 Fabric 。（ 2 ）共享或独立的 WAN 通道：对于共享 WAN 通道，当主机跨集群连接拓扑，配置为与 VPLEX WAN 路径相同的物理 WAN 时被视为共享；对于独立 WAN 通道，当 VPLEX WAN 使用物理上独立的通道连接到交叉连接网络时，交叉连接配置被视为专用配置。如下表所示为主机跨 Vplex 集群连接 SAN 网络拓扑提供保护的各种高级故障场景。该表根据发生双重故障时的每种

《五种业界主流存储双活方案解析之故障转移》由会员Baige****0346分享，可在线阅读，更多相关《五种业界主流存储双活方案解析之故障转移》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源