
打造低成本高业务能力的云化it支撑系统.ppt
29页亚信联创-云计算开发组,打造低成本高业务能力的云化IT支撑系统,目录,IT支撑云化目标 关键技术验证情况和案例 云化部署的重点和难点 云化部署的范围和方案 应用级别云计算平台的效果回顾 方案实施的条件,议题的选择,IT支撑云化目标,应用的PC化和刀片化 用并行文件系统取代磁盘阵列和数据库 高可用性的全年不间断服务 完全的动态伸缩,,高业务 能力,低成本,,IT支撑云化目标 关键技术验证情况和案例 云化部署的重点和难点 云化部署的范围和方案 应用级别云计算平台的效果回顾 方案实施的条件,分布式应用部署方法,采用PCServer实现群集已在Oracle的RAC环境中得以验证,通过Oracle的CRS组件,将多台PCServer群集起来,形成能承担较大负荷的分布式数据库服务器根据资源调度应用的方法,云环境下的调度通过云调度引擎实现,云调度引擎通过petri网建模,实现在云环境下根据资源情况调度应用、并发处理、冲突检测等数据压缩及分散方法,压缩算法,IDA(Information Dispersal Algorithm),数据中心达到什么样的效果,,IT支撑云化目标 关键技术验证情况和案例 云化部署的重点和难点 云化部署的范围和方案 应用级别云计算平台的效果回顾 方案实施的条件,如何适应应用逻辑的各种计算和存储任务,,应用逻辑分类,后台重复任务处理,交易类消息处理,数据分析处理,大数据存储,计算和存储任务分类,,统一调度,文件传输,预处理,规整,排重,信息编解码,消息转发,代理,海量话单存储,资料管理,数据抽取,数据清洗,数据转换,数据加载,数据挖掘,,,,,任务分类整合,整合任务分类,设计针对性的解决方案,以稳定的基础能力方式提供 给不同应用系统使用,云化部署的重点工作,系统能平滑过渡到云计算 处理正确性保障、集群的稳定性保障、集群应对单一节点故障的能力、程序版本和业务参数各节点的一致性保障。
调度的稳定性和准确性 负载均衡的保障、分布式环境中事务的一致性保障、调度面临异常 的恢复能力 动态伸缩的技术保障 资源的接管能力、计算能力的迁移、数据的迁移 多系统部署 资源的共享和竞争,应用、数据的隔离,安全性保障,SaaS的如何实现,云环境下应用软件的多实例运行 应用软件的多实例共享硬件资源,同时各实例在应用和数据上是隔离的 各实例根据服务对象提供个性化的服务,各实例的服务内容丰富且各不相同 达到虚拟应用软件的效果 在云平台上开发面向终端用户的3G业务,为终端用户提供丰富多彩的服务IT支撑云化目标 关键技术验证情况和案例 云化部署的重点和难点 云化部署的范围和方案 应用级别云计算平台的效果回顾 方案实施的条件,,,云化部署的总体范围和方案,节点布控,,数据子网和控制子网,,硬件与网络环境,多数据中心划分,,云计算平台,,以C/S模式部署于控制 节点和计算节点上,,应用版本的自动发布,分布式文件系统,,根据资源情况动态调度应用,部署于各数据中心节点,具备一定的数据冗余度,具备一定的数据恢复能力,,节点热插拔,屏蔽节点故障,网络部署方案,在云环境中的每个节点至少拥有两块网卡,一块网卡连接数据子网,用于外部应用服务和内部数据交互,另一块网卡用于专用的云内部控制信息交互,如心跳信息,业务路由交互等。
基于动态路由的调度方案,1、在云环境中若有新的业务请求,那么该业务请求在云中的什么位置处理是由业务路由来控制的 2、在云控制节点维护了全云环境中全部路由,应用处理节点都有一个路由缓存,当缓存中没有对应的业务路由时需要向云控制节点发起业务路由查询请求 3、云控制节点需要根据主机负载、网络拓扑的变化以及业务特性动态的计算当前路由,当计算出来的当前路由和路由表不同时要修改路由表并广播到所有的应用处理节点云控制机作业调度机制,1、控制机根据计算节点的负载情况、集群拓扑变更情况整合出云内的一个资源池 2、控制机按一定时间间隔根据资源池计算出每一类业务的每一类服务的当前路由,若路由有变跟则刷新控制机路由表,需要广播的路由(排重服务路由)变更要广播到所有节点 3、当有事务处理时,控制机将源文件打包成批次,并根据路由表计算出该批次的本环节路由,按路由分配本批次的处理任务 4、批次生成条件包含文件大小、文件数量、时间频度、排重单位(交换机、地市),云控制机进程调度机制,1、当云控制节点有新的任务需要分配时,流程调度服务端按照任务分配策略向某个应用处理节点分配该任务 2、应用处理节点接收到该任务后,对任务进行分析,确定处理该任务的进程组。
3、若该节点有空闲的该进程组则直接占用这组进程,若该节点没有空闲进程则启动新的进程组处理该任务 4、任务处理 5、任务处理完毕后进程保持休眠状态直到有新的任务到达或者超过了休眠时间退出节点的热插拔-构造动态伸缩的硬件环境,1、节点的热插拔主要依靠云计算引擎来实现,云计算引擎是C/S模式 2、当有新节点加入时,在新节点上安装云计算引擎客户端,通过一组命令集将节点动态加入到云计算环境中,然后该节点会从控制节点下载程序版本和构建上下文环境 3、当有节点卸载时,通过在控制子系统的一组命令集将该节点释放 4、节点真正释放前需要等待正在处理的任务都结束,处理节点故障接管方法,1、故障接管包括节点再造和应用、存储迁移两部分 2、当控制线路上的心跳异常时建议切换到数据链路上再做心跳检测,若两条链路上的心跳都异常则节点发送故障 3、在业务处理过程中节点宕机时定义为到该节点的路由异常 4、节点异常后需要将故障点的存储迁移到接管点(mount文件系统),若需要做IP接管则故障点的IP地址也要迁移到接管点 5、异常节点当前处理的任务失败,控制子系统将该任务状态回退到该异常节点的上一个环节,并重新按作业分配机制分配该任务,IT支撑云化目标 关键技术验证情况和案例 云化部署的重点和难点 云化部署的范围和方案 应用级别云计算平台的效果回顾 方案实施的条件,应用级别云计算平台的效果回顾,IT支撑云化目标 关键技术验证情况和案例 云化部署的重点和难点 云化部署的范围和方案 应用级别云计算平台的效果回顾 方案实施的条件,方案实施的总体条件,硬件方面 能基于PCServer和刀片部署,同时从利旧的角度考虑也要能支持小型机的部署。
规模满足主要的极限数据 如计费、帐务共需要约2500 core的CPU处理能力、6个月的账单和原始话单共需要1.1PB的存储能力、约100Gbps的网络带宽要求 第三方软件方面 使用云平台的关键技术取代传统的数据库等第三方软件 应用软件改造要求 在计算节点上部署云计算平台、在数据中心节点上部署分布式文件系统,应用软件业务逻辑通过API调用改造为在云环境下具有业务处理能力和事务一致性能力的云应用软件应用改造--API调用,,,,改造前,,改造后,,,初始化,,扫描目录 /内存,,业务处理,,数据提交,,获得数据,,结束,,,,,,,接受批次 信息,,获得数据,,数据提交,,解析批次 信息,,,业务处理,,初始化,,,提交批次 信息,,结束,,,,,,,循环处理,循环处理,注册 进程 信息,注销 进程 信息,应用系统模块级的一般处理过程,应用改造--数据按批处理,应用改造—应用受云平台统一调度,,,,进程信息,,批次信息,,主机资源管理信息(CPU 内存 存储),,云平台控制信息(节点启用 停止信息),,,…,1,2,3,4,5,6,云平台 控制端,云平台 客户端,云平台参数管理信息,云节点管理信息 业务处理流程信息 业务处理生产计划,批次收发 进程起停 资源控制 节点起停,云计划时间进度,,3月20日,测试内容确定,,5月20日,测试环境搭建,,7月15日,测试完成,,6月,测试标准 制定,,7月,详细设计 方案,1,2,3,4,5,,10月,系统开发和部署,,11月,6,7,,,第一阶段,第二阶段,。
