
南航SVC大数据支撑案例25.pptx
26页南航SVC大数据支撑案例提提 纲纲 进一步的工作进一步的工作 系统架构系统架构 技术选型考虑技术选型考虑 案例说明案例说明数据分散,形成数据孤岛;无法统一共享数据分散,形成数据孤岛;无法统一共享高端系统旅客资料大客户旅客资料呼叫旅客资料客舱旅客资料电子客票旅客资料离港旅客资料销售旅客资料客户统一视图系统SVCCustomerLoyalty投诉SeatingInventoryCheck-inFlight DataIrregularOperationsSchedulesGeneralInformationWeight & BalanceTicketingReservations3rd Party呼叫中心B2C离港行李查询中转客舱DWET高端大客户常客SVCSVC通过SVC系统统一客户数据集中访问效率不高,系统稳定性缺乏,投资大SVC初期探索SVC架构优化思考及技术选型RMDBRMDB主要技术难题主要技术难题u 扩展困难u并发读写慢u本钱高小型机+存储u无法支撑海量数据NoSQL的优点的优点NoSQL的缺乏的缺乏大数据量高性能、高可用弹性扩展能力灵活的数据模型低本钱u 不完全支持SQLu不支持事务u不支持多表关联u不支持聚合查询u无法保证数据一致性优优 点点迁移本钱底方案成熟稳定能很好的支撑事务能保证数据的完整性能提供较高的TPS满足业务性能要求开发本钱低,技术风险低有较好的扩展性我们的选择并发访问量高,速度快,稳定高效,系统投资小。
并发访问量高,速度快,稳定高效,系统投资小系统部署架构 数据库小型机C档光纤交换机光纤交换机B档 磁盘阵列磁盘阵列B档 数据库软件SVC主备两套CBD主备两套 小型机方案小型机方案汇总600万数据库 PC server数据库软件 SVC主备两套,CBD主备两套汇总 35万分布式方案分布式方案并发访问量高,速度快,稳定高效,系统投资小并发访问量高,速度快,稳定高效,系统投资小投资比较0153045607590105 120 135 150 1650200400600800100012001400识别接口识别接口新架构旧架构2013年1月2013年2月2013年3月2013年4月2013年5月2013年6月2013年7月010203040506070SVC故障故障趋势结果比较选择选择选择选择hadoop+hivehadoop+hivehadoop+hivehadoop+hive做分析平台做分析平台做分析平台做分析平台u高效率:u通过分发数据,hadoop可以在数据所在的节点上并行地处理,处理非常的快速u高扩容能力:u效劳器群总计可达数千个节点,能可靠地存储和处理PB级数据u本钱低:u使用普通机器组成的效劳器群来分发以及处理数据。
u可靠性:uhadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务u跨平台:uJAVA实现支持各种平台并支持多种语言的MapReduce.A表(30亿)+B(2亿)表lA表做聚合统计查询,时间5分12秒;lA表做数据清洗,时间12分07秒lA表与B表 join 后做聚合统计查询,时间14分36秒测试结果数据分析平台架构数据分析平台架构数据分析平台架构数据分析平台架构业务数据库业务数据库业务系系统数据接口大数据处理集群大数据处理集群任务调度平平台台管管理理器器元数据管理安全管理任务管理集群管理平台管理平台监控Hive Devoloper文件管理处理结果导出ETL工具高速数据高速数据存取存取通用数据通用数据访问数据数据统一一管理管理可配置化可配置化无需无需编程程业务处理理与与hadoop分离分离12345交易数据文件/邮件数据客户数据设备/运行数据大数据处理平台大数据处理平台DatanodeDatanodeDatanodeDatanodeName nodeHDFSETL数据A1A2A1A2A1A2Map Reduce任务管理导入导入数据清洗 Hadoop可以存贮PB级别的数据,并且每个文件在不同的机器上有2份或3份备份,这样即使一台机子故障,将不会影响系统的可用性。
大数据处理平台大数据处理平台大数据存储问题的解决大数据存储问题的解决大数据存储问题的解决大数据存储问题的解决MySqlHadoop集群ETL工具平台数据转换效劳3、转换任务调用、转换任务调用4、数据转换、数据转换1、数据导入、数据导入BI分析分析BI系统报报表表查查询询数据源数据源SVCCBDFFP2、数据导入、数据导入Hive mapred 5.1、报表生成5.2、特殊报表生成6、报报表表导导出出BIBIBIBI分析效率的解决分析效率的解决分析效率的解决分析效率的解决构建开源数据效劳平台构建开源数据效劳平台构建开源数据效劳平台构建开源数据效劳平台分布式数据库中间件数据库节点数据库节点数据库节点数据库节点可可扩容至容至1024个个节点点界面化配置按需扩容灵活缓存机制:灵活缓存机制:注解式、配置式、编程式、AOP拦截在应用和底层数据源之间,构建一层代理,统一数据层;垂直切分:数据按业务划分存储在不同的数据库,表间关联密切的表划分在一起,例如同一模块的表水平切分:将同一个表中的不同数据拆分到不同的数据库中;统一数据访问API:隐藏后端复杂数据分布细节,数据库操作看起来就像是在同一数据库中;建设目标建设目标建设目标建设目标通过分布式集群实现分库分表,解决大数据支撑问题;利用Galera,在客户端与MySQL服务器之间抽象出一层“统一数据中间层”,统一数据中间层包含HA功能,以简化MySQL的高可用环境的构建;实现集群自动管控功能,包括节点增减、监控等;实现数据服务云统一数据效劳平台中间层统一数据效劳平台中间层统一数据效劳平台中间层统一数据效劳平台中间层数据效劳平台架构数据效劳平台架构数据效劳平台架构数据效劳平台架构容易引起容易引起:重复研究重复研究法律问题法律问题 包版本冲突包版本冲突系统不稳定系统不稳定技术无法积累技术无法积累对人员要求高对人员要求高研发本钱高研发本钱高后续维护本钱高后续维护本钱高分享:分享:分享:分享:开源开源开源开源技术统一管理的必要性技术统一管理的必要性技术统一管理的必要性技术统一管理的必要性平台层视图层框架层中间件层js:query、dwr、swato、GWT、 prototypeUI控件:Dhtml 、jquery UI、 ExtJs、 easyuiJSP:velocity、tag、 JFSMVC:struts1、struts2、spring、webworkORM: hibernate、ibatis、persist组件:日志类、工作流类、XML解释类、平安类、缓存池类、接口效劳类、数据传输类容器:tomcat、jboss、jetty、apach、 nginx 消息:active Mq、mule、openESB.集群管理:zookeeper、 heartbeat、 lvs、ganglia、 NagiosDB:mysql、 PostgreSQLNoSQL:hadoop、mongoDB、hive、pig工具: Kettle、sqoop、datax、cobar、Myfox.开源技术推广和应用开源技术推广和应用开源社区开源社区积极推广,提升项目交付能力,降低积极推广,提升项目交付能力,降低积极推广,提升项目交付能力,降低积极推广,提升项目交付能力,降低ITIT成本成本成本成本 逐步完善和扩展,形成技术积累逐步完善和扩展,形成技术积累逐步完善和扩展,形成技术积累逐步完善和扩展,形成技术积累基于开源社区实现四大统一基于开源社区实现四大统一基于开源社区实现四大统一基于开源社区实现四大统一对选定的技术逐步优化和扩展功能对选定的技术逐步优化和扩展功能开开源源技技术术统统一一选选型型公公用用包包统统一一管管理理开开发发框框架架统统一一封封装装通通用用组组件件统统一一研研发发分享:开源技术管理策略分享:开源技术管理策略分享:开源技术管理策略分享:开源技术管理策略分享:分享:分享:分享:开源技术管理方法开源技术管理方法开源技术管理方法开源技术管理方法公用开源包用公用开源包用maven进行统一管理,形成企业开源库进行统一管理,形成企业开源库占领开源技术前沿占领开源技术前沿节约本钱、满足业务需求节约本钱、满足业务需求开源技术统一选型开源技术统一选型开发框架统一封装开发框架统一封装通用组件统一研发通用组件统一研发产品产品评估评估技能技能评估评估 法律法律评估评估 ROI 评估评估研发研发团队团队企业开企业开源源软件库软件库优化优化完善完善MVC框架框架持久化框架持久化框架UI框架框架开开发发规规范范开发工具开发工具推推广广实实施施实现工具化、模块化、标准化技技术选型型组件件开开发组件件推广推广组件件完善完善组件件梳理梳理逐步积累实现重用降低成本提高质量分享:开源技术的推进策略分享:开源技术的推进策略分享:开源技术的推进策略分享:开源技术的推进策略开源实验室开源实验室技术选型、架构设计、技术研究、技术选型、架构设计、技术研究、产品研发产品研发. .开源技术研发工作:开源技术研发工作:将技术推广到每个项目组,每个程将技术推广到每个项目组,每个程序员,让大家都用起来。
序员,让大家都用起来技术推广:技术推广:提升交付能力:提升交付能力:通过积累开源技术能力,达到降低通过积累开源技术能力,达到降低成本,提高效率的目的成本,提高效率的目的分析技术需求、设定技术目标、制定分析技术需求、设定技术目标、制定技术规范技术规范规划与设计:规划与设计:去IOE化降低成本解决性能和大数据问题简化开源技术降低难度技术规划与推广分享:组织机构设计分享:组织机构设计分享:组织机构设计分享:组织机构设计技术小组技术小组虚拟团虚拟团队队开源开源实验室实验室研发团队研发团队公司领导公司领导公司领导公司领导工程经理工程经理团队团队需求提出技术开展规划标准制订技术评审开源工程验收开源产品研究、测试、开源产品研究、测试、封装、开发封装、开发架构师团架构师团队队实施推广实施推广团队团队架构师架构师技术评估技术评估技术选型技术选型技术目标制订技术目标制订架构设计架构设计开源管理开源管理技术文档编写技术文档编写技术培训技术培训技术网站维护技术网站维护工程技术支持工程技术支持技术战略调配资源南航推进软件开源化成果南航推进软件开源化成果南航推进软件开源化成果南航推进软件开源化成果1 1建立以五大数据核心为根底的开源化SOA平台 通过开源化,已经完成旅客信息、旅客行为、运行控制信息三大核心数据库及面向SOA核心效劳平台。
2 2移动化、整合业务应用端 在企业核心效劳平台根底上,利用开源技术,重新整合呼叫中心、地面效劳等应用,面向岗位需求实施移动化策略3 3建立统一WEB技术架构 使用开源技术,开发可伸缩性的统一平台架构,统一移动应用架构,统一WEB应用架构4 4初步形成JBOSS/Linux/LVS统一开源根底性架构 大局部新系统采用新的开源技术,原系统被进行优化,逐步统一使用开源的根底架构5 5初步形成MySQL/hadoop/hive数据效劳平台 局部系统使用Mysql集群替换商业数据库,并实现读写别离正在进行hadoop+hive的分布式大数据平台的研发,以支撑商业智能分析完演讲完毕,谢谢观看!。
