
企业级大数据中心建设.doc
22页中国移动公司级大数据中心建设指引意见为进一步提高中国移动互联网战略的服务能力,对内驱动公司管理的精细化、智能化,对外提供信息服务型产品,实现大数据开放后的运营和服务提高,公司决定在全国范畴内实行中国移动公司级大数据中心建设工作,通过整合全公司数据资源,盘活数据资产,助力公司第三条曲线的拓展,以服务“内增效、外增收”的整体公司战略,保证中国移动在剧烈市场竞争中的可持续发展一、建设规定与重点公司级大数据中心作为中国移动唯一、统一的数据采集、解决、服务和运营的平台,通过“统一采集、统一存储、统一管理、统一运营和统一服务”,形成集团及各省市公司“多节点”、 “网状网”形态的数据和服务共享能力;具有独立机构以承当平台建维、数据互换、资产管理、应用开发、数据服务和数据运营职责为公司内、外部客户提供“按需”的服务能力,辅助公司决策,彰显数据价值公司级大数据中心的建设规定涉及三方面:(一)建好组织:建立相对独立的、专业的公司级大数据中心管理机构,立足公司全局,全面负责公司级大数据平台的规划、建设、运维,以及数据资产管理、产品开发和数据运营等职能二)搭好平台:公司级大数据中心满足中国移动所有数据“统一采集、统一存储、统一管理、统一运营、统一服务”的规定,实现逻辑集中;所有数据的采集、解决和存储分布于多种节点,进行物理分散,同步实现核心数据资产的异地容灾备份。
三)做好服务:公司级大数据中心能为集团各部门、专业基地(位置等)、专业公司(咪咕、互联网、政企、服务、物联网等)、各省公司及外部行业提供灵活的“按需”服务二、建设重点公司级大数据中心建设重点规定如下:(一)公司级大数据中心的能力规定为了承办大数据中心的基本平台管理、数据互换、资产管理、应用开发、数据应用、数据运营六个职责,在大数据平台技术架构层面提供数据基本服务能力、系统平台管理能力、数据资产管理能力和应用共享开放能力四个部分:数据基本服务能力:数据基本服务能力是大数据平台的基本,涉及数据采集功能、数据存储运算功能、数据交互功能数据采集需涉及来自BSS、OSS、MSS的基本数据、来自于顾客上网行为的DPI二次解析数据以及来自外部的第三方数据的数据采集数据存储运算功能可根据数据类型及应用采用不同类型的数据库技术实现对不同价值、规模、时效性的数据差别化存储和运算数据交互功能是实现不同形式的数据存储之间的数据交互系统平台管理能力:大数据平台需具有系统平台管理能力,提供对大数据平台的软件和硬件资源的管理,涉及诸如资源管理、负载管理、配额管理以及计量管理等通过系统平台管理能力大数据平台管理者可以根据租户提出的平台资源和能力的申请进行资源分派、监控、动态调节以及资源开销核算。
数据资产管理能力:数据资产管理能力涉及数据质量管理、数据安全管理等数据安全管理提供跨租户、跨时间、跨平台、跨任务的数据质量监控与管理数据安全管理能力对大数据平台的使用者进行有关的账号、授权、鉴权等设立应用共享开放能力:为支持应用开发者高效、安全、规范的进行应用开发,大数据平台需要具有应用开放能力,应用开放能力涉及开发者管理门户、统一调度平台等功能通过开发者管理门户实现注册认证、资源申请、数据申请、开发上线功能的管理统一调度平台需集成图形化的开发界面,通过统一封装的函数库提供类SQL的开发语言,以屏蔽底层差别性,减少业务人员的开发门槛,实现迅速的业务开发二)公司级大数据中心的技术架构按照“逻辑统一,物理分离”的原则构建全国统一的多域融合公司级大数据中心在云资源池基本上按照“1+31”方式在总部和省公司分别建设总部节点和省级节点总部节点采集总部系统和专业公司系统以及全国性、总体性对外业务合伙的外部数据;省级节点采集省内系统BSS、MSS、OSS三域及其他系统数据、省级对外业务合伙的外部数据总部节点和省级节点之间通过轻度汇总和高价值详单数据接口进行数据交互,逐渐形成全国共享、按需服务、形成大数据的良性生态圈,对内对外提供数据、平台和应用服务。
图1 中国移动公司级大数据中心的体系架构运用既有集中化经分系统,向公司级大数据中心演进,运用省公司既有经分系统能力,演进为省公司大数据中心,合理运用既有资源,实现大数据中心能力的迅速搭建和提高,打造“DW+MPP+Hadoop”混搭技术架构Hadoop:承载大数据中心的ETL功能,实现三域数据定期、实时数据解决;承载清单、网络信令、非构造化数据等基本数据解决;建立公司级统一原则模型,并且对外提供明细查询服务采用Hadoop技术和PC服务器架构解决数据量大、数据多样的问题;MPP:是使用SQL进行构造化大数据解决和分析最佳的技术选择,具有高并发、支持多表联合复杂查询、高安全等优势DW:老式数据库,面向公司级高性能数据解决,进行复杂汇总分析运算采用高性能库和老式小机架构提高数据分析性能,集中保障集团、省级应用公司级大数据中心各节点按照能力需求划分为数据源、资源池层、数据采集/分发层、数据计算和存储层、能力开放层、数据运维和管理数据、数据应用图2 公司级大数据中心节点功能构造数据源数据源涉及公司内部BSS域、OSS域、MSS域各系统的清单级和汇总级数据,以及公司外部系统的数据重点接入LTE的XDR数据,实现O域、M域及外部数据源与既有B域数据的融合;资源池层采用云计算、虚拟化技术整合计算、存储和网络等硬件资源向上提供服务。
数据采集和分发以离线批抽取和实时抽取方式从数据源系统采集数据,将采集数据或DPI二次解析后的数据按照数据种类分发至负责数据计算和存储的各类集群,并协调各集群之间的数据同步数据计算和存储为适应各类海量构造化,非构造化数据的计算和存储规定的多种集群涉及面向批解决的Hadoop集群(MR,Spark,用于ETL)、面向文献存储和查询的Hadoop集群(HDFS,Hbase,Hive)、流解决集群(Storm/Spark Streaming)老式数据仓库集群DW、MPP数据仓库集群、内存数据库集群各集群数据流向呈交叉网状,应支持资源的多租户调用能力开放层从数据、API、工具三个层次对外提供服务透明数据层在各类数据计算和存储集群之上提供一种面向各类应用的统一数据访问能力,屏蔽各计算和存储集群的复杂性OPEN API以接口方式封装各类数据计算和存储集群的能力,供各类应用调用并提供自助报表、OLAP工具、SAS/SPSS数据挖掘、IDE等工具类服务数据运维和管理涉及数据资产管理、元数据管理、统一调度、多租户管理、资源池运营、权限管理、安全管理、系统运维管理数据应用架构上对数据和应用进行解耦,各类应用(不同的应用开发商)通过能力开放层的服务使用数据。
应用涵盖公司内、外部,涉及报表、查询、记录、分析、挖掘,对外价值变现等基于以上大数据平台重点支撑的需求,系统技术架构应涉及数据源、数据采集与解决、数据存储、数据应用四个重要构成模块梳理大数据平台系统应具有的核心技术,进一步研究各项大数据核心技术,为将来公司级大数据平台建设实行工作提供技术储藏和参照图2 公司级大数据中心的技术架构(四)公司及大数据中心对外服务的模式与场景公司级大数据中心对外提供SaaS、PaaS、DaaS的服务模式,将大数据采集、存储和解决的基本能力以及数据自身开放给个性化应用的开发者,这些开发者可运用开放的能力,开发个性化应用(或数据);将大数据的应用(或数据)提供应公司业务部门、网络部门以及外部行业客户图3 公司级大数据中心对外服务模式大数据中心对外提供服务的模式分为三种:SaaS、PaaS和DaaSSaaS(Software as a Service,“软件即服务”)是按需求进行应用开发,提供指标、报表或专项分析,以应用的方式提供应需求方使用使用者一般为无自行开发能力的需求方应用场景举例:1)市场部通过自助服务、即席查询等方式自行分析;2)大数据平台运营方开发业务记录报表供市场部、财务部等部门作为决策和管理根据。
PaaS (Platform as a Service 平台即服务)提供应使用者部署应用到云基本设施上的能力,这些应用是使用者通过使用平台支持的编程语言和提供的开发工具创立或采购的PaaS使用者不必关怀底层云基本设施(涉及网络,服务器,操作系统,或存储),但需关怀所部署的应用,并也许控制应用环境的配备使用者为有个性化需求、深度需求,运用平台工具和数据,自行组织应用开发的内部需求者、合伙伙伴以及外部数据需求方应用场景举例:网络部第三方厂商运用大数据平台直接调用三域融合数据,运用其归属租户存储其分析数据,通过统一IDE开发其应用,以API接口方式与其原有应用对接Daas(Data as a Service,数据即服务)是对多种数据进行不同限度“数据封装”,通过多种服务方式向不同应用系统提供数据服务,满足公司内外部顾客的多样性数据祈求建立数据服务祈求和数据之间原则化的访问接口,提高与内外部系统的互动和信息共享能力使用者为有个性化需求、深度需求,需要从大数据平台获取数据,自行组织软硬件资源以及应用开发的内部需求者、合伙伙伴以及外部数据需求方应用场景举例:1、开发者通过数据集成平台进行批量数据的准备与接口配备。
2、开发者通过数据封装平台将准备好的数据封装成相应的查询接口 3、开发者通过消息中间件平台提供的接入、接出能力进行接口配备 4、开发者将以上3类接口,注册到服务集成平台中,形成数据服务访问接口 5、上层应用(或外部系统),通过服务集成平台查看数据服务接口信息,并调用 (五) 公司级大数据中心的数据治理公司级大数据平台的数据膨胀给整个开发、架构、运维体系都难已承载巨量的数据,对平台支撑以及系统管理能力带来巨大的挑战,同步数据是公司最核心的资产,如何有效进行数据的保值和增值,需要建立大数据中心的数据治理和数据资产运营管理体系,实现数据管理的降本增效,提高数据管理能力与数据价值公司级大数据中心数据治理涉及数据原则管理、数据运维、数据资产运营和数据资产应用,通过进行全面数据模型梳理、优化,实现数据资产的可视、可控,建立全流程的开发维护规范和流程,支撑面向内部应用和对外服务的数据管理应用公司级大数据中心的数据资产涉及基本数据、数据模型、挖掘模型、数据字典、元数据及数据分析报告等方面1)数据原则管理目前大数据时代下,数据作为公司最有价值的核心资产,成为公司间竞争的核心因素;公司级大数据中心将不断引入三域数据、公司外部数据等海量构造化、半构造化数据,数据管理、运维难度加大,亟需建立大数据平台完整的数据规则管理、原则开发以及运维体系:数据规则管理体系须加强大数据中心的数据管控,增强数据模型设计、数据字典规则设立等管理流程原则化、规范化。
原则开发体系支撑面向PAAS服务开放的图形化开发工具,支持应用商在公司级大数据平台进行开发、调用,面向多租户实现图形化的开发界面及统一封装函数库的集成;通过可视化拖拽方式对API进行编排,实现数据建模过程,满足业务部门自助开发的需求运用类SQL语言实现老式DB、HADOOP、MPP等平台的统一操作,屏蔽差别原则运维体系解决大数据平台各系统串行调度模式无法满足多平台协作、大并发解决的规定,通过对各平台数据解决任务基于输入表解耦,简化调度配备及监控运维工作,提高了整体执行效率2)元数据管理元数据管理属于公司级大数据中心的数据管理域的基本模块,基于元数据的关联分析能力和图形化呈现能力,通过元数据OpenAPI实现能力开放,为大数据中心的数据资产管理、数据质量管理、数据开发共享、数据安全和业务应用提供辅助功能支撑,提高公司大数据平台的运维管理水平和顾客感知公司级大数据中心的元数据涉及技术元数据、业。
