您所在位置：网站首页 > 高等教育某电信公司大数据分析平台建设实战经验

某电信公司大数据分析平台建设实战经验

24页

卖家[上传人]：文***

文档编号：55264894

上传时间：2018-09-26

文档格式：PPTX

文档大小：12.26MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5 金贝

/ 24 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、,电信业大数据分析平台建设经验,2016年7月,目录,什么是大数据？,2. Variety,4. Velocity,数据类型的多样性如今的数据类型已经不仅仅是单一的结构化数据，也包括音频、图片、视频等非结构化数据，对数据处理能力提出了更高的要求,沙里淘金，价值密度低在一段大量的数据中，有益于进行挖掘的数据仅占很小一部分。如何通过强大的计算和算法迅速地完成数据的价值提取，是目前大数据背景下亟待解决的难题,实时性数据实时采集和处理区别于传统数据，如今已是ZB时代，在如此海量的数据面前，处理数据的效率就是企业的生命,数据量巨大全球在2010 年已正式进入ZB 时代，根据IDC统计：预计2020 年，全球将总共拥有35ZB 的数据量,1. Volume,3. Value,大数据技术是被用于在成本可承受（economically）的条件下，通过非常快速（velocity）的采集、发现和分析，从大数据量（volumes）、多类别（variety）的数据中提取价值（value），从而引起IT领域新一轮的技术与架构的变革。,通信业发展迅速，数字化时代到来,从通信行业发展的历史来看，经历了以语音和

2、增值业务为主的2G时代，语音、流量、终端业务并存的3G时代、再到现在语音流量、内容与应用、实物商品、数字化服务为特征的4G时代。数据的红利对大数据带来了更高的要求和发展。,以语音及增值业务为主 Voice + VAS,语音、流量、终端业务并存 Voice + Data + Device,语音流量、内容与应用、实物商品、数字化服务 Voice + Data + Content + App + Physical Goods + Digital Services,业务需求和驱动力,某移动公司通过新建公司级大数据云平台，在原有B域的数据来源基础上，引入网络部A口信令、GN、GB口、LTE信令等数据，形成用户互联网特征标签，进一步提升流量经营和精准营销能力。目前每天原始数据超过100TB，实际有效数据超过40TB，传统平台难以实现，迫切需要建设大数据系统。,目录,M域数据合同、资产、投资等,O域数据 OMC，网管，Mc、Gn、Gb、Gi、A+Abis等信令，日志,B域数据 Boss、话单、CRM、第三方平台,数据源,数据层,应用层,能力层,采集层,数据管控平台,数据资产管理,监控管

3、理,安全管理,调度管理,系统管理,统一 ETL 采集,传统技术ETL,HadoopETL,流式计算ETL,ETL可视化管理,统一ETL调度,统一采集,数据共享,文件接口,以原有云经分平台为基础，将大数据平台中数据层、采集层统一规划与建设，复用硬件和基础平台，在共享数据的基础上，逐步实现统一建模的机制，分析用户、业务、数据泛在的相关性，建立公司级统一的大数据平台。,大数据平台整体建设思路,消息服务,经分应用,营销平台,产品平台,客户平台,网分应用,上网日志查询,网优查询,内部企业管理及其他对外服务应用,开发管理,开放API,数据分发,即席查询,Spark + Streaming,Gbase数据库（生产）,Gbase数据库 (历史）,一经库（DB2）,Hbase数据库,关系数据库,GP数据库,建设历程,根据公司现状及面临行业内外的竞争和向互联网思维转型需要，大数据平台建设分三步走：第一阶段：云试点（已完成）：在部分模块试点大数据技术，如hadoop、mpp。第二阶段：主仓库云化，升级为大数据平台（已完成）：将原经分系统核心仓库完成从传统架构到云架构的演进，从原来只处理B域

4、数据，到处理B、O、M三域数据。第三阶段：大数据运营（进行中）：不断拓展大数据平台范围，引入实时流处理，推展各类应用，通过对外数据互换，具备对外数据服务能力。,近期：平台搭建期,中期：平台演进期,远期：平台完善期,第一阶段：云试点,第二阶段：仓库云化,第三阶段：大数据,关系型数据库+MPP方案。,MPP+Hadoop,Hadoop+ 实时流处理集群,MPP集群：(复杂脚本、报表等) Hadoop (非结构化数据、大数据),Hadoop(ETL),Hadoop(ETL),Hadoop(存储,计算) streams（流处理） SPARK(基于内存的hadoop运算),MPP集群(存储,计算),原有Etl处理模式,大数据平台系统部署,XX移动大数据平台系统,展示层,Spark + Streaming （80台X86）,校园市场,长漫包营销,客户标签,Gbase数据库（26*X86高配）（生产）,Gbase数据库（60台X86）（历史）,管理系统,上网日志查询,渠道选址,营销平台,实时营销,调度管理,元数据管理,管控平台,开发管理平台,维护管理平台,自助分析,互联网域,B域,第三方域

5、,O域,M域,基地平台,数据层,接口层,企业外部,企业内部,接口机（ GRFS 4台）、加载机（GRFS-FPO 3台）,指标库（DB2）（2*P780）,一经,集团上报,领导报表,Hbase数据库（60台X86）,集团客户,手机阅读,O域ETL处理（160台IBM Power linux）,B域ETL处理（40*X86）,企业级ETL服务（Hadoop）,实时监控,实时评估,关系数据库,MPP数据库,共享层,由接口层、数据层、共享层以及展示层组成，接口层负责数据的采集与分发；数据层由Hadoop组成ETL以及由Hbase、Gbase组成的数据存储与计算两部分混搭组成，共享层主要是为提高前台的展示性能而配置的关系型数据库。展示层则是基于大数据分析的各种应用分类。,数据处理分工和数据流向,根据不同平台擅长不同，hadoop、mpp、Nosql、流处理技术分别负责不同的应用处理范围。,数据共享层,数据计算与存储,ETL(Hadoop),一经库,MPP数据库（生产）,MPP数据库（历史）,DWA,ODS,DWD,批量获取,实时获取,流处理,Nosql数据

6、库（Hbase）,流处理技术,内存数据库,NOSQL数据库,转换后数据,轻度汇总数据,分域汇总数据,高度汇总数据（基础模型）,高度汇总数据,ST,应用展现层数据生成,应用展现层数据生成,MPP数据库关系数据库,应用层,转换后数据,轻度汇总数据,信令数据,资料数据,部分应用场景举例,目录,Hadoop/mpp/流处理合理分工,数据的采集及Load过程，主要就是数据的传输过程，逻辑简单，适合采用Hadoop技术；可以充分利用Hadoop的并行特性和HDFS的高效的数据写入特性。 ODS->DW基础层->DW扩展及汇总层的处理过程中，数据的操作主要是单条记录的操作及基于group by的sum、count等操作，并且由于数据的量的变化会比较大而频繁，因此适合选用基于Hado

7、op的技术。 ST层的生成，操作比较复杂，并且数据量比较稳定，因此适合选用MPP技术。实时流处理选用专门平台，如streams、spark-streaming等。,基础平台考量因素,大数据平台采用pc server，分x86和power，如何进行选型？重点在如下5个要素，不同因素的权重，取决于各个使用者：,考量因素,性能测试,价格,占地空间,服务支持,兼容性,hadoop性能测试情况,1TB Terasort 性能测试结果: PowerLinux vs x86=1:2.3（每核处理能力）在大数据平台中选择20个节点，做1TB Terasort的性能测试采用CDH5.0.2，此结果非官方Benchmark，仅供参考,IBM PowerLinux 硬件特性线程利用：POWER7具备每核心4线程 vs. Intel处理器的每核心2线程需要高吞吐能力：POWER7具备海量的内存和I/O带宽依赖于Java应用：POWER7提供极端优化的JVM需要极高的 I/O性能：POWER7 服务器提供极高的 I/O带宽完美匹配Apache Hadoop map/reduce架构：在Li

8、nux集群中进行海量并行处理,mpp性能测试情况-复杂SQL场景,MPP（南大通用Gbase）在power linux集群和x86集群的对比测试：,测试结果： 1、现网环境（SQL并发度不超过20业务场景下，建议设置集群并发参数 gbase_parallel_degree=6最为适中）； 2、Power运行结果优于X86运行结果，特定测试场景下运行程序执行时间高出1-2倍；注：仓库业务复杂度较高，测试场景仅供参考。,mpp性能测试情况-数据装载场景,加载数据量：11亿行加载文件大小：600G 加载表名称：cdr_gprs_dm,以现网运行GPRS话单加载为例：Power加载性能平均高于X86加载20%左右,Gpfs+power linux测试情况,GPFS接口机文件系统，采用块大小=2M，replica=1.进行顺序读写并发测试，顺序写，近5GB；顺序读，近8.3GB,如果系统中的文件比较大，可提高GPFS的块大小，在块大小设置为4M，8M情况下，顺序写可达到8GB,测试结果是X86的1.3倍,其他因素比较,单台磁盘容量大，意味着集群台数更少，考虑到机房、电力等因素，最终选择Pow

9、er linux 作为hadoop集群，其余采用x86，大数据平台整体采用x86+power linux混搭架构。,IBM PowerLinux配置情况,硬件配置: IBM Power 160*7R1 Redhat v6.4 8 Cores, 128GB Mem Internal Disk: 2 * 300GB, 4 * 1.2TB EXP24s: 24 * 1.2TB SAS disk Network Adapter: 2 x 1000Gbps, 2 x 10000Gbps开源软件部分清单: Hadoop 2.3.0-cdh5.0.0 HBase 0.98. Spark(Spark stream) HDFS 2.3.0-cdh5.0.0,Hadoop集群系统架构图,Hadoop平台 160台Linux on Power主机,Linux

10、 on Power 1,.,Powerlinux1,V7000,V7000,V7000,V7000,业务网（万兆）,Linux on Power 2,Linux on Power 10,Linux on Power 51,Linux on Power 52,Linux on Power 60,PowerLinux2,Powerlinux3,PowerLinux4,HMC1,HMC2,硬件控制网,Linux on Power 11,Linux on Power 12,.,Linux on Power 20,.,.,.,业务网（千兆）,管理网,SAN,注明：连线为示意图,GPFS,目录,效果,率先建立高可用、高扩展性云经分大数据融合平台，实现了经分核心仓库云化。采用低成本服务器（x86+ power linux）架构和传统架构相比，整体投资降低60%，由传统架构4600万降为1600万，初期可直接节省3000万，应用性能提升显著，总体数据处理性能相比传统架构提升59倍。,投资（万元）,云经分和大数据融合平台总投资对比图,万元,kW,4000,00,总投资降低60,传统架构：性能不是线性增长扩容停机时间长压缩比低，仅50%,云架构仓库的优势,云架构增加节点可线性增加存储、查询和加载性能，并行计算无需停机在线扩容压缩比高，4-12倍，在线压缩,传统仓库架构的不足,谢谢,

《某电信公司大数据分析平台建设实战经验》由会员文***分享，可在线阅读，更多相关《某电信公司大数据分析平台建设实战经验》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源