
第五讲大数据应用案例分析-何利文.pdf
80页大数据应用案例分析大数据应用案例分析 何利文何利文 南京邮电大学南京邮电大学 helw@ 提纲 大数据带来的挑战大数据带来的挑战 1 大数据在石化行业的应用大数据在石化行业的应用 5 大数据在石化行业的应用大数据在石化行业的应用 6 大数据在金融行业的应用大数据在金融行业的应用 4 2 大数据系统平台大数据系统平台 2 - 大数据在医疗行业的应用大数据在医疗行业的应用 3 什么是大数据? • Research Staffs • Research Facilities • Research Interests • Collaboration Opportunity 大数据系统平台的总体架构 大数据带来的挑战 大数据如何推动企业的业务 BI: Business Intelligence 企业业务分析体系 ROI: Return on Investment 提纲 大数据带来的挑战大数据带来的挑战 1 大数据在石化行业的应用大数据在石化行业的应用 5 大数据大数据在在电商电商行业行业的应用的应用 6 大数据在金融行业的应用大数据在金融行业的应用 4 2 大数据系统平台大数据系统平台 2 - 大数据在医疗行业的应用大数据在医疗行业的应用 3 大数据系统平台的总体架构 实时系统实时系统 离线应用离线应用 开放平台开放平台 大数据系统平台的总体架构 大数据系统平台的总体架构 大数据系统平台的总体架构(医疗系统为例) 面向面向大数据的架构演进大数据的架构演进 – 挑战与挑战与应对应对 迈向大数据的渐进式演进过程 • Research Staffs • Research Facilities • Research Interests • Collaboration Opportunity 分分阶段的架构演进路径分析方法阶段的架构演进路径分析方法 一种面向一种面向BI优化的治理优化的治理实践实践 – 独立的独立的BI能力能力中心(中心(BICC)) BICC: Business Intelligence Competence Center BI能力中心构建的框架能力中心构建的框架 BI能力中心能力中心构构建框架建框架 – 人员人员技能与组织模型技能与组织模型 提纲 大数据带来的挑战大数据带来的挑战 1 大数据在石化行业的应用大数据在石化行业的应用 5 大数据大数据在在电商电商行业行业的应用的应用 6 大数据在金融行业的应用大数据在金融行业的应用 4 2 大数据系统平台大数据系统平台 2 - 大大数据在医疗行业的应用数据在医疗行业的应用 3 大数据系统平台的总体架构 东南亚某国卫生部大数据应用 方案介绍 • Research Staffs • Research Facilities • Research Interests • Collaboration Opportunity 大数据系统平台的总体架构 大数据决策 •分析分析显示登革热爆发情况与天气显示登革热爆发情况与天气/位置位置/洪水情况有密切的相关性洪水情况有密切的相关性 •针对针对可能的高发地区制定相关的计划,在应对可能上升的登革热发病及其他传染病可能的高发地区制定相关的计划,在应对可能上升的登革热发病及其他传染病 •和和其他政府部门合作,改善洪水防治工作,减少潜在的蚊虫感染机会其他政府部门合作,改善洪水防治工作,减少潜在的蚊虫感染机会 提纲 大数据带来的挑战大数据带来的挑战 1 大数据在石化行业的应用大数据在石化行业的应用 5 大数据大数据在在电商电商行业行业的应用的应用 6 大数据大数据在在金融金融行业行业的应用的应用 4 2 大数据系统平台大数据系统平台 2 - 大数据在医疗行业的应用大数据在医疗行业的应用 3 大数据在金融行业的应用 -从信用卡使用数据中寻找潜在-从信用卡使用数据中寻找潜在购买购买理财产品的客户理财产品的客户 • 构建客户细分的模型构建客户细分的模型 寻找潜在购买理财产品的寻找潜在购买理财产品的客户客户 客户细分的简介 客户细分模型介绍 客户细分的目标-刻画客户行为 客户细分模型的聚类算法 • K -Means 信用卡客户细分的流程 信用卡客户细分建模过程 •日均帐户余额日均帐户余额 信用卡客户群特征总览 解决客户流失的一般过程 流失定义的重要性 -“流失动作”与“流失意向” 课间休息十分钟!课间休息十分钟! 提纲 大数据带来的挑战大数据带来的挑战 1 大数据大数据在在石化石化行业行业的应用的应用 5 大数据大数据在在电商电商行业行业的应用的应用 6 大数据在金融行业的应用大数据在金融行业的应用 4 2 大数据系统平台大数据系统平台 2 - 大数据在医疗行业的应用大数据在医疗行业的应用 3 石油行业面临的挑战(1) 被数据淹没 - 太多、太快 • 钻钻头下的操作风险头下的操作风险 –对员工的危险: 在严寒地带,远离海岸 的地方钻井; –监管者: 想更快获得更多信息。
• 不能分析远程地点正在发生不能分析远程地点正在发生 了什么,并将其分析共享给了什么,并将其分析共享给 井场井场 • 数据量的激增数据量的激增 • 实时数据被认为不可管理实时数据被认为不可管理 –来得太快; –太多; –目视进行分析,因为工具不存在 石油行业面临的挑战(2) 油藏取征 - 不堪重负 • 传统数据量呈指数增长: 地震,录井 • 需要将来自钻井现场的 实时数据代入到地球模 型中去 • 行业需要一个中立的集 成平台来避免供应商锁 定 • 爆炸解析和模拟结果的 管理 石油行业面临的挑战(3) 钻探钻探 -- 不再容易不再容易 • 需要在更困难,更公共的条 件下进行钻井作业 – 人员的风险上升 – 公司信誉的风险上升 • 需要减少NPT(非有效时间) • 无法访问到上下文相关数据 (例如临井) 对关键钻井作业的所有数据 进行记录并发布给进行分析 和决策的大量用户 石油行业面临的挑战(4) 生产 - 更低成本、更高产出 • 需要用更少的工程师完 成更多的实时决策 • 需持续优化以实现产出 最大化 • 来自公众和监管压力, 要求对油井进行实时监 控 • 运营、作业数据需与静 态数据整合 – 财务、技术、流程 石油行业面临的挑战(5) 企业数据存储 - 海量数据 • 庞大的数据量 • 新的密集数据类型,诸如 微地震,电磁的以及分布 式温度传感器(DTS) • 半结构化和非结构化数据 的集成 • 保存实时数据 • 缺乏基于标准的工具软件 采集采集 分析分析 执行执行 “总资产意识” “实时分析 和决策制定” “及时执行” 油藏取征油藏取征 钻井钻井 生产生产 石油行业的现状问题分析 • 数据采集和分析经常 是人工手动的(信息 孤岛) • 缺乏对跨运营、技术、 财务方面数据的可视 性,因而难以制定及 时的运营、战术和战 略决策 • 各自独立的系统来支 持分离的资产团队 (不集成) • 有限的实时团队协作 • 批量分析工具不适用 于现代实时数据流 石油行业需要的解决方案 有机制来分析大量的实时数据流有机制来分析大量的实时数据流… 提供智能的推荐提供智能的推荐… 建立在全部与资产相关的知识之上建立在全部与资产相关的知识之上 … 使用熟悉的石油技术协作工具使用熟悉的石油技术协作工具… 包含传统的解析、财务和运营数包含传统的解析、财务和运营数 据据… 使用广泛接受的标准使用广泛接受的标准… 最低的总拥有成本最低的总拥有成本 需要满足这些要求需要满足这些要求 …… 针对更多的井做更快的分析针对更多的井做更快的分析… 及时地制定决策及时地制定决策… 使用所有可利用的信息资产种类使用所有可利用的信息资产种类… 充分利用现有在石油专业应用上的充分利用现有在石油专业应用上的 投资投资… 实现实时数据的整合实现实时数据的整合… 从最具成本效益的供应商处从最具成本效益的供应商处… 在一个成熟的,熟悉的在一个成熟的,熟悉的IT基础设施基础设施 上上 获得收益获得收益 …… 从传感器到数据库解决方案的数据流 • 高性能数据管理解决方案将充分使用现有的数 据获取基础设施 高性能数据管理高性能数据管理 解决方案解决方案 RTU 传感器 传感器 传感器 RTU 传感器 传感器 传感器 MTU/ DCS/ SCADA 井场井场 聚合器聚合器 历史数据历史数据 WITSML PRODML Protocol TBD 模拟到数字 过程控制 或 数据采集系统 生产数据 钻井数据 RTU = 远程控制单元 MTU = 主控制单元 DCS = 分散控制系统 Exadata 高性能数据管理整体架构 将实现传统解析数据基础上,获取和分析钻井及生产实时数据。
PPDM + 数据模型 ASCII 格式数据 SQL Loader 日志 DLIS Loader DB企业版企业版 数据挖掘选件数据挖掘选件 R企业版企业版 空间数据库选件空间数据库选件 GoldenGate Exalogic 实时 钻井 实时 生产 CEP RTD BAM 第三方 应用 PRODML 服务 WITSML 服务 RTU 传感器 传感器 传感器 RTU 传感器 传感器 传感器 MTU/ DCS/ SCADA 井场井场 聚合器聚合器 历史数据历史数据 Protocol TBD 生产 数据 钻井 数据 Exalytics Essbase Hyperion OBIEE TimesTen CEP = 复杂事件处理复杂事件处理 BAM = 业务活动监控业务活动监控 RTD = 实时决策实时决策 PPDM 一体机一体机 实时一体机实时一体机 分析一体机分析一体机 针对上游的高性能数据管理解决方案针对上游的高性能数据管理解决方案 WITSML PRODML 井场信息传递标准 油气生产数据交换标准 大数据大数据 一体机一体机 NoSQL HDFS Hadoop w/ Loader Cloudera ASCII 格式数据 SQL Loader 日志 DLIS Loader CEP = 复杂事件处理复杂事件处理 BAM = 业务活动监控业务活动监控 RTD = 实时决策实时决策 Exadata PPDM + 数据模型 DB企业版企业版 数据挖掘选件数据挖掘选件 R企业版企业版 空间数据库选件空间数据库选件 GoldenGate Exalogic 实时 钻井 实时 生产 OEP RTD BAM 第三方 应用 PRODML 服务 WITSML 服务 RTU 传感器 传感器 传感器 RTU 传感器 传感器 传感器 MTU/ DCS/ SCADA 井场井场 聚合器聚合器 历史数据历史数据 OPC/UA, DA, WITS 生产 数据 钻井 数据 Exalytics Essbase Hyperion OBIEE TimesTen PPDM 一体机一体机 实时一体机实时一体机 分析一体机分析一体机 高性能数据管理高性能数据管理 •软硬一体预集成软硬一体预集成 –软硬一体,工程化调优软硬一体,工程化调优 –全集成系统,完整机柜,插电即全集成系统,完整机柜,插电即 用用 –Infiniband •全套商业支持全套商业支持 –开源软件商业支持开源软件商业支持 Hadoop –操作系统商业支持操作系统商业支持 Linux –硬件商业支持硬件商业支持 Sun x86 •品牌优势品牌优势 –知名数据库软件+知名数据库软件+ Cloudera 高性能数据管理高性能数据管理 引入引入Hadoop技术技术 大数据大数据 一体机一体机 Exalogic Exadata Exalytics Big Data 云平台云平台 Exadata 高性能数据管理系统支撑智能油田 ASCII 格式数据格式数据 SQL Loader 日志日志 DLIS Loader Exalogic CEP RTD BAM WebCenter 数据集成数据集成 适配器适配器 集成集成 适配器适配器 Exalytics Essbase Hyperion OBIEE TimesTen Endeca CEP = 复杂事件引擎复杂。












