
微软大数据解决方案交流44.pptx
46页微软银行业大数据解决方案交流Presales Architect,微软服务部目录大数据分析挑战微软解决方案介绍大数据案例分享数据复杂度:多元性和速度TerabytesGigabytesMegabytesPetabytesBig DataWeb 2.0ERP/CRM付款薪资货存联系人订单跟踪销售管道Web日志数字市场搜索市场网上推荐广告移动协作电子商务网页点击流Wikis/博客传感器/RFID/设备社交网络音频/视频日志文件空间&GPS坐标数据数据集市电子政务气候文本/图像大数据就是资本 但究竟什么是大数据?未来数年数据量会呈现指未来数年数据量会呈现指数增长数增长根据麦肯锡全球根据麦肯锡全球研究院(研究院(MGI)估计,全)估计,全球企业球企业2010年在硬盘上年在硬盘上存储了超过存储了超过7ZB(1ZB等等于于10亿亿GB)的新数据,)的新数据,而消费者在而消费者在PC和笔记本和笔记本等设备上存储了超过等设备上存储了超过6EB新数据1ZB数据相当于数据相当于美国国会图书馆中存储的美国国会图书馆中存储的数据的数据的4000多倍大数据是指无法在一定大数据是指无法在一定时间内用常规软件工具对时间内用常规软件工具对其内容进行抓取、管理和其内容进行抓取、管理和处理的数据集合处理的数据集合”维基维基百科百科 8万万亿亿GB2015全全球球信息量信息量1s数据数据处处理理速速度度85%非非结结构构化化数据数据占占比比数据数据价价值值Volume 数数据据体量大体量大Variety数据数据类类型型多多Velocity 处处理理速度快速度快Value大数据的挑战大数据的挑战大数据的4V特点: Volume, Variety, Velocity, Value传统DW系统不适用于大数据的分析数据量过于庞大绝大部分大数据是垃圾大数据的多样化格式时效性高需要革新性的技术手段海量数据“分而治之”-批量分布式并行计算Hadoop海量数据“灵活多变”-实时分布式高吞吐高并发数据存取处理NoSQL海量数据“实时响应”-大数据流计算模型我们希望从大数据获得什么?我们希望从大数据获得什么?更高一层数据层面整合企业内外部大数大数据改据改变变数据数据分分析思析思维维 过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不断改进抽样方法以提升样本的 精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。
但当前数据处理思维方式正逐步向全体性、混沌性以及相关性演变,以适应数据量的爆发式增长10大数据改大数据改变变数据分析思数据分析思维维全体数据全体数据混混杂杂数据数据精确数据精确数据抽抽样样数据数据因果关系因果关系相关关系相关关系采样的目的在于用最少的数据得到最多的信息, 但在样本分析过程中不可避免会有一部分信息 丢失在可以获得海量数据的情况下,对全体 数据进行挖掘和分析可以获得更多信息只有15%的数据是结构化且能适用于传统数据化 的,接受不精确性能使更多的非结构化数据得 到利用建立在相关关系分析法上基础上的预测是大数据的核心传统传统大数据大数据大数据分析不同于大数据分析不同于传统传统BI BI分析分析传统BI分析批处理大数据分析集群化事务关系型数据库数据仓库分析非结构化流式分析组织多种数据源(MapReduce) 结构化数据 数据规模一般为TB规模 集中式,为了分析进行大量数据移动,数据向计算靠近 批处理为主 结构化/非结构化混合分析的能力 数据规模从数十TB到PB级别 分布式,计算向数据靠近 支持流式分析11如果业务需求是分析多种来源的数据如果业务需求是分析多种来源的数据 来源:来源:ForresterResearch,2012年年 6月全球大数据调查月全球大数据调查数据仓库与大数据的整合数据仓库与大数据的整合集成大数据和数据仓库功能以增加运营效率需要利用多种类型数据需要利用多种类型数据扩展仓库基础架构扩展仓库基础架构通过将很少使用的数据迁移到 Hadoop 来优化存储、维护和许可成本通过智能处理流数据来降低存储成本通过确定仓库中要填充的数据来改善仓库性能深度分析所需要的结构化、非结构化和流数据源低延迟要求(几小时,而非几周或几个月)提供对数据的查询访问超越传超越传统数统数据仓库概据仓库概念的大数据分析念的大数据分析流Internet级别传统数据仓库In-Motion AnalyticsData Analytics, Data Operations & Model BuildingResultsInternet ScaleDatabase &WarehouseAt-Rest Data AnalyticsResultsUltra Low Latency Results传统传统/ /关系型关系型数据源数据源非传统非传统/ /非关系型非关系型数据源数据源传统传统/ /关系型关系型数据源数据源非传统非传统/ /非关系型非关系型数据源数据源100111STREAMING大数大数据分析平据分析平台台大数据技术是一系列技术的集合,是传统数据结构化数据与非结构化技术与数据的整合,并基于这些技术与数据进行综合的商业智能应用,包括数据分析与数据挖掘等。
BI / 报告BI / 报告探索/可视化 功能应用行业应用预测分析 内容分析 应用程序数据分析系统管理数据分析应用开发数据整合与治理Hadoop系统流计算数据仓库目录大数据分析挑战微软解决方案介绍大数据案例分享微软的大数微软的大数据分析视据分析视角角面向业务分析的愿景 深刻的数据洞察自助式服务 | 协作 | 移动化 | 实时/准实时非结构化数据1001 11多样的数据管理结构化数据流数据共享与治理挖掘与关联分析转换清洗丰富的数据加工非结构化数据大数据中结构化与非结构化数据的整合大数据中结构化与非结构化数据的整合c.建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key)主分类关键词标签地名人名全国统一分类分词,倒排搜索共性、个性文本识别处理功能模块网页分类反向搜索关键词分析日志关联内容分词索引建立索引分析日志合并用户类别标签摘要结构化元信息网页信息分类数据获取语义分析数据解析数据获取结构化数据数据集市数据集市EDW结构化元数据Hadoopa.建立非结构化信息的标签、摘要、索引、日志、内容等b.提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合ODSSQL声誉度分析品牌分析服务质量分析竞争产品分析产品评价市场动态跟踪BigDataBigDataTraditionalBusinessIntelligenceTraditionalBusinessIntelligenceEDWAPPSBizprocessERP,CRMDMDMDMETL数据源数据源基础架构基础架构分析组件分析组件业务用户业务用户Structured:e.g.MM/DD/YYYYKnown, knownSemi-structured:e.g.weblogs,sensordataKnown, unknownUn-structured:e.g.text,video,audio,Unknown, unknownBusinessUsersMachinesDevices“TheInternetofThings”DataScientistsCollaboration&SocialEmail,blogs,documentsEveryoneIndexingengineAlgorithmsVisualizationAnalyticsDataSearchPresentationReportingAnalysisDataHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFSHDFS数据分析路径数据分析路径InformationFlowTraditionalBIInformationFlowUnstructureddatatoBIInformationFlowSemi-structureddatatoBIInformationFlowSearch数据分析路径数据分析路径建设大数据BI系统的思考17常见架构+PBTB一体机MPP DWMPP DM传统的BI系统架构并非一无是处,同样值得我们学习借鉴+MS大数据解决方案总体架构微软大数据产品架构Fast LoadSource SystemsHistorical Data(Beyond Active Window)Summarize & LoadBig Data Sources (Raw, Unstructured)Alerts, NotificationsData & Compute Intensive ApplicationERPCRMLOBAPPSIntegrate/EnrichSQLServerStreamInsightSQLServerParallelDataWarehouseEnterpriseETLwithSSIS,DQS,MDSHadooponWindowsAzureHadooponWindowsServerSQLServerFTDWDataMartsSQLServerReportingServicesSQLServerAnalysisServerBusinessInsightsInteractiveReportsPerformanceScorecardsCrawlersBotsDevicesSensors结构化数据Microsoft SQL Server 2012 和SQL Server Parallel Data Warehouse设备提供一种方法来管理结构化数据。
流数据SQL Server StreamInsight组件实现了对新的数据格式的支持,其中包括流数据非结构化数据部署在Windows Azure和Windows Server上的基于Hadoop的服务使您能够快速处理PB级的非结构化的数据管理几乎来自任意来源的数据管理几乎来自任意来源的数据大规模并行处理引擎 MassivelyParallelProcessing(MPP)PDW作为SQLServer的横向扩展解决方案MPP 提供线性横向扩展能力Massively Parallel Processing (MPP) 大规模并行处理架构横向扩展: 按需添加硬件实现线性扩展无共享架构最小 (0TB) 到最大 (6PB) 从几个TB的小型数据仓库开始扩展到 6 PB 比SMP DW快10倍复杂作业计算线性扩展扩展灵活方便 (No forklift) 聚沙成塔 成长无限容量最大 随需扩容PB宕机为零高枕无忧Hadoop的典型应用场景用户行为分析跟踪用户在网站上的点击路径,分析其购买习惯根据用户属性,猜测用户感兴趣的商品,定向推广根据N度客户,发掘潜在的客户群体日志存储、分析日志分布在多台服务器,查找问题困难,跨系统应用日志分析、系统性能分析等上传文件存储各业务系统上传的文件、图片统一保存MS与Hadoop基于Apache Hadoop的Windows Server和Windows Azure,以及AD的支持HDInsight ServerHDInsight ServiceHive ODBC Driver 和 Add-in for ExcelJavaScript Framework for HadoopSQL Server and SQL Server Parallel 数据 Warehouse connections for HadoopSharepoint, Powerpivot和Powerview作为前端展示数据价值&访问频度MPP数据库数据库结构化数据结构化数据传统传统BI工具工具HDP半结构化和非结构化数据半结构化和非结构化数据历史数据分析历史数据分析数据生命周期&数据规模 HDPHDP在在ha。
