电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

利用大数据探索工具快速启动大数据分析

16页
  • 卖家[上传人]:Baige****0346
  • 文档编号:265412442
  • 上传时间:2022-03-13
  • 文档格式:DOCX
  • 文档大小:2.96MB
  • / 16 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 利用大数据探索工具快速启动大数据分析 现在大数据已经成为企业信息化热点方向之一,很多企业都已经开始或者准备利用大数据大干一场,降低成本、提升数据价值,从而实现智能决策,但是从以 Hadoop 为代表的大数据技术面世以来,将近 10 年的时间,除了几家大型互联网公司以外,企业能够用好大数据的案例远远没有期望的那么多。据国外一家咨询公司 2015 年统计,只有 27% 的公司认为他们的大数据计划是成功的,而只有 8% 的认为是非常成功的。即便是在 POC 阶段,很多企业的平均成功率才只有 38%。1.jpg部署大数据分析面临哪些问题?笔者从 2014 年专注于大数据技术和相关解决方案,和很多客户沟通过,包括位列世界 500 强的大型企业,发现多数企业没有实施大数据,或者实施大数据没有成功的主要原因有两点:一个是看不清大数据的回报而犹豫不前,一个是依旧以传统数据仓库的观念来实施大数据项目,因为难以看清价值而半途而废。本文重点讨论的是第二种情况。2.jpg上图是一个数据仓库建设的典型步骤,其中前两个阶段是极其重要的,往往花费大量的时间。因为通过需求分析,了解业务人员想要哪些报表和分析,才能通

      2、过模型设计确定如何建立表结构、构建事实表和维度表、建立星形结构,实现对数据立方体的切片、切块、旋转、上卷和下钻,从而支持报表的丰富展现。所以对于传统数据仓库来说,模型很重要,有没有现成的行业模型往往成为选择解决方案和产品的关键。按照这个实施步骤构建传统的数据仓库也是面临很多挑战:一是前期需求收集和确立时间过长;二是如果要用新的维度分析或者产生了新的需求,需要由 IT 人员重新建模,不仅耗费时间,而且增加了 IT 人员的负担;三是做成的报表是相对静态的,除非更改模型,否则不能灵活地查看其它结果。大数据分析情况下,由于引入了更多类型的数据,包括很多新型的数据,传统的数据仓库的模型大多不再适用于更广泛的大数据分析,而企业中的业务人员对于大数据分析往往也不知道向哪个方向进行,无法提出像传统数据仓库 KPI 那样清晰的展现需求。所以很多企业部署了 Hadoop 集群,收集了企业内部的数据,希望基于 Hive 表取代传统的关系型数据库来构建数据仓库,但是由于需求不明,基于 Hadoop 构建数据立方体和进行数据查询又远远比关系型数据库复杂,最后 Hadoop 平台往往只是进行数据加工和处理,还需要

      3、把数据导回关系型数据库,通过 BI 工作来进行可视化展现,Hadoop 集群更像是一个分布式的海量存储和数据初步加工工具。3.jpg敏捷性 BI 产品在这种情况下,敏捷性 BI 产品横空出世,近年越来越成为企业优先考虑选择的 BI 工具,敏捷性 BI 和传统 BI 工具相比,其主要特点如下:4.jpg如下是敏捷性 BI 工具的一些特性说明示例:5.jpg如下是敏捷性 BI 工具的一些界面展示示例:6.jpg可以看到最左侧是数据库表结构或者是半结构化文本内容,通过拖曳即可以实现各种图表,例如地图和按照小时显示数量,针对右图可以计算趋势轨迹,对未来进行预测等,上方显示的是对年龄过滤,数据显示的是年龄在 30 到 34 岁之间,通过点击左图 0 点数量,右图也会选取相应的点,可以看到大多集中在哪些区域。这种可视化工具图形定义简单,显示直观,经过培训确实能让业务人员也可以基于各种数据来进行可视化展现,从而实现大数据分析。但是目前的敏捷性 BI 工具也有一些不足,主要表现在:7.jpg大数据探索工具为了弥补敏捷性 BI 工具的不足,同时能够为大数据分析人员提供数据相关性洞察的平台,出现了大数据探

      4、索工具,整合了敏捷性 BI 工具灵活和丰富的可视化功能、搜索引擎、数据转换和分布式计算能力。大数据探索平台和 BI 工具的定位略有不同,如下图所示:8.jpg可以看到,大数据探索工具更多关注在利用人的经验,通过人员的参与,对新的问题,结合调查、浏览、理解,从而给出数据的相关性和分析方向。大数据探索工具能够处理结构化数据,但是更多关注在非结构化数据和结构化数据的结合。通过大数据探索工具和人的交互性洞察,能够将人员头脑中模糊的经验结合数据可视化来明确和具体。如下是一个大数据探索工具的架构和功能说明:大数据探索工具应该可以直接对接 Hadoop 集群,浏览 Hadoop 集群中的数据集,用户也可以上载文件,利用 Spark 技术对数据进行处理和加工,不同的数据集组成独立的分析项目,项目中的数据变化不影响原始数据,在项目中用户可以浏览数据,关联不同的数据集成为一个整体数据,对数据进行转换,并且提供白名单关键字抽取和地理位置抽取等丰富手段。9.jpg大数据探索工具和敏捷性 BI 工具一样,提供丰富的图表,通过拖曳即可实现数据的可视化,同时提供地图的展示和多图层浏览,例如可以看到不同年龄的人员数量

      5、分布云,同时可以看到其中的关键地点,提供非结构化文本的全文检索,支持根据不同字段进行任意下钻和上卷。大数据探索工具应该提供全局的扩展功能,支持通过开发扩展图形化展示界面和功能界面,同时提供安全和管理功能。支持分布式部署和扩展处理能力。利用大数据探索工具,企业分析人员和业务人员能够充分利用 Hadoop 集群中的数据,或者将数据收集到 Hadoop 平台中,建立大数据实验项目,通过简单数据转换,即可快速实现数据的可视化,结合地图、关键字检索、全文搜索,从多个角度对数据进行过滤和筛查,灵活地下钻和上卷,探查数据的相关性,从而发现大数据分析的方向。人民的名义:大数据探索工具使用实例下面我们看一个例子,如何通过大数据探索工具对小说人民的名义的内容进行探查。1、将人民的名义小说内容文本导入到大数据探索工具中,可以针对角色姓名进行白名单标记,即根据名单在各个段落中标识角色名称是否出现,结果就像给客户打标签一样,是一个多值域。10.jpg2、小说内容关键字是从外部工具中抽取,抽取后根据段落生成关键字的多值域的数据集,导入到大数据探索工具中,根据段落标识,将关键字列表和小说内容进行了连接,这样关键字多

      6、值域和角色姓名多值域可以进行联合过滤了。11.jpg3、在大数据探索工具中通过拖曳生成图表,包括关注的段落数量,文字数量等指标,关键字和角色姓名的词云,一些展示数据关联性的图形等。可以看到在人物词云中,主人公“侯亮平”最显著,在关键字词云中,“老师”最显著。12.jpg4、下面就可以通过大数据探索工具的灵活下钻和上卷,结合过滤和搜索,对人物画像、人物关系以及最后结局进行探查。5、点击主人公“侯亮平”和关键字“老师”能够看到与侯亮平在“老师”方面有相关性的人物,可以看到祁同伟和高育良特别明显,这点笔者还是知道的,高育良是侯亮平和祁同伟的老师,与此同时左边关键字“学生”也比较突出。13.jpg6、点击“学生”进行过滤,看同样具有学生身份的人物,另外一个学生陈海也变得明显起来。14.jpg7、我们点击“陈海”,清除其他关键字的条件,则可以从突出的关键字看到侯亮平和陈海的关系和一起的经历。除了老师以外,他们都任职反贪局,涉及到举报、电话、证据,也和北京有一定的联系。15.jpg8、看完“侯亮平”,我们看看达康书记,点击“李达康”过滤,可以看到对他的画像,比较明显的就是“书记”字样,其他关键字稍

      7、微明显的都是和工作有关的,右边显示了与其相关的一些人物。16.jpg9、换个图形观察,我们可以从关键字和人物的集中比对来看在各种关键字情况下,这些人物与达康书记的关系如何,可以看到,比较明显的是,在“离婚”关键字下,“欧阳菁”相关性最明显,点击该部分过滤,则可以看出欧阳菁和达康书记的关系。17.jpg10、“李达康”和“欧阳菁”的关系18.jpg11、除去所有条件以后,笔者对关键字里面的“山水”产生了兴趣,那时候笔者还不知道山水集团的实力,还以为是文人墨客的玩意,随手一点,对“山水”进行下钻,另外一个不平凡的女人出现了“高小琴”19.jpg12、点击“高小琴”下钻,有几个姓名比较突出,其中一个就是祁同伟,点击“祁同伟”,则可以查看高小琴和祁同伟的关系。20.jpg13、选择高小琴和祁同伟,除去“老师”可能会造成的影响,则可以看出来二人之间微妙的关系,同时另外一个人“赵瑞龙”也隐隐出现了。21.jpg14、对回数进行过滤,范围定义到“45”回,则可以从关键字上猜测出后面“祁同伟”和“高小琴”有关的一些剧情发展,另外“赵瑞龙”和二人也具有一定的相关性。22.jpg15、看看“赵瑞龙”有关的关键字和人物关系,“儿子、公司、省委书记、山水集团、美食”,背后的故事应该是很多。23.jpg总结:以上介绍了大数据探索工具快速对小说内容进行探查的过程,可以看到,企业也可以采取类似的方式,逐步将不同数据集通过大数据探索工具连接起来,建立一个全面的数据视图,对企业内部和外部数据进行灵活的探索,洞察这些数据的相关性,确立大数据分析的方向,快速获取大数据分析的价值。 -全文完-

      《利用大数据探索工具快速启动大数据分析》由会员Baige****0346分享,可在线阅读,更多相关《利用大数据探索工具快速启动大数据分析》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.