
大数据心得体会.docx
15页大数据心得体会早在 2007 年,人类制造的信息量有史以来第一次在理论上超过可用存储空 间总量,近几年两者的剪刀差越来越大 2010 年,全球数字规模首次达到了“ZB”(1ZB=1O24TB)级别2012年,淘宝网每天商品数超过8亿件2013 年底,中国网民超过 6 亿户随着互联网、移动互联网、传感器、物 联网、社交网站、云计算等的兴起,我们这个社会的几乎所有方面都已数字 化,产生了大量新型、实时的数据无疑,我们已身处在大数据的海洋有两个重要的趋势使得目前的这个时代(大数据时代)与之前有显著的差 别:其一,社会生活的广泛数字化,其产生数据的规模、复杂性及速度都已远 远超过此前的任何时代;其二,人类的数据分析技术和工艺使得各机构、组织 和企业能够以从前无法达到的复杂度、速度和精准度从庞杂的数据中获得史无 前例的洞察力和预见性大数据是技术进步的产物,而其中的关键是云技术的进步在云技术中, 虚拟化技术乃最基本、最核心的组成部份计算虚拟化、存储虚拟化和网络虚 拟化技术,使得大数据在数据存储、挖掘、分析和应用分享等方面不仅在技术 上可行,在经济上也可接受在人类文明史上,人类一直执着探索我们处的世界以及人类自身,一直试 图测量、计量这个世界以及人类自身,试图找到隐藏其中的深刻关联、运行规 律及终极答案。
大数据以其人类史上从未有过的庞大容量、极大的复杂性、快 速的生产及经济可得性,使人类第一次试图从总体而非样本,从混杂性而非精 确性,从相关关系而非因果关系来测量、计量我们这个世界人类的思维方 式、行为方式及社会生活的诸多形态(当然包括商业活动)正在开始发生新的 变化或许是一场革命性、颠覆性的变化从这个意义上讲,大数据不仅是一 场技术运动,更是一次哲学创新1 大数据的概述1.1 大数据的概念大数据(Big Data)是指那些超过传统数据库系统处理能力的数据 它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统为 了获取大数据中的价值,我们必须选择另一种方式来处理它数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才 能提取这些信息如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数 据中挖掘信息而当今的各种资源,如硬件、云架构和开源软件使得大数据的 处理更为方便和廉价即使是在车库中创业的公司也可以用较低的价格租用云 服务时间了对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次 开发对大数据进行分析能揭示隐藏其中的信息,例如零售业中对门店销售、 地理和社会信息的分析能提升对客户的理解。
对大数据的二次开发则是那些成 功的网络公司的长项例如 Facebook 通过结合大量用户信息,定制出高度个性 化的用户体验,并创造出一种新的广告模式这种通过大数据创造出新产品和 服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook,它们都是大数据 时代的创新者1.2 大数据的三层关系第一层关系:数据与机器的关系大数据纪元刚开始,产业界碰到的第一 个核心问题就是“大”的问题做了几十年的数据仓库甚至海量并行处理的数 据库都不能处理那么大的数据,怎么办?需要范式切换主要有三个方面,新 型的数据与机器关系当中的第一条就是重新考虑架构与算法,重新考虑舍得, 有舍才能得,天下没有免费的午餐,所以必须要舍弃一些,得到一些新的必 须舍弃贵族化的高端小型机和 UNIX 服务器,得到平民化的更大量的 X86 服务 器通过这样一种可横向、可水平扩展服务器处理每两年翻番的数据量的挑 战第二个舍得是舍弃硬件的可靠性和可用性,得到软件的可靠性和可用性 这也就是谷歌三大论文以及 Hadoop 的核心重点第三个舍得是舍弃传统数据库 的强一致性,获得更放松一致性、可扩展架构,如NoSQL第四个舍得是传统 算法强调非常严格的精确性,现在要放弃一些精确性,通过近似、采样这种方 式来获得更好的扩展性。
最早大数据的处理范式是 Mapreduce 的批量处理,英特尔慢慢有其他的需 求,实时的流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐 放,最后万法归宗刚才王斌老师将讲的 SAP 的 HANA 本身就是数据管理和分析 的融合,现在非常流行的Hadoop之后的SPARK,就是把前面的各种范式进行了 融合存储与内存的消长,大数据第一个要解决把数据存储下来,后来发现要把它放 到大的内存里进行处理,获得实时性,接着在存储和内存之间现在又出现了闪 存,有闪存化甚至全闪存的存储,也有闪存化的内存,把所有的计算在闪存里 面处理,已经被微软、Facebook等等大量使用大家可以预期,两年以后出现 新的非易失性的闪存,它的速度可能要比闪存快几百倍,和内存相似,这又会 极大地颠覆数据与机器的关系第二层关系 :数据与人的关系主要是价值的觉醒,如果数据不能产生价 值它可能是负面资产数据怎么能够给人带来价值?我们介绍一下它的价值维 度, 把它映射到二维的时空象限里, 用六个关键词来描述它 第一是“Volume”,两个关键词,小数据见微对个人进行刻划,大数据知著能够了解 宏观规律,它是空间概念,同时也是时间概念,数据刚刚产生的时候,它的个 性化价值、见微的价值最大,而随着时间的推移,它渐渐退化到只有集合价 值。
第二是Velocity,时间轴的原点是当下实时价值,副轴是过往,正轴是预 测未来,如果知道知前后就能够做到万物的皆明第三是Variety,多源异质 的数据,能够过滤噪声、查漏补缺、去伪存真,就是辩讹还有晓意,能够从 大量的非结构化数据中获得语意,从而能够使机器窥探人的思维境界,这六个 价值维度怎么去实现?主要是两部分人,一是数据科学家要洞察数据,另外一 个是终端用户和领域专家要去解读数据并利用数据首先看洞察数据,数据科 学,人和机器作用发生了消长,讲个例子,机器学习大家觉得是机器的问题, 其实人在里面起到很重要的作用,尤其是机器学习是模型加特征,而特征工程 是一个人力工程,你要有经验非常丰富的特征团队去死磕特征,找出更好、更 多的特征,才能够使机器学习的效果更好但是现在深度学习这些新技术出 来,能够用机器学习特征,能够在大量非结构化数据中找到丰富的信息维度用 特征表达出来,这远远超出了人的能力大家知道黑客帝国描述了一个场景, 人脑袋后面插一个插头,给机器提供营养,我可能不会那么悲观,但是像这样 的互动关系以一种更良性的方式出现了,现在人的一言一行、社交行为、金融 行为都已经成为机器的养料、机器的数据,使得机器获得更好的洞察。
终端用户需要更好地、更傻瓜化的分析工具和可视化工具,两年前我去参 加大数据的会,基本上都是 Hadoop 和 NoSQL 现在大家参加大数据会可以看到清 一色的分析工具和可视化工具大数据跟各行各业的化学作用正在发生如果 马化腾说“互联网+”是互联网与各行各业的加法效应,那么大数据将与各行各 业产生乘法效应第三个关系,数据与数据的关系现在只有海面平的数据是搜索引擎可以 检索到,深海的数据可能是黑暗的数据,在政府、在企业里大家看不到我们 怎么办呢?必须让数据发现数据只有让数据能够发现数据、遇到数据,才能 产生金风玉露一相逢、便胜却人间无数的效果这里有三个重要的观念,需要 法律、技术、经济理论和实践上配合法律上要明确数据的权利,数据所有 权,数据的隐私权,什么数据不能给你看;数据的许可权,什么数据是可以给 你看的;数据的审计权,我给你看了以后,你是不是按照许可的范围去看;数 据的分红权数据像原油又不同于原油,原油用完了就没有了,数据可以反复 地产生价值,因此数据的拥有者应该得到分红我们要保证数据的开放、共 享、交易 公共数据和部分科研数据要开放,开放过程中注意保护隐私企 业之间可以进行数据的点对点共享,最高境界是不丢失数据的所有权和隐私权 的前提下共享,这里有多方安全计算的概念。
1982 年姚期智老先生提出了百万 富翁的窘境的问题,两个百万富翁他们想要比谁更富,但是谁都不愿意说出来 自己都多少钱,在我们的数据共享当中要通过各种各样的技术达到这样的效 果还有数据交易,建立多边多边平台来支持数据交易互联网能发展起来经济学理论和实践是很重要的支撑,梅特卡夫定律决定 了一个互联网公司的价值,跟它用户数的平方成正比,又比如说谷歌请最好的 经济学家,它的一个广告业务的核心就是建立在一个非常先进的拍卖经济学的 模型基础上数据经济也需要这样一些基础的理论,比如数据定价和信息定价 不一样,信息做一个咨询报告5000 美金卖给你,可以卖给所有人但数据对不 同的单位价值不一样,可能我之毒药是彼之蜜糖另外估值,一个企业拥有大 量的数据,是无形资产的一部分,对于企业的市场价值带来了多大的增长1.3 大数据的四个特性大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化 能力的海量、高增长率和多样化的信息资产这也是一个描述性的定义,在对 数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数 据当前, 较为统 一的认识是大数据有四个基本特征 : 数据规模大 ( Volume) , 数 据 种 类 多 ( Variety) , 数 据 要 求 处 理 速 度 快 ( Velocity) ,数据价值密度低( Value) ,即所谓的四 V 特性。
数据规模大(Volume):企业面临着数据量的大规模增长例如,IDC最 近的报告预测称,到 2020 年,全球数据量将扩大 50 倍目前,大数据的规模 尚是一个不断变化的指标,单一数据集的规模范围从几十 TB 到数 PB 不等简 而言之,存储 1PB 数据将需要两万台配备 50GB 硬盘的个人电脑此外,各种意 想不到的来源都能产生数据数据种类多(Variety): —个普遍观点认为,人们使用互联网搜索是形成 数据多样性的主要原因,这一看法部分正确然而,数据多样性的增加主要是 由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、通话 记录及传感器网络等数据类型造成其中,部分传感器安装在火车、汽车和飞 机上,每个传感器都增加了数据的多样性处理速度快(Veloci ty):高速描述的是数据被创建和移动的速度在高 速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实 时数据流已成为流行趋势企业不仅需要了解如何快速创建数据,还必须知道 如何快速处理、分析并返回给用 户, 以满足他们的实时需求 根据 IMS Research 关于数据创建速度的调查,据预测,到 2020 年全球将拥有 220 亿部互联网连接设备。
数据价值密度低(Value):大数据具有多层结构,这意味着大数据会呈现 出多变的形式和类型相较传统的业务数据,大数据存在不规则和模糊不清的 特性,造成很难甚至无法使用传统的应用软件进行分析传统业务数据随时间 演变已拥有标准的格式,能够被标准的商务智能软件识别目前,企业面临的 挑战是处理并从各种形式呈现的复杂数据中挖掘价值1.4 大数据的三个特征 除了有四个特性之外,大数据时代的数据还呈现出其他三个特征第一个特征是数据类型繁多 包括网络日志、音频、视频、图片、地理位 置信息等等,多类型的数据对数据的处理能力提出了更高的要求.第二个特征是数据价值密度相对较低 如随着物联网的广泛应用,信息感 知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地 完成数据的价值“提纯”,是大数据时代亟待解决的难题第三个特征是处理速度快,时效性要求高 这是大数据区分于传统数据挖 掘最显著的特征2 大数据的技术与处理2.1 大数据的技术1. 数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面 数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库 或数据集市中,成为联。
