好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

bigdata《大数据时代》读书笔记——精华观点和核心语句.pdf

5页
  • 卖家[上传人]:jiups****uk12
  • 文档编号:38303487
  • 上传时间:2018-04-30
  • 文档格式:PDF
  • 文档大小:370.27KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • big databig data《大数据时代》《大数据时代》 精华观点和精华观点和核心核心语句语句 不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关系 如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求开放 所带来的改变远远大于拥有权和隐私性保护所带来的问题 要全体不要抽样,要效率不要绝对精确,要相关不要因果 作者认为相关关系比因果关系重要,译者表示反对,认为放弃因果等于放弃人类的智力 优势,是末日之始导致相关关系比因果关系重要的原因在于,我们机器学习和以结果 为导向的研究思路误导人类 公共医疗: Google 通过分析 03 到 08 的流感相关搜索词条,将 45 中词条组合输入一个 数学模型之后,得到的流感预测数据和官方统计数据有 97%吻合09 年判断准确,及 时预报流感 商业: farecast 利用十万亿条飞机票价记录,预测飞机票价准确度高达 75%,利用 farecast 购买机票的旅客平均每张机票节省 50 美元 不再需要一致性的数据库和僵化的层次结构,不再需要结构化查询语言 sql,最新的数 据库为非关系型数据库 nosql。

      美国股市每天成交量高达 70 亿股,其中三分之二都是由数学模型和算法之上的计算机 程序自动完成的,这些程序利用海量数据来预测利益和降低风险 数据爆炸式增长,绝大部分为数字信息,极少部分为模拟数据数据每三年多翻一番 数据规模的量变产生质变,就比如万有引力对生物体大小的关系,纳米技术对现实生活 物质的性质有所改变一样,空气阻力和重量和形状关系一样 大数据的核心在于预测,把数学算法运用到海量数据中来预测事情发生的可能性 不再依赖于随机采样,不在热衷于追求精确度并非完全放弃精确度,只是不再沉迷于 此不在热衷于寻找因果关系,而是寻找事物之间的相关性 数据化意味着从一切事物中汲取数据, 甚至包括我们以前认为和“信息”搭不上边的事 情比方说,一个人所在的位置、引擎的振动、桥梁的承重等等 如同电影《点石成金》中,棒球球探们在统计学家面前相形见绌——直觉的判断被迫让 位于精准的数据分析 正文: 第一章:样本 =全体 统计学家证明,采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量 的增加关系不大 随机采样取得了巨大的成功, 但是他的成功利亚与采样的绝对随机性, 实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。

      搜集的数据越来越多,分析和预测结果就会越来越准确,并发现一些细节和微乎其微的 重要问题 有些情况下,异常值才是重要的信息,大数据的处理方法就不会错过这个异常值商务 是即时的,因此数据分析也应该是即时的 《魔鬼经济学》 大数据是指不用随机分析法这样的捷径,而是通过采用所有数据的方法数据量不一定 很大,但需要全部,包含了所有的信息 Lytro 相机记录整个光场的信息,搜集了所有的数据,拍摄完之后再对焦,而且有“可 循环利用性” 《爆发》 第二章:混杂性 只有 5%的数据是结构化的,可以适用于传统数据库,如果不接受混乱,剩下 95%的非 结构化数据都无法被利用 少量数据下运行最佳的算法,可能在大数据下可能会表现差强人意,在少量数据下表现 差的算法,可能在大数据下惊呆小伙伴们大数据的简单算法比小数据的复杂算法更有 效,混杂是关键 谷歌翻译之所以好,除了数据量庞大以外,还接受了有错误的数据,即来自互联网的废 弃内容 Hadoop 超大量数据下的分布式处理,假设系统瘫痪而建立数据副本,假定数据量巨大 无法移动,人们必须在本地进行数据分析它的输出结果不想关系型数据库那般精确, 无法用于卫星发射、开具银行账户明细,但是运行却快很多。

      第三章 不是因果关系,而是相关关系 通过数据推荐产品所增加的销售远远超过书评家的贡献 计算机可能不知道为什么喜欢 海明威作品的客户会购买菲茨吉拉德的书,但是他只要通过算法统计分析,得知这个结 果就可以了 沃尔玛领导了零售链的革命,让供应商监控销售速率、数量、以及存货情况这个数据 库不仅包含了每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时 间,甚至购买当天的天气 在大数据时代,通过建立在人的偏见上的关联物检测法已经不再可行,因为数据库太大 而且需要考虑的领域太复杂幸运的是,许多迫使我们选择假想分析法的限制条件也逐 渐消失了现在我们拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选 择一个关联物或者一小部分相似的数据来逐一分析了大数据的相关关系分析法,取代 了基于假想的易出错的方法大数据的相关关系法更准确、更快,而且不易受偏见的影 响 塔基特公司在完全不合准妈妈对话的前提下预测一个女性会在什么时候怀孕 她们会光 顾以前不会去的商店,渐渐对新的品牌建立忠诚 ups 与汽车修理预测,车辆处故障后,造成延误和在装载的负担,消耗大量人力物力 通过检测汽车的每个部位,及时更换需要更换的零件,免除了可能会造成的困扰。

      同样 的方法也可以用在人的身上,,检测病人的即时信息 第四章 数据化 一切皆可量化 莫里整合美国海军的航海日志, 绘制更安全和快速的航海图表, 其他商船需要使用图表, 必须(病毒式传染)按照要求撰写航海日志并提交给莫里将海上的船只都变成一个个 科学站和天文台 数据化不是数字化,数字化只是把模拟数据变成 1 和 0 来表示 gps 全球定位系统的地理定位能精确到米,实现了自古以来无数航海家、制图家和数学 家的梦想 airsage 每天通过处理上百万用户的 150 亿条位置信息,为超过 100 个美国城市提 供实时交通信息 facebook,twitter 等社交网络将我们的关系、经历和情感进行数据化他们不仅提供我 们寻找和维持朋友、同事关系的场所,也将我们日常生活中的无形元素提取出来,转化 为可用作新用途的数据华尔街的数学奇才们将数据传输到他们的算法模式当中,寻找 能被有效利用的关系模式当中社交网络分析之父写了一个程序,能通过监听新微薄的 发布频率,预测一部电影的成败,比其他传统方法还要准确 自我量化是一项由一群健身迷、医学疯子以及技术狂人发起的运动,通过测量身体每一 个部位和每一件事来让生活更美好。

      第五章 价值 取之不尽用之不竭 验证码输入时,一个用于证明对方是人类,另一个则是图书扫描时计算机无法识别的模 糊单词,由网络上大量用户帮忙识别,节省了大量人力物力财力 随着购物平台、设计平台、金融等的出现,我们的人脉关系、想法、喜好和日常生活模 式也逐渐被加入到巨大的个人信息库中 数据的价值不会随着它的使用而减少,而是可以不断被处理,个人的使用不会妨碍其他 人的使用 ibm 搜集汽车电量和路线、充电站插槽、天气等等信息,开发了复杂的预测模型,确定 充电的最佳时间和地点,揭示充电站的最佳设置点 google 推出语音识别服务,借助 nuance 的技术,但是自己储存语音识别记录,依靠此 记录重新创建了一个新的语音识别系统 搜集数据是必须确保数据具有再利用性、重组能力、可拓展能力 有部分数据价值会随之时间推移失去价值,比如在亚马逊上购买一本书,数月后对这方 面的书完全失去了兴趣,则这个数据就失去了价值但并非所有的数据都会贬值,大数 据下鼓励储存所有数据并试图挖掘其中的价值 google 拥有世界上最完整的拼写检查器,涵盖世界上每一种语言,依据是每天处理的 30 亿查询中输入搜索框中的错误拼写。

      “数据废气”——他是用户交互的副产品,包括浏览了那些页面、停留了多久、鼠标 光标停留的位置、 输入了什么信息等 比如 google 如果发现用户搜索之后再重复搜索, 则表明搜索结果不满意, 或者发现用户点击后面的选项, 则算法自动将后面的选项调前 是搜索引擎的自我训练 电子阅读器捕捉大量关于文学喜好和阅读人群的数据,贩卖给出版社比如阅读一页或 一节需要多长时间,读者是略读还是直接放弃阅读,是否划线强调还是在空白处做了标 记,这些信息都是出版商和作者之前不会知道的信息 课程跟踪学生的 web 交互来寻找最佳的教学方法,比如多次看一个课程,说明该 课程没有讲清楚 政府是最大规模信息的原始采集者美国、欧盟等政府已经公开了很多信息,除了一些 机密的信息flyontime.us 航班时间预测,搜集交通运输局的历史航班延误数据、美国 联邦航空管理局的机场信息,以及美国国家海洋和大气管理局的以往天气报告、国美气 象服务的实时状态等 给数据估值——facebook 更具会计准则计算出的价值为 63 亿美元,但市场估值却为 1040 亿美元,为什么差距这么大?公司账面价值和市场价值之间的差额被记为“无形资 产”。

      二十世纪八十年代中期,无形资产在美国上市公司市值中约占 40%,而在 2002 年,这一数据已经增长为 75%无形资产早期包括品牌、人才和战略这些应计入正规 金融会计制度的非有形资产部分但渐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴几乎肯定数据的价值将显示在企业的资产负载表上,成为一个新的资产 类别 催生了一大批倒卖数据的公司和机构,纷纷给数据定价,数据在不断被转手和利用,共 同挖掘其中的价值 第六章 角色定位 收集电子商务网站上所有的电子产品的价格数据和产品信息, 告知用户何时 才是购买电子产品的最佳时机 预测准确率高达 77% 他和 farecast 都出自奥伦之手 大数据价值链三大构成:基于数据本身的公司,基于技能的公司,基于思维的公司 google 和亚马逊幸运地同时拥有这三个方面 数据科学家是统计学家、软件程序员、图形设计师和作家的结合体,通过搜寻数据库来 得到新的发现 信用卡发行商搜集消费信息 微软和医院合作,分析多年来的匿名医疗记录,发现出现压抑的病人再次入院的概率更 高,因此出院以后的医学干预必须以解决病人的心理问题为重心,降低再入院率和医疗 成本。

      所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解 决的问题提供答案 金矿产业链中,金子最珍贵,因此数据的价值胜过算法技术和大数据思维 inrix 搜集全美和欧洲的汽车交通信息,并提供 app 给司机,供司机查询交通情况,同时 司机自身的交通数据也上传分享了出来他同时发现一些价值点,比如一个商场周围车 辆很多,说明商场的销量增加上下班高峰时期的交通状况变好了,这就说明失业率增 加了,经济状况变差了 行业专家和技术专家的光芒都会被统计学家和数据分析家的出现而变暗, 因为后者不受 旧观念的影响,能够聆听数据发出的声音 人们把专业人才看的比全才更重要,深度才是财富 苹果公司与运营商签订合约的时候规定,运营商提供给它大部分的有用数据 普通消费者愿意免费提供这些数据来换取更好的服务,比如亚马逊的图书推荐、博客、 twitter,维基百科等等 第七章 风险 大数据时代,很多数据在搜集的时候并无意用作其他用途,而最终却产生了很多创新性 的用途 无处不在的信息泄露,侵犯了人们的隐私,一个可能的途径是匿名化,但是匿名化对大 数据是无效的,因为搜集的数据越来越多,我们会结合越来越多不同来源的数据。

      “蓝色粉碎”为警员提供情报,关于哪些地方更容易发生犯罪事件,什么时候更容易带到 罪犯帮助执法部门更好的分配资源,使犯罪发生率下降了 26% 过分依赖数据,而数据远远没有我们所想的那么可靠美国国防部长衡量越战成果用死 亡人数,但只有 2%的美国将军认为死亡人数对战争成果是有意义的,美国很多部门一 层一层将数字夸大化 其实,卓越的才华并不依赖于数据乔布斯依靠的是直觉,他的第六感,记者问他做了 多少市场调研时,“没做!消费者没有义务去了解自己想要什么 第八章 掌控 责。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.