Hadoop大数据概述
13页1、 Hadoop-1-大数据概述 在学习Hadoop之前,我们先来学习一下大数据的有关知识吧1.1 大数据时代1.1.1 三次信息化浪潮次序时间标志解决问题代表企业大数据第一次信息化浪潮1980年前后个人计算机信息处理Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等兴起第二次信息化浪潮1995年前后互联网信息传输雅虎,Google,Alibaba,百度,腾讯普及第三次信息化浪潮2010年前后物联网、云计算和大数据信息爆炸亚马逊、Google、IBM、VMWare、Palantir、Hortonworks、Cloudera、阿里云等大数据时代1.1.2 信息科技提供技术支撑:存储、计算、网络信息科技需要解决信息存储、信息传输 和 信息处理 3 个核心问题,人类社会在信息科技领域的不断进步为大数据时代的到来提供了技术支撑。存储设备容量不断提升,价格不断下降CPU性能大幅提升(摩尔定律)网络带宽不断增加1.1.3 数据产生方式变革数据产生方法的变革,是促进大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了 3 个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段
2、。运营式系统阶段所有运营活动都存储在数据库中数据库的诞生是一重要标志。在这一阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库。用户原创内容阶段博客、微博,每个网民都能创作互联网真正的数据爆发产生于以“用户原创内容”为特征的 Web 2.0 时代。Web 2.0 技术以 Wiki、博客、微博、微信等自服务模式为主,增强自服务,大量用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、上传照片,数据量急剧增加。感知式系统阶段物联网最底层包含很多设备(感知器、传感器、摄像头)源源不断产生信息物联网的发展最终导致了人类社会数据量的第三次跃升。物联网包含大量传感器以及视频监控摄像头。这些设备,每时每刻都在自动产生大量数据,与 Web 2.0 时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在段时间内生成更密集、更大量数据,是得人类社会迅速步入“大数据时代”。1.1.4 大数据发展历程大数据的发展历程总体上可以划分为 3 个重要阶段:阶段时间内容萌芽期20 世纪 90 年代至 21 世纪初随着数据挖掘
3、理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等成熟期21 世纪前 10 年Web 2.0 应用迅猛发展,非结构化数据大量出现,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方法逐渐走向成熟,形成了并行计算 与 分布式系统 两大核心技术,谷歌的 GFS 和 MapReduce 等大数据技术受到追捧,Hadoop 平台大行其道。大规模应用期2010 年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅度提高1.2 大数据概念4V:大量化(Volume)、快速化(Velocity)、多样化(Variety)、价值密度比较低(Value)1.2.1 数据量大大数据摩尔定律:数据每两年增长一倍随着 Web 2.0 和移动互联网的快速发展,以及物联网的推广和普及,人类社会正经历着第二次“数据大爆炸”。各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。1.2.2 数据类型繁多大数据的数据类型丰富,包括结构化数据 和 非结构化数据。10%结构化数据,存储在关系
4、数据库中90%非结构化数据,种类繁多,主要包括邮件、音频、视频、微信、微博等各种网络信息,与人类信息密切相关1.2.3 处理速度快数据生成到消耗时间窗口非常小,用于生成决策时间非常少大数据时代的许多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常需要达到秒级响应。1秒定律和传统的数据挖掘技术有本质不同为了数显快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。如谷歌公司的 Dremel。1.2.4 价值密度低在大数据时代,许多有用信息都是分散在海量数据中的。但商业价值高,如监控器,连续不间断的监控可能只有几秒有用1.3 大数据影响1.3.1 大数据对科学研究的影响在科研上先后有实验、理论、计算和数据四种范式比萨斜塔各种定律(相对论)计算机解决问题数据分析实验科学理论科学计算科学数据密集型科学虽然第三种范式和第四种范式都是利用计算机进行计算,但是二者还有有本质区别的。在第三种研究范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证。而对于第四种研究范式,则是现有了大量已知的数据,然后通过计算得出之前未
《Hadoop大数据概述》由会员Baige****0346分享,可在线阅读,更多相关《Hadoop大数据概述》请在金锄头文库上搜索。
员工积极主动行为的组态效应:基于过程的视角
汪晖齐物平等与跨体系社会的天下想象
函数性质中的数学抽象在问题解决与设计中的应用
日本东京大学入学考试理科数学试题解析
二次电池研究进展
实践研究与论理逻辑
光学视觉传感器技术研究进展
龙泉青瓷的传承困境与发展
齐齐哈尔地区抗根肿病大白菜品种的抗性鉴定与评价
基于系统动力学模型的胶州湾海域承载力预测
基于弯液面电化学连接碳纤维实验初探
龟甲胶研究发展探析
鼻腔黏膜免疫佐剂鞭毛蛋白的研究进展
鼻内镜辅助上颌骨部分切除术治疗鼻腔鼻窦腺样囊性癌的临床分析
黑豆不同发芽期多酚、黄酮及抗氧化活性分析
齐鲁青未了:山东当代文学审美流变论
黄登水电站机电设备安装工程施工技术质量管理
黄河文化传承视角下音乐剧创作探究
黄亦琦从风论治咳嗽变异性哮喘经验※
鲸豚动物吸附式声学行为记录器综述
2022-03-24 12页
2022-03-24 11页
2022-03-24 10页
2022-03-24 25页
2022-03-24 13页
2022-03-24 18页
2022-03-24 10页
2022-03-24 32页
2022-03-24 8页
2022-03-24 9页