您所在位置：网站首页 > 办公文档 > PPT模板库 > 其它 > 最新hadoop技术讲解ppt模版课件

最新hadoop技术讲解ppt模版课件.ppt

38页

卖家[上传人]：bin****86

文档编号：57670165

上传时间：2018-10-23

文档格式：PPT

文档大小：1.10MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25金贝

下载

/ 38 举报版权申诉马上下载

文本预览

下载提示

常见问题

Hadoop,电子工业出版社刘鹏主编《云计算》教材配套课件8,主要内容,Hadoop项目简介 HDFS体系结构 HDFS关键运行机制 Hadoop VS.Google（分布式文件系统） Hadoop API Hadoop环境搭建,Hadoop项目简介,Apache的解决方案,GFSHDFS MapReduceHadoop BigTableHBase,,,Hadoop项目简介,HDFS为了做到可靠性（reliability）创建了多份数据块（data blocks）的复制（replicas），并将它们放置在服务器群的计算节点中（compute nodes），MapReduce就可以在它们所在的节点上处理这些数据了HDFS体系结构,NameNodeMaster DataNodeChunksever,HDFS关键运行机制 --保障可靠性的措施,一个名字节点和多个数据节点数据复制（冗余机制）--存放的位置（机架感知策略）故障检测 --数据节点心跳包（检测是否宕机）块报告（安全模式下检测）数据完整性检测（校验和比较） --名字节点（日志文件，镜像文件）空间回收机制,HDFS关键运行机制 --写文件流程,客户端缓存流水线复制并发写控制流程： 1.客户端把数据缓存到本地临时文件夹 2.临时文件夹数据超过64M，客户端联系NameNode， NameNode分配DataNode，DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列 3.与序列的第一个数据服务器建立Socket连接，发送请求头，然后等待回应，依次下传，客户端得到回包，流水线建立成功， 4. 正式发送数据，以4K为大小传送,HDFS关键运行机制 --读文件流程,客户端联系NameNode,得到所有数据块信息，以及数据块对应的所有数据服务器的位置信息尝试从某个数据块对应的一组数据服务器中选出一个，进行连接（选取算法未加入相对位置的考虑）数据被一个包一个包发送回客户端，等到整个数据块的数据都被读取完了，就会断开此链接，尝试连接下一个数据块对应的数据服务器，整个流程，依次如此反复，直到所有想读的都读取完了为止,Hadoop VS. Google,技术架构的比较数据结构化管理组件：Hbase→BigTable 并行计算模型：MapReduce→MapReduce 分布式文件系统：HDFS→GFS Hadoop缺少分布式锁服务Chubby,HBase,MapReduce,HDFS,BigTable,MapReduce,GFS,Hadoop云计算应用,Chubby,Google云计算应用,Hadoop VS. Google,HDFS与GFS比较中心服务器模式的差异 GFS：多台物理服务器，选择一台对外服务，损坏时可选择另外一台提供服务 HDFS：单一中心服务器模式，存在单点故障原因：Hadoop缺少分布式锁服务,Hadoop VS. Google,HDFS与GFS比较子服务器管理模式差异 GFS：Chunk Server在Chubby中获取独占锁表示其生存状态，Master通过轮询这些独占锁获知Chunk Server的生存状态 HDFS：DataNode通过心跳的方式告知NameNode其生存状态 GFS中，Master损坏时，替补服务器可以快速获知Chunk Server的状态 HDFS中，NameNode损坏后，NameNode恢复时需要花费一段时间获知DataNode的状态在添加数据存储节点时，GFS的伸缩性较HDFS要好原因：Hadoop缺乏分布式锁服务,Hadoop VS. Google,HDFS与GFS比较 HDFS具备安全模式获知数据块副本状态，若副本不足，则拷贝副本至安全数目（如3个）GFS不具备安全模式副本损坏处理：API读取副本失败时，Master负责发起拷贝任务,Hadoop VS. Google,HDFS与GFS比较 HDFS具备空间回收机制文件删除时，仅删除目录结构实际数据的删除在等待一段时间后实施优点：便于恢复文件,HDFS API,Hadoop API被分成（divide into）如下几种主要的包（package）:org.apache.hadoop.conf 定义了系统参数的配置文件处理API。

org.apache.hadoop.fs 定义了抽象的文件系统APIorg.apache.hadoop.Hdfs HDFS，Hadoop的分布式文件系统实现org.apache.hadoop.io 定义了通用的I/O API，用于针对网络，数据库，文件等数据对象做读写操作org.apache.hadoop.ipc 用于网络服务端和客户端的工具，封装了网络异步I/O的基础模块org.apache.hadoop.mapreduce Hadoop分布式计算系统（MapReduce）模块的实现，包括任务的分发调度等org.apache.hadoop.metrics 定义了用于性能统计信息的API，主要用于mapred和dfs模块org.apache.hadoop.record 定义了针对记录的I/O API类以及一个记录描述语言翻译器，用于简化将记录序列化成语言中性的格式（language-neutral manner）org.apache.hadoop.tools 定义了一些命令行的工具org.apache.hadoop.util 定义了一些公用的APIorg.apache.hadoop.Secruity 用户和用户组信息,HDFS API --org.apache.hadoop.fs,◦org.apache.hadoop.fs.FileSystem (implements java.io.Closeable) ◦org.apache.hadoop.fs.FilterFileSystem ◦org.apache.hadoop.fs.ChecksumFileSystem ◦org.apache.hadoop.fs.InMemoryFileSystem ◦org.apache.hadoop.fs.LocalFileSystem ◦org.apache.hadoop.fs.HarFileSystem ◦org.apache.hadoop.fs.RawLocalFileSystem 抽象文件系统的基本要素和基本操作。

最显著的一个特点就是，FileSystem文件系统是基于流式数据访问的，并且，可以基于命令行的方式来对文件系统的文件进行管理与操作HDFS API --org.apche.hadoop.ipc,org.apache.hadoop.ipc.VersionedProtocol org.apache.hadoop.hdfs.protocol.ClientProtocol org.apache.hadoop.hdfs.protocol.ClientDatanodeProtocol org.apache.hadoop.hdfs.server.protocol.NamenodeProtocol org.apache.hadoop.hdfs.server.protocol.DatanodeProtocol org.apache.hadoop.hdfs.server.protocol.InterDatanodeProtocol,HDFS API --org.apache.hadoop.HDFS,ClientProtocol协议：客户端进程与Namenode进程进行通信 DataNodeProtocol协议：一个DFS Datanode用户与Namenode进行通信的协议 InterDatanodeProtocol协议：Datanode之间的通信 ClientDatanodeProtocol协议：客户端进程与datenode进程进行通信 NamenodeProtocol协议：次级Namenode（Secondary NameNode）与Namenode进行通信所需进行的操作,Namenode主要实现了ClientProtocol，DatanodeProtocol，NamenodeProtocol,HDFS API -- ClientProtocol（文件基本操作接口）,获取到指定文件src的全部块的信息返回LocatedBlocks，包括文件长度、组成文件的块及其存储位置（所在的Datanode数据结点）--public LocatedBlocks getBlockLocations(String src, long offset, long length) 在制定的文件系统命名空间中创建一个文件入口（entry），在命名空间中创建一个文件入口。

该方法将创建一个由src路径指定的空文件 --public void create(String src, FsPermission masked, String clientName, boolean overwrite, short replication, long blockSize) 对指定文件执行追加写操作，返回信息，可以定位到追加写入最后部分块的信息--public LocatedBlock append(String src, String clientName) 设置副本因子，为一个指定的文件修改块副本因子--public boolean setReplication(String src, short replication),HDFS API -- ClientProtocol（文件基本操作接口）,为已经存在的目录或者文件，设置给定的操作权限--public void setPermission(String src, FsPermission permission) 设置文件或目录属主--public void setOwner(String src, String username, String groupname) 客户端放弃对指定块的操作--public void abandonBlock(Block b, String src, String holder) 客户端向一个当前为写操作打开的文件写入数据块--public LocatedBlock addBlock(String src, String clientName) 客户端完成对指定文件的写操作，并期望能够写完，在写完以后关闭文件 --public boolean complete(String src, String clientName) 客户端向Namenode报告corrupted块的信息(块在Datanode上的位置信息)--public void reportBadBlocks(LocatedBlock[] blocks) throws IOException,HDFS API -- ClientProtocol（文件基本操作接口）,在文件系统命令空间中重命名一个文件或目录 --public boolean rename(String src, String dst) 删除文件或目录src --public boolean delete(String src) 删除文件或目录src，根据recursive选项来执行 --public boolean delete(String src, boolean recursive) throws IOException; 创建目录src，并赋予目录src指定的nasked权限 --public boolean mkdirs(String src, FsPermission masked) throws IOException; 获取指定目录src中的文件列表 --public FileStatus[] getListing(String src) throws IOException;,。

点击阅读更多内容