金锄头文库 > 行业资料 > 食品饮料 > 超详细hadoop与eclipse开发环境设置

超详细hadoop与eclipse开发环境设置

hadoop搭建与 eclipse开发环境设置罗利辉1.前言1.1 目标目的很简单，为进行研究与学习，帮忙初学者快速搭建hadoop 环境，部署一个hadoop运行环境，并搭建一个hadoop 开发与测试环境。具体目标是：在 ubuntu 系统上部署hadoop 在 windows 上能够使用eclipse 连接 ubuntu 系统上部署的hadoop 进行开发与测试1.2 软硬件要求硬件要求：三台普通PC。当然使用虚拟机也可以，本环境搭建也是VMWare6.5虚拟机上进行的。软件要求：操作系统：ubuntu 11.04 server。Hadoop 版本:hadoop-0.20.2 Eclipse版本:3.3.2 Java版本：1.6.0_26（必须 1.6 以上）注意：机器的台数最好为奇数，偶数的话有可能遇到不可预知的问题！Hadoop 版本和 Eclipse版本请严格按照要求。现在的 hadoop 最新版本是hadoop-0.20.203，我在 windows 上使用 eclipse（包括 3.6 版本和 3.3.2 版本）连接ubuntu 上的 hadoop-0.20.203 环境一直没有成功。但是开发测试程序是没有问题的，不过需要注意权限问题。如果要减少权限问题的发生，可以这样做：ubuntu 上运行hadoop 的用户与windows上的用户一样。1.3 环境拓扑图ubuntu192.168.69.231ubuntu2192.168.69.233ubuntu1192.168.69.232Windowseclipse 3.3.2192.168.69.241主机名Hadoop 角色Hadoop jps 命令结果Hadoop 用户Hadoop 安装目录ubuntu Master slaves NameNode DataNode JobTracker TaskTracker SecondaryNameNode 创建相同的用户的组名：hadoop。安装 hadoop-0.20.2时使用 hadoop 用户，并且 hadoop 的文件夹归属也是hadoop：hadoop/opt/hadoop Ubuntu1 slaves DataNode TaskTracker Ubuntu2 slaves DataNode TaskTracker Windows 开发测试环境安装了 jdk 与 eclipse，本身不需要安装hadoop，但是需要hadoop安装包下面的jar 包。注意：ubuntu 既是 NameNode 又是 DataNode，同时也是JobTracker。2.Ubuntu 安装安装 ubuntu11.04 server 系统，具体略。我是先在虚拟机上安装一个操作系统，然后把hadoop 也安装配置好了，再克隆二份，然后把主机名与IP修改，再进行主机之间的SSH配置。如果仅作为hadoop 的运行与开发环境，不需要安装太多的系统与网络服务，或者在需要的时候通过apt-get install 进行安装。不过SSH服务是必须的。3.Hadoop 安装以下的 hadoop 安装以主机ubuntu 下进行安装为例。3.1 下载安装 jdk1.6 安装版本是：jdk-6u26-linux-i586.bin，我把它安装拷贝到：/opt/jdk1.6.0_26 3.2 下载解压 hadoop 安装包是：hadoop-0.20.2.tar.gz。$tar zxvf hadoop-0.20.2.tar.gz$mv hadoop-0.20.2/opt/hadoop 3.3 修改系统环境配置文件切换为根用户。修改环境配置文件/etc/profile，加入：export JAVA_HOME=/opt/jdk1.6.0_26 export JRE_HOME=/opt/jdk1.6.0_26/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH export HADOOP_HOME=/opt/hadoop export PATH=$HADOOP_HOME/bin:$PATH 修改地址解析文件/etc/hosts，加入192.168.69.231 ubuntu 192.168.69.232 ubuntu1 192.168.69.233 ubuntu2 3.4 修改 hadoop 的配置文件切换为 hadoop 用户。修改 hadoop 目录下的conf/hadoop-env.sh 文件加入 java 的安装根路径：export JAVA_HOME=/opt/jdk1.6.0_26 把 hadoop 目录下的conf/core-site.xml 文件修改成如下：hadoop.tmp.dir/hadoop A base for other temporary directories.fs.default.name hdfs:/ubuntu:9000 The name of the default file system.A URI whose scheme and authority determine the FileSystem implementation.The uris scheme determines the config property(fs.SCHEME.impl)naming the FileSystem implementation class.The uris authority is used to determine the host,port,etc.for a filesystem.dfs.hosts.exclude excludes dfs.name.dir/hadoop/name Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories then the name table is replicated in all of the directories,for redundancy.把 hadoop 目录下的conf/hdfs-site.xml 文件修改成如下：dfs.data.dir/hadoop/data Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored.dfs.replication 3 Default block replication.The actual number of replications can be specified when the file is created.The default is used if replication is not specified in create time.把 hadoop 目录下的conf/mapred-site.xml 文件修改成如下：mapred.job.tracker ubuntu:9001 The host and port that the MapReduce job tracker runs at.If local,then jobs are run in-process as a single map and reduce task.注意：别忘了 hadoop.tmp.dir，dfs.name.dir，dfs.data.dir 参数，hadoop 存放数据文件，名字空间等的目录，格式化分布式文件系统时会格式化这个目录。这里指向了/hadoop，所以也要创建这个目录，并且用户归属也是hadoop:hadoop。把 hadoop 目录下的conf/masters 文件修改成如下：ubuntu 把 hadoop 目录下的conf/slaves 文件修改成如下：ubuntu ubuntu1 ubuntu2 3.5 分发 hadoop 安装文件我使用 VMWare 的克隆功能，将主机ubuntu 完全克隆两份:ubuntu1 和 ubuntu2，并修改相应的主机名和IP地址，这样就可以简单地保持hadoop 环境基本配置相同。如果是安装在实体物理机上，把在 ubuntu 安装的 jdk，系统配置文件/etc/host，/etc/profile，hadoop 安装目录拷贝到ubuntu1 和 ubuntu2 相应的目录。3.6 SSH配置无密码验证配置切换到 Hadoop 用户，在Hadoop 家目录下面创建.ssh目录：$cd$mkdir.ssh 在 master 节点（即主机ubuntu）上生成密钥对：$ssh-keygen t rsa 然后一直按 Enter键，按默认的选项生成密钥对保存在.ssh/id_rsa 文件中。然后执行命令：$ssh/.ssh$cp id_rsa.pub authorized_keys$scp authorized_keys ubuntu1:/home/hadoop/.ssh$scp authorized_keys ubuntu2:/home/hadoop/.ssh 从 ubuntu 向 ubuntu1 和 ubuntu2 发起 SSH连接，第一次登录时需要输入密码，以后就不需要了。$ssh ubuntu1$ssh ubuntu2 我们只需要配置从master 向 slaves 发起 SSH连接不需要密码就可以了，但这样只能在master（即在主机ubuntu）启动或关闭hadoop 服务。3.7 运行 hadoop 使用 Hadoop 用户。首先说明，hadoop 命令和参数都是大小写敏感的，该用大写时用大写，用小写时用小写，否则会执行错误。格式化分布式文件系统：$hadoop namenode-format 在 ubuntu 上启动 hadoop 守护进行：$start-all.sh 停止 hadoop 守护进程是：$stop-all.sh 在 ubuntu 上查看运行的进程：$jps 2971 SecondaryNameNode 3043 JobTracker 2857 DataNode 4229 Jps 3154 TaskTracker 2737 NameNode 在 ubuntu1 上查看运行的进程：$jps 1005 DataNode 2275 Jps 1090 TaskTracker 其它命令请参考相关资料。在 windows 上通过 WEB查看 hadoop 相关信息。修改 C:WINDOWSsystem32driversetchosts文件，加入主机名与IP对应关系：192.168.69.231 ubuntu 192.168.69.232 ubuntu1 192.168.69.233 ubuntu2 访问：http:/ubuntu:50030可以查看JobTracker的运行状态：访问：http:/ubuntu:50070可以查看NameNode 及整个分布式文件系统的状态等：3.8 运行 WordCount实例WordCount 是 hadoop 自带的实例，统计一批文本文件中各单词出现的资料，输出到指定的 output 目录中，输出目录如果已经

编号：336597209 类型：共享资源大小：666.05KB 格式：PDF 上传时间：2022-09-22

15
金贝

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！

关键词：: 详细 hadoop eclipse 开发环境设置

资源描述：: hadoop搭建与 eclipse开发环境设置罗利辉1.前言1.1 目标目的很简单，为进行研究与学习，帮忙初学者快速搭建hadoop 环境，部署一个hadoop运行环境，并搭建一个hadoop 开发与测试环境。具体目标是：在 ubuntu 系统上部署hadoop 在 windows 上能够使用eclipse 连接 ubuntu 系统上部署的hadoop 进行开发与测试1.2 软硬件要求硬件要求：三台普通PC。当然使用虚拟机也可以，本环境搭建也是VMWare6.5虚拟机上进行的。软件要求：操作系统：ubuntu 11.04 server。Hadoop 版本:hadoop-0.20.2 Eclipse版本:3.3.2 Java版本：1.6.0_26（必须 1.6 以上）注意：机器的台数最好为奇数，偶数的话有可能遇到不可预知的问题！Hadoop 版本和 Eclipse版本请严格按照要求。现在的 hadoop 最新版本是hadoop-0.20.203，我在 windows 上使用 eclipse（包括 3.6 版本和 3.3.2 版本）连接ubuntu 上的 hadoop-0.20.203 环境一直没有成功。但是开发测试程序是没有问题的，不过需要注意权限问题。如果要减少权限问题的发生，可以这样做：ubuntu 上运行hadoop 的用户与windows上的用户一样。1.3 环境拓扑图ubuntu192.168.69.231ubuntu2192.168.69.233ubuntu1192.168.69.232Windowseclipse 3.3.2192.168.69.241主机名Hadoop 角色Hadoop jps 命令结果Hadoop 用户Hadoop 安装目录ubuntu Master slaves NameNode DataNode JobTracker TaskTracker SecondaryNameNode 创建相同的用户的组名：hadoop。安装 hadoop-0.20.2时使用 hadoop 用户，并且 hadoop 的文件夹归属也是hadoop：hadoop/opt/hadoop Ubuntu1 slaves DataNode TaskTracker Ubuntu2 slaves DataNode TaskTracker Windows 开发测试环境安装了 jdk 与 eclipse，本身不需要安装hadoop，但是需要hadoop安装包下面的jar 包。注意：ubuntu 既是 NameNode 又是 DataNode，同时也是JobTracker。2.Ubuntu 安装安装 ubuntu11.04 server 系统，具体略。我是先在虚拟机上安装一个操作系统，然后把hadoop 也安装配置好了，再克隆二份，然后把主机名与IP修改，再进行主机之间的SSH配置。如果仅作为hadoop 的运行与开发环境，不需要安装太多的系统与网络服务，或者在需要的时候通过apt-get install 进行安装。不过SSH服务是必须的。3.Hadoop 安装以下的 hadoop 安装以主机ubuntu 下进行安装为例。3.1 下载安装 jdk1.6 安装版本是：jdk-6u26-linux-i586.bin，我把它安装拷贝到：/opt/jdk1.6.0_26 3.2 下载解压 hadoop 安装包是：hadoop-0.20.2.tar.gz。$tar zxvf hadoop-0.20.2.tar.gz$mv hadoop-0.20.2/opt/hadoop 3.3 修改系统环境配置文件切换为根用户。修改环境配置文件/etc/profile，加入：export JAVA_HOME=/opt/jdk1.6.0_26 export JRE_HOME=/opt/jdk1.6.0_26/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH export HADOOP_HOME=/opt/hadoop export PATH=$HADOOP_HOME/bin:$PATH 修改地址解析文件/etc/hosts，加入192.168.69.231 ubuntu 192.168.69.232 ubuntu1 192.168.69.233 ubuntu2 3.4 修改 hadoop 的配置文件切换为 hadoop 用户。修改 hadoop 目录下的conf/hadoop-env.sh 文件加入 java 的安装根路径：export JAVA_HOME=/opt/jdk1.6.0_26 把 hadoop 目录下的conf/core-site.xml 文件修改成如下：hadoop.tmp.dir/hadoop A base for other temporary directories.fs.default.name hdfs:/ubuntu:9000 The name of the default file system.A URI whose scheme and authority determine the FileSystem implementation.The uris scheme determines the config property(fs.SCHEME.impl)naming the FileSystem implementation class.The uris authority is used to determine the host,port,etc.for a filesystem.dfs.hosts.exclude excludes dfs.name.dir/hadoop/name Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories then the name table is replicated in all of the directories,for redundancy.把 hadoop 目录下的conf/hdfs-site.xml 文件修改成如下：dfs.data.dir/hadoop/data Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored.dfs.replication 3 Default block replication.The actual number of replications can be specified when the file is created.The default is used if replication is not specified in create time.把 hadoop 目录下的conf/mapred-site.xml 文件修改成如下：mapred.job.tracker ubuntu:9001 The host and port that the MapReduce job tracker runs at.If local,then jobs are run in-process as a single map and reduce task.注意：别忘了 hadoop.tmp.dir，dfs.name.dir，dfs.data.dir 参数，hadoop 存放数据文件，名字空间等的目录，格式化分布式文件系统时会格式化这个目录。这里指向了/hadoop，所以也要创建这个目录，并且用户归属也是hadoop:hadoop。把 hadoop 目录下的conf/masters 文件修改成如下：ubuntu 把 hadoop 目录下的conf/slaves 文件修改成如下：ubuntu ubuntu1 ubuntu2 3.5 分发 hadoop 安装文件我使用 VMWare 的克隆功能，将主机ubuntu 完全克隆两份:ubuntu1 和 ubuntu2，并修改相应的主机名和IP地址，这样就可以简单地保持hadoop 环境基本配置相同。如果是安装在实体物理机上，把在 ubuntu 安装的 jdk，系统配置文件/etc/host，/etc/profile，hadoop 安装目录拷贝到ubuntu1 和 ubuntu2 相应的目录。3.6 SSH配置无密码验证配置切换到 Hadoop 用户，在Hadoop 家目录下面创建.ssh目录：$cd$mkdir.ssh 在 master 节点（即主机ubuntu）上生成密钥对：$ssh-keygen t rsa 然后一直按 Enter键，按默认的选项生成密钥对保存在.ssh/id_rsa 文件中。然后执行命令：$ssh/.ssh$cp id_rsa.pub authorized_keys$scp authorized_keys ubuntu1:/home/hadoop/.ssh$scp authorized_keys ubuntu2:/home/hadoop/.ssh 从 ubuntu 向 ubuntu1 和 ubuntu2 发起 SSH连接，第一次登录时需要输入密码，以后就不需要了。$ssh ubuntu1$ssh ubuntu2 我们只需要配置从master 向 slaves 发起 SSH连接不需要密码就可以了，但这样只能在master（即在主机ubuntu）启动或关闭hadoop 服务。3.7 运行 hadoop 使用 Hadoop 用户。首先说明，hadoop 命令和参数都是大小写敏感的，该用大写时用大写，用小写时用小写，否则会执行错误。格式化分布式文件系统：$hadoop namenode-format 在 ubuntu 上启动 hadoop 守护进行：$start-all.sh 停止 hadoop 守护进程是：$stop-all.sh 在 ubuntu 上查看运行的进程：$jps 2971 SecondaryNameNode 3043 JobTracker 2857 DataNode 4229 Jps 3154 TaskTracker 2737 NameNode 在 ubuntu1 上查看运行的进程：$jps 1005 DataNode 2275 Jps 1090 TaskTracker 其它命令请参考相关资料。在 windows 上通过 WEB查看 hadoop 相关信息。修改 C:WINDOWSsystem32driversetchosts文件，加入主机名与IP对应关系：192.168.69.231 ubuntu 192.168.69.232 ubuntu1 192.168.69.233 ubuntu2 访问：http:/ubuntu:50030可以查看JobTracker的运行状态：访问：http:/ubuntu:50070可以查看NameNode 及整个分布式文件系统的状态等：3.8 运行 WordCount实例WordCount 是 hadoop 自带的实例，统计一批文本文件中各单词出现的资料，输出到指定的 output 目录中，输出目录如果已经

展开阅读全文

金锄头文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。