电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Hadoop入门-WordCount示例_光环大数据培训

10页
  • 卖家[上传人]:gua****an
  • 文档编号:49596481
  • 上传时间:2018-07-31
  • 文档格式:DOCX
  • 文档大小:44.48KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/HadoopHadoop 入门入门-WordCount-WordCount 示例示例_ _光环大数据培训光环大数据培训光环大数据培训光环大数据培训,WordCount 的过程如图,这里记录下入门的过程,虽然有很多地方理解的只是皮毛。hadoop 的安装安装比较简单,安装完成后进行单机环境的配置。hadoop-env.sh:指定 JAVA_HOME。# The only required environment variable is JAVA_HOME. All others are# optional. When running a distributed configuration it is best to# set JAVA_HOME in this file, so that it is correctly defined on# remote nodes.# The java implementation to use.export JAVA_HOME=“$(/usr

      2、/libexec/java_home)“core-site.xml:设置 Hadoop 使用的临时目录,NameNode 的地址。hadoop.tmp.dir /usr/local/Cellar/hadoop/hdfs/tmp fs.default.name hdfs:/localhost:9000 hdfs-site.xml:一个节点,副本个数设为 1。dfs.replication 1 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/mapred-site.xml:指定 JobTracker 的地址。mapred.job.tracker localhost:9010 启动 Hadoop 相关的所有进程。 sbin git:(master) ./start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.sh16/12/03 19:32:18 WARN util.NativeCodeLoader: Unable to load n

      3、ative-hadoop library for your platform. using builtin-java classes where applicableStarting namenodes on localhostPassword:localhost: starting namenode, logging to /usr/local/Cellar/hadoop/2.7.1/libexec/logs/hadoop-vonzhou-namenode-vonzhoudeMacBook-Pro.local.outPassword:localhost: starting datanode, logging to /usr/local/Cellar/hadoop/2.7.1/libexec/logs/hadoop-vonzhou-datanode-vonzhoudeMacBook-Pro.local.outStarting secondary namenodes 0.0.0.0Password:0.0.0.0: starting secondarynamenode, logging

      4、to /usr/local/Cellar/hadoop/2.7.1/libexec/logs/hadoop-vonzhou-secondarynamenode-vonzhoudeMacBook-Pro.local.out16/12/03 19:33:27 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform. using builtin-java classes where applicablestarting yarn daemonsstarting resourcemanager, logging to /usr/local/Cellar/hadoop/2.7.1/libexec/logs/yarn-vonzhou-resourcemanager-vonzhoudeMacBook-Pro.local.outPassword:localhost: starting nodemanager, logging to /usr/local/Cellar/hadoop/2.7.1/

      5、libexec/logs/yarn-vonzhou-nodemanager-vonzhoudeMacBook-Pro.local.out(可以配置 ssh 无密码登录方式,否则启动 hadoop 的时候总是要密码。 )看看启动了哪些组件。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/ sbin git:(master) jps -l5713 org.apache.hadoop.hdfs.server.namenode.NameNode6145 org.apache.hadoop.yarn.server.nodemanager.NodeManager6044 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager5806 org.apache.hadoop.hdfs.server.datanode.DataNode5918 org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode访问 http:/ loca

      6、lhost:50070/ 可以看到 DFS 的一些状态。WordCount 单词计数WordCount 就是 Hadoop 学习的 hello world,代码如下:public class WordCount public static class Map extends Mapper private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken(); context.

      7、write(word, one); public static class Reduce extends Reducer public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException int sum = 0; for (IntWritable val : values) sum += val.get(); context.write(key, new IntWritable(sum); public static void main(String args) throws Exception Configuration conf = new Configuration(); Job job = new Job(conf, “wordcount“); job.setJarByClass(WordCount.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Int

      8、Writable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); /* 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/* 设置一个本地 combine,可以极大的消除本节点重复单词的计数,减小网络传输的开销 */ job.setCombinerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args0); FileOutputFormat.setOutputPath(job, new Path(args1); job.waitForCompletion(true); 构造两个文本文件, 把本地的两个文件拷贝到 HDFS 中: hadoop-examples git:(master) ln /usr/local/Cellar/hadoop/2.7.1/bin/hadoop hadoop hadoop-examples git:(master) ./hadoop dfs -put wordcount-input/file* inputDEPRECATED: Use of this script to execute hdfs command is deprecated.Inst

      《Hadoop入门-WordCount示例_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《Hadoop入门-WordCount示例_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.