Hadoop之HelloWorld

Hadoop开始：

1. 下载最新的发行版，解压到你喜欢的路径。

2. 配置，Hadoop的配置文件位于～/hadoop/conf/ 目录下。这里我先只配置了core-site.xml文件。

 <?xml version="1.0"?>

 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 <!-- Put site-specific property overrides in this file. -->

 <configuration>

     <property>

         <name>fs.default.name</name>

         <value>hdfs://localhost:9000</value>

     </property>

     <property>

         <name>hadoop.tmp.dir</name>

         <value>/home/Jack/dfs</value>

     </property>

 </configuration>

上面我指定了hadoop的DFS文件系统的路径。

3. 格式化DFS系统，输入命令: > ./hadoop namenode -format

4. 启动Hadoop，输入命令: > ./start-all.sh

**到这里Hadoop的启动已经正常，可以在端口50070和50030查看集群的状态。

======================================================================

第一个程序：HadoopHelloWorld

import java.io.IOException;

import java.util.*;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.*;

import org.apache.hadoop.mapred.*;

public class HadoopHelloWorld {

    public static class Map extends MapReduceBase implements Mapper<LongWritable,Text,Text,IntWritable> {

        private final static IntWritable one=new IntWritable(1);

        private Text word=new Text();

        public void map(LongWritable key, Text value, OutputCollector<Text,IntWritable> output, Reporter reporter)

        throws IOException {

            String line= value.toString();

            StringTokenizer tokenizer=new StringTokenizer(line);

            while(tokenizer.hasMoreTokens()) {

                word.set(tokenizer.nextToken());

                output.collect(word, one);

            }

        }

    }

    public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,Text,IntWritable> {

        public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable>output, Reporter reporter)

        throws IOException{

            int sum=0;

            while(values.hasNext()) {

                sum+=values.next().get();

            }

            output.collect(key, new IntWritable(sum));

        }

    }

    public static void main(String args[]) throws Exception {

        JobConf conf=new JobConf(HadoopHelloWorld.class);

        conf.setJobName("wordcount");

        conf.setOutputKeyClass(Text.class);

        conf.setOutputValueClass(IntWritable.class);

        conf.setMapperClass(Map.class);

        conf.setReducerClass(Reduce.class);

        conf.setInputFormat(TextInputFormat.class);

        conf.setOutputFormat(TextOutputFormat.class);

        FileInputFormat.setInputPaths(conf, new Path(args[0]));

        FileOutputFormat.setOutputPath(conf, new Path(args[1]));

        JobClient.runJob(conf);

    }

}

HadoopHelloWorld

需要引入的基础包：

JRE system Library

Hadoop-core.jar

commons-logging.jar

说明一下，别的文档中没有将需要commons-logging.jar 这个包，可以我的没有这个包一直报错。java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory

以上工作做好了之后，编译HadoopHelloWorld.java文件就好，将生成的class文件放入文件夹~/source/java2013/HadoopHelloWorld/，然后打成一个jar包。

[Jack@win bin]$ jar -cvf HadoopHelloWorld.jar -C ~/source/java2013/HadoopHelloWorld/ .

上传2个input文件作为程序输入[ file01,file02 ]。

[Jack@win bin]$./ hadoop fs -mkdir input

[Jack@win bin]$ ./hadoop dfs -put ~/source/java2012/FirstJar/input/file* input

运行程序：

[Jack@win bin]$./hadoop jar HadoopHelloWorld.jar HadoopHelloWorld input output

13/06/20 03:16:44 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.

13/06/20 03:16:45 INFO util.NativeCodeLoader: Loaded the native-hadoop library

13/06/20 03:16:45 WARN snappy.LoadSnappy: Snappy native library not loaded

13/06/20 03:16:45 INFO mapred.FileInputFormat: Total input paths to process : 4

13/06/20 03:16:45 INFO mapred.JobClient: Running job: job_201306200226_0002

13/06/20 03:16:46 INFO mapred.JobClient: map 0% reduce 0%

13/06/20 03:16:59 INFO mapred.JobClient: map 40% reduce 0%

13/06/20 03:17:05 INFO mapred.JobClient: map 80% reduce 0%

13/06/20 03:17:08 INFO mapred.JobClient: map 80% reduce 26%

13/06/20 03:17:11 INFO mapred.JobClient: map 100% reduce 26%

13/06/20 03:17:23 INFO mapred.JobClient: map 100% reduce 100%

13/06/20 03:17:28 INFO mapred.JobClient: Job complete: job_201306200226_0002

13/06/20 03:17:28 INFO mapred.JobClient: Counters: 30

13/06/20 03:17:28 INFO mapred.JobClient: Job Counters

13/06/20 03:17:28 INFO mapred.JobClient: Launched reduce tasks=1

13/06/20 03:17:28 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=32074

13/06/20 03:17:28 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0

13/06/20 03:17:28 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0

13/06/20 03:17:28 INFO mapred.JobClient: Launched map tasks=5

13/06/20 03:17:28 INFO mapred.JobClient: Data-local map tasks=3

13/06/20 03:17:28 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=23534

13/06/20 03:17:28 INFO mapred.JobClient: File Input Format Counters

13/06/20 03:17:28 INFO mapred.JobClient: Bytes Read=54

13/06/20 03:17:28 INFO mapred.JobClient: File Output Format Counters

13/06/20 03:17:28 INFO mapred.JobClient: Bytes Written=41

13/06/20 03:17:28 INFO mapred.JobClient: FileSystemCounters

13/06/20 03:17:28 INFO mapred.JobClient: FILE_BYTES_READ=104

13/06/20 03:17:28 INFO mapred.JobClient: HDFS_BYTES_READ=541

13/06/20 03:17:28 INFO mapred.JobClient: FILE_BYTES_WRITTEN=128481

13/06/20 03:17:28 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=41

13/06/20 03:17:28 INFO mapred.JobClient: Map-Reduce Framework

13/06/20 03:17:28 INFO mapred.JobClient: Map output materialized bytes=128

13/06/20 03:17:28 INFO mapred.JobClient: Map input records=2

13/06/20 03:17:28 INFO mapred.JobClient: Reduce shuffle bytes=122

13/06/20 03:17:28 INFO mapred.JobClient: Spilled Records=16

13/06/20 03:17:28 INFO mapred.JobClient: Map output bytes=82

13/06/20 03:17:28 INFO mapred.JobClient: Total committed heap usage (bytes)=912719872

13/06/20 03:17:28 INFO mapred.JobClient: CPU time spent (ms)=5190

13/06/20 03:17:28 INFO mapred.JobClient: Map input bytes=50

13/06/20 03:17:28 INFO mapred.JobClient: SPLIT_RAW_BYTES=487

13/06/20 03:17:28 INFO mapred.JobClient: Combine input records=0

13/06/20 03:17:28 INFO mapred.JobClient: Reduce input records=8

13/06/20 03:17:28 INFO mapred.JobClient: Reduce input groups=5

13/06/20 03:17:28 INFO mapred.JobClient: Combine output records=0

13/06/20 03:17:28 INFO mapred.JobClient: Physical memory (bytes) snapshot=932745216

13/06/20 03:17:28 INFO mapred.JobClient: Reduce output records=5

13/06/20 03:17:28 INFO mapred.JobClient: Virtual memory (bytes) snapshot=2390478848

13/06/20 03:17:28 INFO mapred.JobClient: Map output records=8

Result

Hadoop之HelloWorld的更多相关文章

在eclipse上跑hadoop的helloworld
关于hadoop的用处什么我就不说了,在这里记录下在eclipse上第一次跑hadoop遇到的问题吧~ hadoop的安装我就不说啦,网上教程一大堆~我直接用的公司的Linux上的hadoop. ec ...
Hadoop版Helloworld之wordcount运行示例
1.编写一个统计单词数量的java程序,并命名为wordcount.java,代码如下: import java.io.IOException; import java.util.StringToke ...
Hadoop 调研笔记
由于从各光伏电站采集的数据量较大,必须解决海量数据的查询.分析的问题.目前主要考虑两种方式:1. Hadoop大数据技术:2. Oracle(数据仓库)+BI: 本文仅介绍hadoop的技术 ...
Hadoop阅读笔记（一）——强大的MapReduce
前言:来园子已经有8个月了,当初入园凭着满腔热血和一脑门子冲动,给自己起了个响亮的旗号“大数据小世界”,顿时有了种世界都是我的,世界都在我手中的赶脚.可是......时光飞逝,岁月如梭~~~随手一翻 ...
如何在Hadoop的MapReduce程序中处理JSON文件
简介: 最近在写MapReduce程序处理日志时,需要解析JSON配置文件,简化Java程序和处理逻辑.但是Hadoop本身似乎没有内置对JSON文件的解析功能,我们不得不求助于第三方JSON工具包. ...
Hadoop实战之四~hadoop作业调度详解(2)
这篇文章将接着上一篇wordcount的例子,抽象出最简单的过程,一探MapReduce的运算过程中,其系统调度到底是如何运作的. 情况一:数据和运算分开的情况 wordcount这个例子的是hado ...
Hadoop集群配置搭建
环境:Centos 6.9,Hadoop 2.7.1,JDK 1.8.0_161,Maven 3.3.9 前言: 1.配置一台master服务器,两台或多台slave服务器. 2.master可 ...
How to Run a .Jar Java File
.jar files are used for archiving, archive unpacking. One of the essential features of jar file is l ...
shell基本用法
shell是一个命令行解释器,它接收应用程序/ 用户命令,然后调用操作系统内核:功能强大的编程语言: 1. Shell解析器 Linux提供的Shell解析器有: [kris@hadoop datas ...

随机推荐

通过history解决ajax不支持前进/后退/刷新
前言: 现在前后端基本都是通过ajax实现前后端接口数据的交互,但是,ajax有个小小的劣势,即:不支持浏览器“后退”和“前进“键. 但是,现在我们可以通过H5的histroy属性解决ajax在交互 ...
极客圈（一）树莓派3B协同Python打造个性化天气闹钟
人生苦短,我用Python~ 一直想自己折腾些极客的东西出来,供自己使用或者是供他人使用.一则可能对自己的生活是一种帮助,二则是对自己技能的提高,三则显得高大上,一直努力,一直提高,一直Happy!~ ...
gulp 运用的理解
ugulp.task('build', function() { runSequence('clean', 'copy', ['uglify', 'sass', 'htmlmin'], 'base64 ...
将HTML导出生成word文档
前言: 项目开发中遇到了需要将HTML页面的内容导出为一个word文档,所以有了这边随笔. 当然,项目开发又时间有点紧迫,第一时间想到的是用插件,所以百度了下.下面就介绍两个导出word文档的方法. ...
vue2.0设置proxyTable使用axios进行跨域请求
这里请求的是知乎日报的api,由@izzyleung这位大神提供的,这是github地址. 在vue-cli构建的项目中先安装axios npm install axios -S 这里暂不考虑用vue ...
Java+Tomcat + Idea + Jrebel 实现热部署
1. 首先安装idea的jrebel插件, jrebel是收费的,所以要在网上下载验证码. 2. 安装好以后再setting 菜单能看到一个jrebel的菜单. 3. 4.其中需要选中frame失去 ...
Java之面向对象概述，类，构造方法，static，主方法，对象
一.面向对象概述面向过程 "面向过程"(Procedure Oriented)是一种以过程为中心的编程思想.这些都是以什么正在发生为主要目标进行编程,不同于面向对象的是谁在受影响 ...
(转) Spring Boot JDBC 连接数据库
文本将对在Spring Boot构建的Web应用中,基于MYSQL数据库的几种数据库连接方式进行介绍. 包括JDBC.JPA.MyBatis.多数据源和事务. 1 JDBC 连接数据库 1.1 属性配 ...
【Django】Python web开发：几个模板系统的性能对比（转）
http://blog.chedushi.com/archives/910 结论: 点评一下吧.django就是个渣,不多废话了.webpy的代码很简洁,可惜速度太慢了.bottle看起来快一点,不过 ...
java多线程系列(四)---Lock的使用
Lock的使用前言:本系列将从零开始讲解java多线程相关的技术,内容参考于<java多线程核心技术>与<java并发编程实战>等相关资料,希望站在巨人的肩膀上,再通过我的理 ...

Hadoop之HelloWorld

Hadoop之HelloWorld的更多相关文章

随机推荐

热门专题