MapReduce 规划系列的12 使用Hadoop Streaming技术集成newLISP文字

本文example6环境与前Hadoop 1.x异，于Hadoop 2.x环境测试。

功能与前面相同的日志处理程序。

第一newLISP文字,游玩mapper任务。于stdin读取文本数据，将did由于key, value至1，结果是随后被输出到stdout

第二个newLISP脚本。起到reducer的作用，在stdin中读取<key, values>, key是dic。 values是全部的value，简单对value求和后。写到stdout中

最后应该能够在HDFS下看到结果。

用脚本编程的优点是方便測试，如今先开发newLISP脚本读入文件。并仿照map逻辑处理，然后交给兴许的newLISP脚本仿照reduce处理。

以下是map.lsp代码：

#!/usr/bin/newlisp

(while (read-line)

  (set 'value (parse (current-line) ","))

  (println (string (value 2) "\t1"))

)

(exit)

測试一下：

cat logs/sign_2014-05-10.0.csv | ./map.lsp

结果还不错：

537025b84700aab27472b87f        1

537023124700aab27472b82a        1

537031a24700aab27472b982        1

537023c84700aab27472b841        1

537014e74700aab27472b48b        1

53702cac4700aab27472b928        1

537049cd4700aab27472ba91        1

5370dd0b4700aab27472bde4        1

将一行记录依照,拆开。放在一个list中，然后取第三个元素。也就是设备ID。之后加入\t为列分隔符号，然后再加入1.

这样就转成了did\t1\n的形式的<key,value>给reduce。注意newLISP的代码println函数会自己主动在字符串后面加入\n.

以下来实现reduce.lsp代码：

(new Tree 'my-table)

(while (read-line)

  (set 'line-value (parse (current-line) "\t"))

  (set 'key (line-value 0))

  (set 'value (int (line-value 1)))

  (set 'v (my-table key))

  (if v

      (my-table key (+ v value))

    (my-table key value)

      )

)

(dolist (item (my-table)) (println (item 0) "\t" (item 1)))

(exit)

首先创建了一个my-table，用来保存<key,value>

然后将map.lsp输出的数据每行依照\t拆分。获取key和value

存入my-table中，用key查询，有则value加1,无key则加入进去。

最后遍历整个my-table，输出did\tsum\n这种数据。

以下的命令能够将map和reduce脚本连起来測试：

cat logs/sign_2014-05-10.0.csv | ./map.lsp | sort | ./reduce.lsp

在hadoop集群部署的时候首先要确保newlisp二进制程序都部署在全部节点的/usr/bin/文件夹下,而且有运行权限。因为newlisp程序本身很小。所以部署及其轻松。直接scp就可以。

然后运行hadoop命令：

hadoop jar hadoop-streaming-1.0.0.jar -files map.lsp reduce.lsp -input /user/chenshu/share/logs -output /user/chenshu/share/output/lisp -mapper map.lsp -reducer reduce.lsp

MapReduce 规划系列的12 使用Hadoop Streaming技术集成newLISP文字的更多相关文章

MapReduce 规划系列十采用HashPartitioner调整Reducer计算负荷
example4它演示了如何指定Reducer号码,本节演示如何使用HashPartitioner将Mapper根据该输出key分组后Reducer为了应对. 合理的分组策略会尽一切Reducer不能 ...
大数据系列（2）——Hadoop集群坏境CentOS安装
前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...
Hadoop Streaming框架学习2
Hadoop Streaming框架学习(二) 1.常用Streaming命令介绍使用下面的命令运行Streaming MapReduce程序: 1: $HADOOP_HOME/bin/hadoop ...
Hadoop Streaming框架学习（一）
Hadoop Streaming框架学习(一) Hadoop Streaming框架学习(一) 2013-08-19 12:32 by ATP_, 473 阅读, 3 评论, 收藏, 编辑 1.Had ...
Hadoop Streaming框架学习（二）
1.常用Streaming命令介绍使用下面的命令运行Streaming MapReduce程序: 1: $HADOOP_HOME/bin/hadoop/hadoop streaming args 其 ...
大数据系列（3）——Hadoop集群完全分布式坏境搭建
前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
hadoop streaming 多路输出 [转载]
转载 http://www.cnblogs.com/shapherd/archive/2012/12/21/2827860.html hadoop 支持reduce多路输出的功能,一个reduce可以 ...
Hadoop Streaming框架使用（一）
Streaming简介 link:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.html Streaming框架允许任何程 ...
Hadoop Streaming例子(python)
以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce. 任务描述: HDFS上有两个目录/a和/b,里面数据均有3列, ...

随机推荐

android IllegalStateException
由于android的线程非安全,直接在子线程中对UI进行更新是不被允许的,同样在常用的适配器+List<E> 组合中,子线程直接更新与适配器绑定的List,便可能产生IllegalSta ...
matlab secant method
% Matlab script to illustrate the secant method % to solve a nonlinear equation % this particular sc ...
Visual Studio Code中配置GO开发环境
在Visual Studio Code中配置GO开发环境一.GO语言安装详情查看:GO语言下载.安装.配置二.GoLang插件介绍对于Visual Studio Code开发工具,有一款优秀的 ...
代写java程序qq:928900200
学校为全面提升学校教学质量,提高管理水平,决定开发一套小型成绩管理系统,实现以下功能.1) 系统用户分为管理员.教师和学生三种角色,每种角色都可以包含若干个用户.其中管理员登录后可以进行教师.学生 ...
【Hibernate步步为营】--双向关联一对一映射具体解释（一）
一对一的映射在对象模型中是常常见到的,为了将对象模型转换为关系模型就必须在映射文件里进行配置,上篇文章讨论了一对一映射的单向关联的情况,重点是<one-to-one>标签的使用,须要在映射 ...
Android规范发展
一.Android 编码规范 1.java 代码中不出现中文.最多凝视中能够出现中文 2.局部变量命名.静态成员变量命名仅仅能包括字母,单词首字母出第一个外,都为大写,其它字母都为小写 3.常量命名 ...
Java引进和应用的包装类
Java介绍包装类: 于Java它设计主张的想法,也就是说,一切都是对象.但是,我们知道,,Java数据类型分为基本数据类型和引用数据类型,但基本的数据怎么能成对象?为了解决这个问题,对需要8一个类的 ...
SpringMVC 上下文webApplicationContext
使用listener听众载入配置,一般Struts+Spring+Hibernate是使用listener监听器的.例如以下 <listener> <listener-class&g ...
ORACLE触发特定的解释
ORACLE PL/SQL编程八: 把触发器说透本篇主要内容例如以下: 8.1 触发器类型 8.1.1 DML触发器 8.1.2 替代触发器 8.1.3 系统触发器 8.2 创建触发器 8.2.1 ...
jq分页插件
jq分页插件 http://www.zhangxinxu.com/jq/pagination_zh/ html --------------- <tbody id="hiddenres ...

MapReduce 规划 系列的12 使用Hadoop Streaming技术集成newLISP文字

MapReduce 规划 系列的12 使用Hadoop Streaming技术集成newLISP文字的更多相关文章

随机推荐

热门专题

MapReduce 规划系列的12 使用Hadoop Streaming技术集成newLISP文字

MapReduce 规划系列的12 使用Hadoop Streaming技术集成newLISP文字的更多相关文章