从wordcount 开始 mapreduce (C++\hadoop streaming模式)
序:终于开始接触hadoop了,从wordcount开始
1. 采用hadoop streamming模式
优点:支持C++ pathon shell 等多种语言,学习成本较低,不需要了解hadoop内部结构
调试方便:cat input | ./map | sort | ./reduce > output
hadoop 就是提供了一个分布式平台实现了上述脚本的功能,这是一次mapreduce的过程
一个例子:
#!/bin/bash
source build.env
$hadoop_bin fs -rmr $env_root
$hadoop_bin fs -mkdir $env_root
$hadoop_bin fs -copyFromLocal ./txt $env_root/txt
$hadoop_bin streaming \
-jobconf mapred.job.name="word count fuck you man~!" \
-input $env_root/txt \ //map程序的输入:cat input | ./map
-output $env_root/outputxt \ //reduce程序的输出 : ./reduce > output
-mapper "./wordcount_map"\
-reducer "./wordcount_reducer"\
-file ./wordcount_map\
-file ./wordcount_reducer\
-jobconf mapred.job.map.capacity=1000 \
-jobconf mapred.job.reduce.capacity=1000 \
-jobconf mapred.child.ulimit=20000000 \
-jobconf mapred.job.queue.name=ns-webgis \
-jobconf mapred.job.priority=HIGH \
-jobconf mapred.map.tasks.speculative.execution=false \
-jobconf mapred.map.tasks=10 \
-jobconf mapred.reduce.tasks=2
if [ $? -ne 0 ]
then
echo "error~~~~" >&2
exit -1
fi
$hadoop_bin fs -get $env_root/outputxt .
2. map :cat input | ./map >> temp
1)hadoop平台做了什么:
a.切分文件:把input文件按照一定的策略切割分成若干个小文件
b.将若干个小文件分别分发到不同节点上
c. 每个节点上都有一个map程序,然后将任务分发到不同的节点上
2)自己要写的wordcount_map要做什么:
wordcount_map从input中按行进行读取,然后按照业务逻辑将读取到的内容拼成 key \t value的形式 ,这个输出将会作为reduce程序的输入
在这里输出的是 word 1 此处 word是key 1是value
注意:此处是标准输出、输入 std::cout std::cin in C++
key与value之间用\t分割,第一个\t之前的值作为key,之后的都作为value 注意:这个key会被hadoop平台用到 平台不关注value值
#include<iostream>
#include<string>
#include<vector>
using namespace std;
void split(string src,vector<string>& dest,string separator)
{
string str = src;
string substring;
string::size_type start = , index; do
{
index = str.find_first_of(separator,start);
if (index != string::npos)
{
substring = str.substr(start,index-start);
dest.push_back(substring);
start = str.find_first_not_of(separator,index);
if (start == string::npos) return; }
}while(index != string::npos);
substring = str.substr(start);
dest.push_back(substring);
}
void map()
{
string line;
vector<string> vec();
while(cin>>line)
{
vec.clear();
split(line,vec," ");
vector<string>::iterator it=vec.begin();
for(;it!=vec.end();++it)
{
cout<<*it<<"\t"<<""<<"\t"<<"fuck"<<endl;
}
}
}
int main()
{
map();
}
wordcount_map
3. reduce: sort | ./reduce > output
等到所有的map任务都结束:
1)hadoop平台做了这些事情
a.将所有的map程序的输出结果中key相同的key value pair 放到相同的节点上,这点很重要,这是保证最终输出结果正确的保证,后面会按照key进行hash , 并且相同 key之间不会有其他的key,其实是按照key值做了一个排序
注意:相同的key一定在一个节点上,但是一个节点上不止有一个个key
b 然后在各个节点上开始reduce任务
2)自己写的wordcount_map做了什么
a. 读取这些具有相同key的键值对,处理自己的业务逻辑,此处就是将统计相同的key值的键值对一共出现了几次,然后将结果输出,此处也是标准输入和标准输出
#include<vector>
#include<map>
#include<string>
#include<iostream>
using namespace std;
void reduce()
{
string key;
string value;
string value1;
//vector<string> vec(2);
map<string,int> mapTemp;
while(cin>>key>>value>>value1)
{
if(mapTemp.find(key)!=mapTemp.end())
mapTemp[key]+=;
else
mapTemp[key]=;
}
map<string,int>::iterator it = mapTemp.begin();
for(;it!=mapTemp.end();++it)
{
cout<<it->first<<"\t"<<it->second<<endl;
}
}
int main()
{
reduce();
}
wordcount_reduce
从wordcount 开始 mapreduce (C++\hadoop streaming模式)的更多相关文章
- Hadoop streaming模式获取jobconf参数
1. 像map_input_file这种环境变量是在hadoop-streaming.jar程序中设置的,所以无需-cmdenv map_input_file参数就可以在php中直接引用,如$var= ...
- 从Hadoop骨架MapReduce在海量数据处理模式(包括淘宝技术架构)
从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇.而神奇的东西常能勾 ...
- Hadoop单机模式安装-(3)安装和配置Hadoop
网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍在Ubuntu安装完 ...
- Hadoop单机模式安装
一.实验环境说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: ...
- Eclipse的下载、安装和WordCount的初步使用(本地模式和集群模式)
包括: Eclipse的下载 Eclipse的安装 Eclipse的使用 本地模式或集群模式 Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群 ...
- 3-1.Hadoop单机模式安装
Hadoop单机模式安装 一.实验介绍 1.1 实验内容 hadoop三种安装模式介绍 hadoop单机模式安装 测试安装 1.2 实验知识点 下载解压/环境变量配置 Linux/shell 测试Wo ...
- 安装部署Apache Hadoop (本地模式和伪分布式)
本节内容: Hadoop版本 安装部署Hadoop 一.Hadoop版本 1. Hadoop版本种类 目前Hadoop发行版非常多,有华为发行版.Intel发行版.Cloudera发行版(CDH)等, ...
- 大数据学习之Hadoop运行模式
一.Hadoop运行模式 (1)本地模式(默认模式): 不需要启用单独进程,直接可以运行,测试和开发时使用. (2)伪分布式模式: 等同于完全分布式,只有一个节点. (3)完全分布式模式: 多个节点一 ...
- hadoop单击模式环境搭建
一 安装jdk 下载相应版本的jdk安装到相应目录,我的安装目录是/usr/lib/jdk1.8.0_40 下载完成后,在/etc/profile中设置一下环境变量,在文件最后追加如下内容 expor ...
随机推荐
- 我的web前端修炼之路从此开始
看过一篇文章,上面说过要想学习一门新技术,从什么时候开始都是不晚的.但对于一名大四的学生,只会一点简单的网页架构,只懂得HTML,CSS,JavaScript简单的一点皮毛,却怎么也说不过去.但也是这 ...
- Spark系列(十)TaskSchedule工作原理
工作原理图 源码分析: 1.) 25 launchedTask = true 26 } 27 } catch { 28 ...
- flot图表的使用
Flot是一套用Javascript写的绘制图表用的函式库, 专门用在网页上执行绘制图表功能, 由于Flot利用jQuery所以写出来的, 所以也称它为jQuery Flot ,它的特点是体积小.执行 ...
- 更换Oracle备份数据文件
应用背景:需要查看和修改一下Interlib中的数据,所以要反复的将备份数据进行导入和清空.整理一下步骤 删除tablespace drop tablespace interlib including ...
- homework6-更加简单的题目
又把时间搞错了 以为这次要写客户端程序的博客 没想到这次是“怎么吃” 言归正传 cnblog上面有很多技术博客 http://perhaps.cnblogs.com/archive/2005/08/0 ...
- homework-02,第二次作业——寻找矩阵最大子序列和
经过漫漫漫~~~~~~~~~~~~~~长的编译和调试,第二次作业终于告一段落了 先放出源码,思路后面慢慢道来 #include<stdio.h> #include<stdlib.h& ...
- homework 08_2 C++11新特性作业之二
---恢复内容开始--- 1.使用Lambda表达式计算“hello world!”中字母e和i的数量 下面是代码: #include "stdafx.h" #include< ...
- vector 的resize与reserve
最近遇到一个坑,简单说来是resize与reserve的功能混淆了. 如下: 如果调用resize的化,编译会出错,如果给Text提供默认构造函数,则可以编译通过,最终输出的结果为10. 如果调用re ...
- Winter is coming Just have a little faith. JSF框架简介与实例
JSF 体系结构: JSF 的主要优势之一就是它既是Java Web应用程序的用户界面标准又是严格遵循模型-视图-控制器 (MVC) 设计模式的框架.用户界面代码(视图)与应用程序数据和逻辑(模型)的 ...
- HDU 2874 Connections between cities (LCA)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2874 题意是给你n个点,m条边(无向),q个询问.接下来m行,每行两个点一个边权,而且这个图不能有环路 ...