HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo
26 集群使用初步
HDFS的设计思路
l 设计思想
分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;
l 在大数据系统中作用:
为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务
l 重点概念:文件切块,副本存放,元数据
26.1 HDFS使用
1、查看集群状态
命令: hdfs dfsadmin –report
可以看出,集群共有3个datanode可用
也可打开web控制台查看HDFS集群信息,在浏览器打开http://hadoop:50070/
2、上传文件到HDFS
查看HDFS中的目录信息
命令:hadoop fs –ls /
上传文件
命令:hadoop fs -put ./findbugs-1.3.9 /
|
[toto@hadoop software]$ hadoop fs -put ./findbugs-1.3.9 / put: `/findbugs-1.3.9/LICENSE-ASM.txt': File exists put: `/findbugs-1.3.9/LICENSE-AppleJavaExtensions.txt': File exists put: `/findbugs-1.3.9/LICENSE-bcel.txt': File exists put: `/findbugs-1.3.9/LICENSE-commons-lang.txt': File exists put: `/findbugs-1.3.9/LICENSE-docbook.txt': File exists put: `/findbugs-1.3.9/LICENSE-dom4j.txt': File exists put: `/findbugs-1.3.9/LICENSE-jFormatString.txt': File exists |
查看上传后的信息列表(hadoop fs –ls / 或 hadoop fs -ls /findbugs-1.3.9)
从HDFS下载文件
命令:hadoop fs -get /findbugs-1.3.9/LICENSE-ASM.txt
|
[toto@hadoop learn]$ cd /home/toto/learn /home/toto/learn [toto@hadoop learn]$ pwd /home/toto/learn [toto@hadoop learn]$ hadoop fs -get /findbugs-1.3.9/LICENSE-ASM.txt [toto@hadoop learn]$ ls LICENSE-ASM.txt |
yarn的管理界面是:http://hadoop:8088/cluster
26.2模拟运行一个mapreduce程序
模拟运行一个mapreduce程序的时候,需要先启动hdfs,启动命令是:
|
[toto@hadoop1 hadoop-2.8.0]$cd /home/toto/software/hadoop-2.8.0 [toto@hadoop1 hadoop-2.8.0]$sbin/start-dfs.sh |
在/home/toto/software/hadoop-2.8.0/share/hadoop/mapreduce下有一个mapreduce的运行例子:
|
[toto@hadoop mapreduce]$ cd /home/toto/software/hadoop-2.8.0/share/hadoop/mapreduce [toto@hadoop mapreduce]$ pwd /home/toto/software/hadoop-2.8.0/share/hadoop/mapreduce [toto@hadoop mapreduce]$ ll 总用量 5088 -rw-r--r--. 1 toto hadoop 562900 3月 17 13:31 hadoop-mapreduce-client-app-2.8.0.jar -rw-r--r--. 1 toto hadoop 782739 3月 17 13:31 hadoop-mapreduce-client-common-2.8.0.jar -rw-r--r--. 1 toto hadoop 1571179 3月 17 13:31 hadoop-mapreduce-client-core-2.8.0.jar -rw-r--r--. 1 toto hadoop 195000 3月 17 13:31 hadoop-mapreduce-client-hs-2.8.0.jar -rw-r--r--. 1 toto hadoop 31533 3月 17 13:31 hadoop-mapreduce-client-hs-plugins-2.8.0.jar -rw-r--r--. 1 toto hadoop 66999 3月 17 13:31 hadoop-mapreduce-client-jobclient-2.8.0.jar -rw-r--r--. 1 toto hadoop 1587158 3月 17 13:31 hadoop-mapreduce-client-jobclient-2.8.0-tests.jar -rw-r--r--. 1 toto hadoop 75495 3月 17 13:31 hadoop-mapreduce-client-shuffle-2.8.0.jar -rw-r--r--. 1 toto hadoop 301934 3月 17 13:31 hadoop-mapreduce-examples-2.8.0.jar drwxr-xr-x. 2 toto hadoop 4096 3月 17 13:31 jdiff drwxr-xr-x. 2 toto hadoop 4096 3月 17 13:31 lib drwxr-xr-x. 2 toto hadoop 4096 3月 17 13:31 lib-examples drwxr-xr-x. 2 toto hadoop 4096 3月 17 13:31 sources [toto@hadoop mapreduce]$ 使用命令运行mapreduce命令: [toto@hadoop mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.8.0.jar pi 5 5 Number of Maps = 5 Samples per Map = 5 Wrote input for Map #0 Wrote input for Map #1 Wrote input for Map #2 Wrote input for Map #3 Wrote input for Map #4 Starting Job 17/05/29 14:47:36 INFO client.RMProxy: Connecting to ResourceManager at hadoop/192.168.106.80:8032 17/05/29 14:47:37 INFO input.FileInputFormat: Total input files to process : 5 17/05/29 14:47:37 INFO mapreduce.JobSubmitter: number of splits:5 17/05/29 14:47:38 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1495998405307_0001 17/05/29 14:47:39 INFO impl.YarnClientImpl: Submitted application application_1495998405307_0001 17/05/29 14:47:39 INFO mapreduce.Job: The url to track the job: http://hadoop:8088/proxy/application_1495998405307_0001/ 17/05/29 14:47:39 INFO mapreduce.Job: Running job: job_1495998405307_0001 17/05/29 14:48:00 INFO mapreduce.Job: Job job_1495998405307_0001 running in uber mode : false 17/05/29 14:48:00 INFO mapreduce.Job: map 0% reduce 0% |
进入hdfs的管理界面(http://hadoop:8088/cluster/apps),查看程序运行情况:
26.2 MAPREDUCE使用
mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序
26.2.1 Demo开发——wordcount
1、需求
从大量(比如T级别)文本文件中,统计出每一个单词出现的总次数
2、mapreduce实现思路
Map阶段:
a) 从HDFS的源数据文件中逐行读取数据
b) 将每一行数据切分出单词
c) 为每一个单词构造一个键值对(单词,1)
d) 将键值对发送给reduce
Reduce阶段:
a) 接收map阶段输出的单词键值对
b) 将相同单词的键值对汇聚成一组
c) 对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数
d) 将(单词,总次数)输出到HDFS的文件中
1、 具体编码实现
(1)定义一个mapper类
|
//首先要定义四个泛型的类型 //keyin: LongWritable valuein: Text //keyout: Text valueout:IntWritable public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ //map方法的生命周期: 框架每传一行数据就被调用一次 //key : 这一行的起始点在文件中的偏移量 //value: 这一行的内容 @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { //拿到一行数据转换为string String line = value.toString(); //将这一行切分出各个单词 String[] words = line.split(" "); //遍历数组,输出<单词,1> for(String word:words){ context.write(new Text(word), new IntWritable(1)); } } } |
(2)定义一个reducer类
|
//生命周期:框架每传递进来一个kv 组,reduce方法被调用一次 @Override protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { //定义一个计数器 int count = 0; //遍历这一组kv的所有v,累加到count中 for(IntWritable value:values){ count += value.get(); } context.write(key, new IntWritable(count)); } } |
(3)定义一个主类,用来描述job并提交job
|
public class WordCountRunner { //把业务逻辑相关的信息(哪个是mapper,哪个是reducer,要处理的数据在哪里,输出的结果放哪里。。。。。。)描述成一个job对象 //把这个描述好的job提交给集群去运行 public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job wcjob = Job.getInstance(conf); //指定我这个job所在的jar包 // wcjob.setJar("/home/hadoop/wordcount.jar"); wcjob.setJarByClass(WordCountRunner.class); wcjob.setMapperClass(WordCountMapper.class); wcjob.setReducerClass(WordCountReducer.class); //设置我们的业务逻辑Mapper类的输出key和value的数据类型 wcjob.setMapOutputKeyClass(Text.class); wcjob.setMapOutputValueClass(IntWritable.class); //设置我们的业务逻辑Reducer类的输出key和value的数据类型 wcjob.setOutputKeyClass(Text.class); wcjob.setOutputValueClass(IntWritable.class); //指定要处理的数据所在的位置 FileInputFormat.setInputPaths(wcjob, "hdfs://hdp-server01:9000/wordcount/data/big.txt"); //指定处理完成之后的结果所保存的位置 FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://hdp-server01:9000/wordcount/output/")); //向yarn集群提交这个job boolean res = wcjob.waitForCompletion(true); System.exit(res?0:1); } |
26.2.2 程序打包运行
1. 将程序打包
2. 准备输入数据
vi /home/hadoop/test.txt
|
Hello tom Hello jim Hello ketty Hello world Ketty tom |
在hdfs上创建输入数据文件夹:
hadoop fs mkdir -p /wordcount/input
将words.txt上传到hdfs上
hadoop fs –put /home/hadoop/words.txt /wordcount/input
3. 将程序jar包上传到集群的任意一台服务器上
4. 使用命令启动执行wordcount程序jar包
$ hadoop jar wordcount.jar cn.toto.bigdata.mrsimple.WordCountDriver/wordcount/input /wordcount/out
5. 查看执行结果
$ hadoop fs –cat /wordcount/out/part-r-00000
原文链接http://blog.csdn.net/tototuzuoquan/article/details/72802439
HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo的更多相关文章
- Hadoop生态圈-Azkaban实现文件上传到hdfs并执行MR数据清洗
Hadoop生态圈-Azkaban实现文件上传到hdfs并执行MR数据清洗 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 如果你没有Hadoop集群的话也没有关系,我这里给出当时我 ...
- Ubuntu本地文件上传至HDFS文件系统出现的乱码问题及解决方案
1.问题来源及原因 用shell命令上传到HDFS中之后出现中文乱码,在shell命令窗口查看如图: 在eclipse中的文件HDFS查看工具查看如图: 原因:上传至HDFS文件系统的文本文件(这里是 ...
- Hadoop_13_Hadoop Shell脚本采集日志上传到HDFS
案例1:开发shell采集脚本 1.点击流日志每天都10T,在业务应用服务器上,需要准实时上传至数据仓库(Hadoop HDFS)上 2.一般上传文件都是在凌晨24点操作,由于很多种类的业务数据都要在 ...
- FTP文件上传到HDFS上
在做测试数据时,往往会有ftp数据上传到hdfs的需求,一般需要手动操作,这样做太费事,于是有了下边代码实现的方式: ftp数据上传到hdfs函数: import java.io.InputStrea ...
- 解决从本地文件系统上传到HDFS时的权限问题
当使用 hadoop fs -put localfile /user/xxx 时提示: put: Permission denied: user=root, access=WRITE, inode=& ...
- PHP设计的超强大的文件上传类(单文件上传)
form.html <!DOCTYPE html> <html> <head> <title>文件上传</title> </head& ...
- Jenkins通过FTP上传站点太多文件导致太慢且不稳定,切换为压包上传再解压的思路(asp.net)
在本地先处理好要上传的站点文件之后,可能会因为一些网页切图导致ftp上传不稳定,中断,或者文件占用的问题. 那么换了一种实现思路,要借助jenkins的工具jenkins-cli.jar. 解决思路: ...
- Elasticsearch利用cat api快速查看集群状态、内存、磁盘使用情况
使用场景 当Elasticsearch集群中有节点挂掉,我们可以去查看集群的日志信息查找错误,不过在查找错误日志之前,我们可以通过elasticsearch的cat api简单判断下各个节点的状态,包 ...
- HDFS操作--文件上传/创建/删除/查询文件信息
1.上传本地文件到HDFS //上传本地文件到HDFS public class CopyFile { public static void main(String[] args) { try { C ...
随机推荐
- 自定义崩溃界面 CustomActivityOnCrash
项目地址:https://github.com/Ereza/CustomActivityOnCrash The inner workings are based on ACRA's dialog re ...
- easyui更换主题之后出现validatebox的验证提示信息显示跑偏的解决方案
在easyui中更换主题为非default的主题,有的主题会出现如下图所示的情况,验证提示信息的提示内容跑到了下面. 现在说下原因和解决方案: 原因:原因是easyui对某些主题没有进行这个样式的设置 ...
- 用curl抓取网站数据,仿造IP、防屏蔽终极强悍解决方式
最近在做一些抓取其它网站数据的工作,当然别人不会乖乖免费给你抓数据的,有各种防抓取的方法.不过道高一尺,魔高一丈,通过研究都是有漏洞可以钻的.下面的例子都是用PHP写的,不会用PHP来curl的孩纸先 ...
- Ubuntu挂载samba共享目录
Ubuntu中现在没有smbfs了,所以smbmount命令也用不了了,现在可以使用mount.cifs命令来挂载. Usage: mount.cifs <remotetarget> & ...
- 不敢想象!Vim使用者的“大脑”竟是这样
原始状态 我曾经观看过小提琴家非常有激情地拉弦演奏,我有了这种想法:也许我投入到文本编辑器中的脑细胞数量和他为投入所喜好的乐器的演奏中差不多吧.我还有种奇异的想象,当他独奏的时候,脑中的核磁共振图和我 ...
- C#应用视频教程1.2 Socket通信客户端实现
接下来我们尝试实现最简单的Socket客户端,为了确保只可能你的代码有问题,服务器要先用别人成熟的代码测试(这也是编程的一个技巧,先不要用自己写的客户端测试自己写的服务器,这样出了问题你也不知道谁有问 ...
- 微信小程序 - 选取搜索地点并且显示(map)
演示如下,使用时,你也许会配合它:腾讯地图路线规划 wxml: <view class='address' bindtap='onChangeAddress'> <input cla ...
- qs.js库 使用方法
1.qs.js库说明 qs是一个url参数转化(parse和stringify)的js库. https://www.npmjs.com/package/qs 2.使用(以vue文件做示例) (1)基本 ...
- jedis使用线程池封装redis基本操作
redisclient jedis 经常使用的 操作 key value hash list set zset 的基本操作 package cn.zto.util; import java.util. ...
- 机器学习数学基础- gradient descent算法(上)
为什么要了解点数学基础 学习大数据分布式计算时多少会涉及到机器学习的算法,所以理解一些机器学习基础,有助于理解大数据分布式计算系统(比如spark)的设计.机器学习中一个常见的就是gradient d ...