7月17号day9总结
今天学习过程和小结
今天学习了如何使用idea操作hdfs。
public class HDFSTest {
Configuration configuration;
FileSystem fileSystem;
String HDFS_PATH="hdfs://192.168.122.141:9000";
@Before
public void beform() throws Exception{
configuration=new Configuration();
fileSystem=FileSystem.get(new URI(HDFS_PATH),configuration,"root");
}
//hdfs上创建目录
@Test
public void mkdir() throws IOException{
boolean result=fileSystem.mkdirs(new Path("/idea"));
System.out.println(result);
}
//hdfs上创建文件
@Test
public void createFile() throws IOException{
FSDataOutputStream fsDataOutputStream =fileSystem.create(new Path("/idea/hello.txt"));
fsDataOutputStream.write("hello,idea".getBytes());
fsDataOutputStream.close();
}
//查看HDFS上的文件内容/idea/hello.txt
@Test
public void readFromHDFS() throws IOException{
FSDataInputStream fsDataInputStream= fileSystem.open(new Path("/idea/hello.txt"));
//打印到控制台
IOUtils.copyBytes(fsDataInputStream,System.out,1024);
fsDataInputStream.close();
}
//文件重命名
@Test
public void rename() throws IOException{
Path oldFilePath=new Path("/idea/hello.txt");
Path newFilePath=new Path("/idea/h.txt");
fileSystem.rename(oldFilePath,newFilePath);
}
//上传文件到hdfs
@Test
public void uploadToHDFS() throws IOException{
Path localPath=new Path("E:/abc.txt");
Path hdfsPath=new Path("/idea/");
fileSystem.copyFromLocalFile(localPath,hdfsPath);
}
//下载HDFS到本地
@Test
public void downloadToLocal() throws IOException{
Path hdfsPath=new Path("/idea/h.txt");
Path localPath=new Path("E:/hello.txt");
fileSystem.copyToLocalFile(hdfsPath,localPath);
}
//查询目录下的所有文件
@Test
public void list() throws IOException{
Path distPath=new Path("/");
FileStatus[] fileStatuses=fileSystem.listStatus(distPath);
for(FileStatus fileStatus:fileStatuses){
String path= fileStatus.getPath().toString();
String status=fileStatus.isDirectory()?"目录":"文件";
System.out.println(path);
System.out.println(status);
}
}
//删除hdfs上的文件
@Test
public void deleteFile() throws IOException{
Path path=new Path("/idea/h.txt");
fileSystem.delete(path,true);
}
//带进度条文件上传
@Test
public void uploadFileByProcessbar() throws IOException{
InputStream inputStream=new BufferedInputStream(new FileInputStream("E:/feiq/feiq/Recv Files/javaHDFS.wmv"));
FSDataOutputStream fsDataOutputStream=fileSystem.create(new Path("/idea/javaHDFS.wmv "), new Progressable() {
@Override
public void progress() {
System.out.print(".");
}
});
IOUtils.copyBytes(inputStream,fsDataOutputStream,4096);
}
@After
public void destory(){
}
}
学习了MapReduce
分布式计算框架MapReduce
1.MapReduce概述
MapReduce优点:海量数据离线处理&易开发&易运行
MapReduce缺点:无法实时流式计算
- MapReduce编程模型
3.案例:TopN问题
词频统计wordcount
cat.txt内容如下:
hadoop welcome
hadoop hdfs mapreduce
hadoop hdfs
需求:统计每个单词出现的次数
MapReduce编程模型之Map阶段和Reduce阶段
将作业拆分成Map阶段和Reduce阶段
Map阶段:Map Tasks
Reduce阶段:Reduce Tasks
MapReduce编程模型之执行步骤
1,通过InputFormat讲文件读入并拆分成split
2,通过RecordReaders将split中的数据读入,并交给map处理。
3,map处理后的结果按照partitioner进行分区,然后将数据发送到对应的reduce上处理
4,reduce处理完成后,由outputFomat将结果写到文件系统
核心概念
Split:交由MapReduce作业来处理的数据块,是MapReduce中最小的计算单元。
InputFormat:将输入数据进行分片(split):InputSplit[] getSplits(JobConf job)
TextInputFormat:处理文本格式数据
OutputFormat:输出
Combiner
Partitioner
3.MapReduce架构
MapReduce架构之MapReduce1.x
JobTracker:JT
作业的管理者,将作业分解成一堆任务:Task(MapTask和ReduceTask),将任务分派给TaskTracker运行
作业的监控、容错处理(task作业挂了,重启task的机制)
在一定的时间间隔内,JT没有收到TT的心跳信息,TT可能挂了,TT上运行的任务会被指派到其它TT上去执行
TaskTracker:TT
任务的执行者 干活的
在TT上执行我们的Task(MapTask和ReduceTask)
MapTask
自己开发的map任务交给Task
解析每条记录的数据,交个自己的map方法处理
将map的输出结果写到本地磁盘(有些作业仅有map没有reduce====>HDFS)
ReduceTask
将MapTask输出的数据进行读取
按照数据进行分组传给我们自己编写的reduce方法处理
输出结果到HDFS
MapReduce架构之MapReduce2.x
- MapReduce
练习了wordcount的计算。
又学习了倒排索引。
遇到的问题汇总
- 对于hdfs的文件输入输出还不是很熟悉要多加练习。
- Wordcount是MapReduce方法中的基础计算,要熟悉代码的书写才可以。
3.掌握了基本的单词个数统计,对于更难一点的key,value.也要能熟悉它的数据流动分析过程才可以。
学习技能思维导图
7月17号day9总结的更多相关文章
- 2014年11月17号------html起始
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
- 8月17日 Power-BI关于全国房地产开发投资情况分析 QQ群视频交流开课啦
<ignore_js_op> 数读|中国的经济只剩下房地产了么? 引言: 近日一则标题为“房奴们又立功啦,7月份新增贷款几乎都来自房贷!”的报道吸引了大众的目光.该报道指出在央行8月13日 ...
- 《Genesis-3D开源游戏引擎-FQA常见问题解答》2014年01月10号版本
1.Genesis-3D开源游戏引擎主要面向哪些用户人群?有限制吗? 1.我们的引擎没有限制,只要您想了解和使用我们的引擎,就可以加入Genesis-3D的大家庭.2.我们的主要用户群是各个相关的企业 ...
- 西安Uber优步司机奖励政策(1月11日~1月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
- 关于我在17号“一个查询任意年份中任意月份的天数”程序编写中的代码&第二种方法!
PS:下面的代码是我对于17号的练习题的一些新的看法(其实就是从另一个角度思考问题) package day20180917;import java.util.Scanner;//导包public c ...
- 成都Uber优步司机奖励政策(4月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
- 北京Uber优步司机奖励政策(4月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
- 优步UBER司机全国各地奖励政策汇总 (4月11日-4月17日)
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
- 全国Uber优步司机奖励政策 (1月11日-1月17日)
本周已经公开奖励整的城市有:北 京.成 都.重 庆.上 海.深 圳.长 沙.佛 山.广 州.苏 州.杭 州.南 京.宁 波.青 岛.天 津.西 安.武 汉.厦 门,可按CTRL+F,搜城市名快速查找. ...
随机推荐
- node Cookie
代码: const express = require('express'); const cookieParser = require('cookie-parser'); const app = e ...
- 【NOIP-2017PJ】图书管理员
图书管理员 题目描述 图书馆中每本书都有一个图书编码,可以用于快速检索图书,这个图书编码是一个 正整数. 每位借书的读者手中有一个需求码,这个需求码也是一个正整数.如果一本书的图 书编码恰好以读者的需 ...
- webDriver + Firefox 浏览器 完美兼容
搞java最烦的就是不同版本的适配问题.现分享下实测成功的案例. Firefox:4.0.1 selenium:selenium-server-standalone-2.43.1.jar 下面这个链接 ...
- fiddler手机抓包配置方法
一.下载工具包 百度搜索”fiddler 下载“ ,安装最新版本 下载的软件安装包为“fiddler_4.6.20171.26113_setup.exe”格式,双击安装.安装成功,在“开始”-“所有程 ...
- springboot升级到2.x需要改动的地方
由于需要跟进技术发展的脚步,对原有项目springboot进行2.0升级,但升级并不是说改一下版本就完事了,springboot2.0变动比较多,详细变化可以百度一下,下面针对升级springboot ...
- 一次和别人争吵一个按钮,点击后显示导航;再点击不显示的效果,是否一定以及必须用js?
事情经过是这样的,我们组一个说话很喜欢用一定,肯定的哥们,吃午饭的时候拿了自己做的一个UI库,头部有一个按钮 点击展开,再次点击收缩,他意思说一个按钮无法记录点击状态,必须使用js.然后我看了一眼,心 ...
- Linux-Shell脚本编程-学习-7-总结前面开启后面的学习
国庆前期后国庆回来也都比较忙,把书一放下,在那起来,就难了,发现好多都开始忘记了,今天好不容易硬着头片看来两章,算是马马虎虎的把前面的基础性质的只是看完了吧. 后面讲开始学习Shell编程的高级阶段, ...
- laravel跨域问题
// 只有同源策略才允许发送cookies // header('Access-Control-Allow-Credentials:true'); 需要要index.php下开启 最近写登录图形验证码 ...
- iOS-初识swift
在学习iOS开发之前,先掌握一点swift知识是必要的.note:不论是iOS开发还是编程语言的学习,都应该是迭代.由浅入深的过程,是理论实践相结合的过程. 中文文档 swift3(与swift4稍有 ...
- Collections常用方法总结
public class CollectionsTest { public static void main(String[] args) { List<Integer> list = n ...