hadoop day 1

hadoop是什么？

解决的问题：

　　海量数据的存储(HDFS)：供hbase，mapreduce进行处理

　　海量数据的分析(MapReduce)

　　资源管理调度(YARN)

搜索引擎：

　　爬虫系统+站内搜索

　　爬虫对html网页进行抓取，数据量较大，需要进行海量数据存储，传统存储手段已经无法满足需求

hadoop具体能干什么

1.擅长海量日志分析

海量数据存储的解决方案：

程序执行相关命令：

向hdfs中上传文件至根目录：hadoop fs -put filename hdfs://hostname:port/
从hdfs中下载文件：hadoop fs -get hdfs://hostname:port/filename
创建目录：hadoop fs -mkdir hdfs://hostname:port/wordcount
查看目录下的类容：    -ls
查看某个文件的类容：  -cat
执行mapreduce程序：
hadoop jar filename.jar pi 5 5

2.hdfs的实现机制

hdfs通过分布式集群来存储文件，为客户端提供了一个便捷的访问方式，就是一个虚拟的工作目录

文件存储到hdfs集群中去的时候是被切分成block的

文件的block存放在若干台datanode节点上

hdfs文件系统中的文件与真实的block之间有映射关系，由namenode管理

namenode记录每个文件在datanode所存放的位置

每个block在集群中会存储多个副本，好处是可以提高数据的可靠性和访问的吞吐量

3.mapreduce

hadoop fs -mkdir hdfs://hostname:9000/wordcount

hadoop fs -mkdir /wordcount/input

hadoop fs -mkdir /wordcount/output

hadoop fs -put test.txt /wordcount/input 将文件放到hdfs中

hadoop jar filename.jar wordcount /wordcount/input /wordcount/output

4.hdfs实现机制

将文件分块放置于不同的DataNode下：DataNode的路径如下/hadoop/data/dfs/data/，每个block在集群中会存储多个副本

NameNode中记录了元数据所存放的位置，客户端通过namenode对分布式的数据进行操作

hdfs文件的内容不能修改

hadoop day 1的更多相关文章

Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
初识Hadoop、Hive
2016.10.13 20:28 很久没有写随笔了,自打小宝出生后就没有写过新的文章.数次来到博客园,想开始新的学习历程,总是被各种琐事中断.一方面确实是最近的项目工作比较忙,各个集群频繁地上线加多版 ...
hadoop 2.7.3本地环境运行官方wordcount-基于HDFS
接上篇<hadoop 2.7.3本地环境运行官方wordcount>.继续在本地模式下测试,本次使用hdfs. 2 本地模式使用fs计数wodcount 上面是直接使用的是linux的文件 ...
hadoop 2.7.3本地环境运行官方wordcount
hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式 ...
【Big Data】HADOOP集群的配置（一）
Hadoop集群的配置(一) 摘要: hadoop集群配置系列文档,是笔者在实验室真机环境实验后整理而得.以便随后工作所需,做以知识整理,另则与博客园朋友分享实验成果,因为笔者在学习初期,也遇到不少问 ...
Hadoop学习之旅二：HDFS
本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...
程序员必须要知道的Hadoop的一些事实
程序员必须要知道的Hadoop的一些事实.现如今,Apache Hadoop已经无人不知无人不晓.当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软...... 1: ...
Hadoop 2.x 生态系统及技术架构图
一.负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大) 二.负责存储数据的工具:HBaseMong ...
Hadoop的安装与设置(1)
在Ubuntu下安装与设置Hadoop的主要过程. 1. 创建Hadoop用户创建一个用户,用户名为hadoop,在home下创建该用户的主目录,就不详细介绍了. 2. 安装Java环境下载Lin ...
基于Ubuntu Hadoop的群集搭建Hive
Hive是Hadoop生态中的一个重要组成部分,主要用于数据仓库.前面的文章中我们已经搭建好了Hadoop的群集,下面我们在这个群集上再搭建Hive的群集. 1.安装MySQL 1.1安装MySQL ...

随机推荐

Git的各种状态
考:http://blog.csdn.net/wirelessqa/article/details/19548057 按照文件的存放位置分: 在你自建的Git本地仓库中,有三个区域:本地目录.暂存区. ...
python中bottle模块的使用
1.简介 2.示例 2.1一个简单的bottle接口 # -*- coding: utf-8 -*- from bottle import route, request, run import jso ...
【转】JavaScript => TypeScript 入门
几个月前把 ES6 的特性都过了一遍,收获颇丰.现在继续来看看 TypesScript(下文简称为 “TS”).限于经验,本文一些总结如有不当,欢迎指正. 官网有这样一段描述: TypeScript ...
利用神经网络进行网络流量识别——特征提取的方法是（1）直接原始报文提取前24字节，24个报文组成596像素图像CNN识别；或者直接去掉header后payload的前1024字节（2）传输报文的大小分布特征；也有加入时序结合LSTM后的CNN综合模型
国外的文献汇总: <Network Traffic Classification via Neural Networks>使用的是全连接网络,传统机器学习特征工程的技术.top10特征如下 ...
运维相关 docker
python（3）之字符串
字符串常用操作如下: name="huang yuqing"print(name.count("h"))#计算包含字符的个数print(name.capital ...
absolute 导致点击事件无效
方案一: 添加层数 z-index 方案二: 背景的透明度为0 background-color:#000; filter:alpha(opacity=0); opacity:0;
:after 写三角形 border
.tooltip:after { content: ''; position: absolute; border: 6px solid #5190ac; border-color: #5190ac t ...
win10系统office2010每次打开总是出现配置进度
六招让你的Ubuntu马上提速
Chris Hoffman Ubuntu的启动速度非常快,按了开机键之后很快就进入桌面.但我们仍然可以充分利用内存,通过多种方法让开机速度更快.某些方法真的可以提速,对于旧电脑的效果尤其明显. 选用轻 ...

hadoop day 1

hadoop day 1的更多相关文章

随机推荐

热门专题