Hadoop分布式文件系统
在一个经典的数据架构中,Hadoop是处理复杂数据流的核心。数据从各种系统中收集而来,并汇总导入到Hadoop分布式文件系统HDFS中,然后通过MapReduce或者其它基于MapReduce封装的语言如Hive,Pig等进行处理,将处理后的数据导出即可。具体例子而言,如果一个大型网站需要做网站点击率的分析,它将多个服务器采集的页面访问日志汇总,推送至HDFS中,启动MapReduce作业,接下来数据将被解析,汇总以及IP地址进行关联计算,生成的结果可以导入到关系型数据库中。
启动Hadoop
在一台已经安装Hadoop并配置了环境变量的机器中启动hadoop。
su hadoop#进入hadoop命令模式hadoop namenode -format#初始化hadoop:hadoop部署好之后需要进行格式化工作,同时初始化操作日志,因此对于第一次使用HDFS时,需要执行-format命令才可以正常使用namenode节点start-all.sh#启动hadoopjps#使用jps检查是否启动进程
使用Hadoop shell命令导入导出数据到HDFS
- HDFS提供shell命令实现访问文件系统的功能,shell脚本名称为hadoop,通常安装在
$HADOOP_BIN目录下,将$HADOOP_BIN配置到$PATH环境变量中,这样所有命令都可以通过hadoop fs -command执行,通过hadoop fs -help command获得某个命令的具体说明。 hadoop fs -mkdir -p /data/weblogs#在HDFS创建名为weblogs的新文件夹,-p表示级联创建(在创建目录weblogs时,若data不存在,顺带创建data目录)hadoop fs -copyFromLocal <localsrc> URI将文件从本地文件系统复制到HDFS目标文件夹下。e.g.:hadoop fs -copyFromLocal weblogs.txt /data/weblogshadoop fs -ls <args>args为文件,列出文件状态;args为目录列出目录下的文件- 工作原理:Hadoop shell轻量地封装在HDFS FileSystem API之上。在执行hadoop命令时,如果传进去的参数是
fs,实际执行的是org.apache.hadoop.fs.FsShell这个类,FsShell实例化了一个org.apache.hadoop.fs.FileSystem对象,并且将命令行参数与类方法映射起来。例如,执行hadoop fs -mkdir /data/weblogs相当与调用FileSystem.mkdirs(new Path("/data/weblogs")) - 详细的命令使用参见:hadoop fs
Pig脚本使用getmerge命令
- 使用上面的
hadoop fs命令的get和copyToLocal只能对文件进行复制,无法对文件夹进行复制,当然可以使用其getmerge合并多个文件并下载到本地文件系统中 - 使用Pig脚本执行
getmerge。建立weblogs_md5_group_pig.sh脚本:
weblogs = load '/data/weblogs/weblog_entries.txt' as#逐行读取HDFS上weblog_entries.txt文件 (md5:chararray, url:chararray, date:chararray, time:chararray, ip:chararray); md5_grp = group weblogs by md5 parallel 4;#按照md5值进行分组 store md5_grp into '/data/weblogs/weblogs_md5_groups.bcp';#parallel是Pig脚本用来设置reduce个数的方法,由于启动4个reduce任务,所以会在输出目录中生成4个文件
distcp实现集群间数据复制
- Hadoop分布式复制
distcp是Hadoop集群间复制大量数据的高效工作,distcp是通过启动MapReduce实现数据复制的。 hadoop distcp hdfs://namenodeA/data/weblogs hdfs://namenodeB/data/weblogs#将集群A的weblogs文件夹复制到集群B上hadoop distcp -overwrite hdfs://namenodeA/data/weblogs hdfs://namenodeB/data/weblogs#将集群A的weblogs文件夹复制到集群B并覆盖已存在文件hadoop distcp -update hdfs://namenodeA/data/weblogs hdfs://namenodeB/data/weblogs#同步集群A和集群B之间的weblogs文件夹- 实现原理:在原集群,文件夹的内容被复制为一个临时的大文件,将会启动一个只有map的MapReduce作业实现两个集群之间的数据复制。
使用Sqooq从Mysql数据库导入到HDFS
- Sqooq和distcp相似,都是构建在MapReduce之上,利用了MapReduce的并行性和容错性,与集群间复制不同,Sqooq设计通过JDBC驱动连接实现Hadoop集群与关系数据库之间的数据复制。
- 在mysql中创建logs数据库和表weblogs:
CREATE DATABASE logs; use logs; create table weblogs ( md5 VARCHAR(32), url VARCHAR(64), request_date DATE, request_time TIME, ip VARCHAR(15) ); show tables; - 使用如下命令将logs数据库的表数据导入到HDFS中:
./sqoop import --connect jdbc:mysql://localhost:3306/logs --username root --password 123456 --table weblogs --target-dir /data/weblogs/import - 工作原理:Sqooq连接数据库的JDBC驱动在
--connect语句中定义,并从$SQOOP_HOME/lib目录中加载相应的包,其中$SQOOP_HOME为Sqooq安装的绝对路径。--username和--password用于验证mysql实例的权限,--target-dir选项指定导出数据库的存放位置,-m 1指定选定map的数量。注意:mysql.user表必须包含Hadoop集群每个节点的主机域名和相应的用户名,否则Sqooq会抛出异常。
使用Sqooq从HDFS导出到Mysql
- 创建表:
use logs; create table weblogs_from_hdfs ( md5 VARCHAR(32), url VARCHAR(64), request_date DATE, request_time TIME, ip VARCHAR(15) ); - 从HDFS导出到weblog_entries.txt文件到Mysql:
./sqoop export --connect jdbc:mysql://localhost:3306/logs --username root --password 123456 --table weblogs_from_hdfs --export-dir '/data/weblogs/weblog_entries.txt' -m 1 --fields-terminated-by '\t' - 上面的这个例子使用
--table参数决定HDFS导出的数据被储存在哪张Mysql表中,Sqooq通过表的元数据信息,列数量和列类型来校验HDFS需要导出目录中的数据并生成相应的插入语句。导出作业可以被想象为逐行读取HDFS的文件变每行产生一个INSERT INTO的sql语句进行插入。
本博客部分来源于实验楼
Hadoop分布式文件系统的更多相关文章
- Hadoop 分布式文件系统:架构和设计
引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时,它和其他的分布式文件系统 ...
- 【官方文档】Hadoop分布式文件系统:架构和设计
http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html 引言 前提和设计目标 硬件错误 流式数据访问 大规模数据集 简单的一致性模型 “移动计 ...
- 在Hadoop分布式文件系统的索引和搜索
FROM:http://www.drdobbs.com/parallel/indexing-and-searching-on-a-hadoop-distr/226300241?pgno=3 在今天的信 ...
- 图解向hadoop分布式文件系统写文件的工作流程
网上看到一张关于hadoop分布式文件系统(hdfs)的工作原理的图片,其实主要是介绍了向hdfs写一个文件的流程.图中的流程已经非常清晰,直接上图 好吧,博客园告诉我少于200字的文章不允许发布到网 ...
- Hadoop分布式文件系统HDFS详解
Hadoop分布式文件系统即Hadoop Distributed FileSystem. 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并 ...
- Hadoop分布式文件系统HDFS的工作原理
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...
- 第3章:Hadoop分布式文件系统(1)
当数据量增大到超出了单个物理计算机存储容量时,有必要把它分开存储在多个不同的计算机中.那些管理存储在多个网络互连的计算机中的文件系统被称为"分布式文件系统".由于这些计算机是基于网 ...
- Hadoop分布式文件系统使用指南
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_user_guide.html 目的 概述 先决条件 Web接口 Shell命令 DFSAdmin命 ...
- Hadoop分布式文件系统:架构和设计
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html 引言 前提和设计目标 硬件错误 流式数据访问 大规模数据集 简单的一致性模型 ...
- Hive数据导入——数据存储在Hadoop分布式文件系统中,往Hive表里面导入数据只是简单的将数据移动到表所在的目录中!
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop ...
随机推荐
- Gson的使用(JsonObject)
在Java开发互联网应用系统的过程中,数据的传递与转换是经常使用的,我在开发的过程中用的最多的是google的Gson,现就其使用的过程中的注意点做一个总结(当然首先要先去下载Gson的jar包,附件 ...
- Activity启动模式需注意的坑
标准启动Standard模式版本差异: 在Lollipop之前,每次以MULTIPLE启动的Activity都会被压入当前任务的顶部,启动 N 次,在当前任务就会出现 N 个Activity的实例,每 ...
- WPF入门(三)->两个几何图形合并(CombinedGeometry)
原文:WPF入门(三)->两个几何图形合并(CombinedGeometry) 在WPF中,提供了一个CombinedGeometry对象可以使两个几何图形合并产生效果 CombinedGeom ...
- sql server中触发器
触发器是一种特殊类型的存储过程,它不同于之前的我们介绍的存储过程.触发器主要是通过事件进行触发被自动调用执行的.而存储过程可以通过存储过程的名称被调用. Ø 什么是触发器 触发器对表进行插入.更新.删 ...
- 零基础WINDOWS
课前准备 我们将会从零基础带领大家一步一步的学习Web前端技术,这个零基础是什么概念呢?你只要具备以下技能就可以学习: 一.个人学习条件(必备) 会开关电脑,手机.(哇塞,任老师你逗我们吧!). 会打 ...
- Vue.JS学习基础
= 导航 顶部 vue.js介绍 vue.js实例 模板语法 计算属性 样式绑定 条件渲染 列表渲染 事件处理器 表单控件绑定 组件 顶部 vue.js介绍 vue.js实例 模板语法 计 ...
- 国家模式c++
状态模式(State Pattern)是设计模式的一种,属于行为模式. 定义(源于Design Pattern):当一个对象的内在状态改变时同意改变其行为,这个对象看起来像是改变了其类. 状态模式主要 ...
- Gtkmm在dev-cpp下的配置
Gtkmm安装 1. 首先安装dev-cpp 2. 然后安装最新的gtkmm2.4来自http://www.pcpm.ucl.ac.be/~gustin/win32_ports/index.htm ...
- 用SendNotifyMessage代替PostMessage避免消息丢失(WIN7下消息队列的默认长度是10000,队列满后消息将被丢弃)
大家都知道PostMessage会丢消息,但是消息队列的大小是多少呢,下面做了一个测试. 代码: 1 unit Unit1; 2 3 interface 4 5 uses 6 Windows, M ...
- 关于 Swift 中的 Array.contains 方法
Swift 2.0 中对语言进行了又一次的改进,这次将整个语言变得更加面向对象化,比如在 Swift 1.x 中如果要判断某个元素是否在数组中,就需要用到 contains 函数: if contai ...