前言

bucket table(桶表)是对数据进行哈希取值，然后放到不同文件中存储

应用场景

当数据量比较大，我们需要更快的完成任务，多个map和reduce进程是唯一的选择。
但是如果输入文件是一个的话，map任务只能启动一个。
此时bucket table是个很好的选择，通过指定CLUSTERED的字段，将文件通过hash打散成多个小文件。

create table test

(id int,

 name string

)

CLUSTERED BY(id) SORTED BY(name) INTO 32 BUCKETS

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘/t’;

执行insert前不要忘记设置

set hive.enforce.bucketing = true;

强制采用多个reduce进行输出

hive> INSERT OVERWRITE TABLE test select * from test09;

Total MapReduce jobs = 1

Launching Job 1 out of 1

Number of reduce tasks determined at compile time: 32

In order to change the average load for a reducer (in bytes):

  set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers:

  set hive.exec.reducers.max=<number>

In order to set a constant number of reducers:

  set mapred.reduce.tasks=<number>

Starting Job = job_201103070826_0018, Tracking URL = http://hadoop00:50030/jobdetails.jsp?jobid=job_201103070826_0018

Kill Command = /home/hjl/hadoop/bin/../bin/hadoop job  -Dmapred.job.tracker=hadoop00:9001 -kill job_201103070826_0018

2011-03-08 11:34:23,055 Stage-1 map = 0%,  reduce = 0%

2011-03-08 11:34:27,084 Stage-1 map = 6%,  reduce = 0%

*************************************************

Ended Job = job_201103070826_0018

Loading data to table test

5 Rows loaded to test

OK

Time taken: 175.036 seconds

hive的sunwg_test11文件夹下面出现了32个文件，而不是一个文件

[hadoop@hadoop00 ~]$ hadoop fs -ls /ticketdev/test

Found  items

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000000_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000001_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000002_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000003_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000004_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000005_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000006_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000007_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000008_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000009_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000010_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000011_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000012_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000013_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000014_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000015_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000016_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000017_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000018_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000019_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000020_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000021_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000022_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000023_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000024_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000025_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000026_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000027_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000028_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000029_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000030_0

-rw-r–r–    ticketdev hadoop           -- : /ticketdev/test/attempt_201103070826_0018_r_000031_0

文件被打散后，可以启动多个mapreduce task
当执行一些操作的时候，你会发现系统启动了32个map任务

hive中的bucket table的更多相关文章

当在hive中show table …
当在hive中show table 时如果报以下错时 FAILED: Error in metadata: javax.jdo.JDODataStoreException: Error(s) were ...
hive错误排查一：hive中执行 drop table命令卡住，删除表不成功
起因公司用的AWS EMR上的hive,突然不能删除表了. 经过分析来看,估计是元数据那块出了问题.从元数据入手,元数据存在mysql的hive数据库中直接使用hive配置文件hive-site ...
Hive中的数据库(Database)和表(Table)
在前面的文章中,介绍了可以把Hive当成一个"数据库",它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table). 本文介绍一下Hive中的数据库( ...
hive中的null
在处理流水增量表的时候,出现了一个判定的失误. select a.a1,a.a2 from ( select a.a1 ,,) as diff ,a.a2 from a lefter join b o ...
hive中简单介绍分区表(partition table)——动态分区(dynamic partition)、静态分区(static partition)
一.基本概念 hive中分区表分为:范围分区.列表分区.hash分区.混合分区等. 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列.翻译一下是:“在表的数据文件中实际上并不保存分区列的信 ...
Hive学习笔记——Hive中的分桶
对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分.Hive也是针对某一列进行桶的组织.Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记 ...
hive中使用rcfile
(1)建student & student1 表:(hive 托管)create table student(id INT, age INT, name STRING)partitioned ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
Hive中的一些点
hive严格模式 Hive中Order by和Sort by的区别是什么? hive中order by,sort by, distribute by, cluster by作用以及用法 Hadoop ...

随机推荐

项目构建工具maven的使用方法
最近在开发javaweb项目中有用到maven,以前并不是很了解,于是学习了一些相关内容,记之共享. 本篇内容在Windows环境下实施,JDK版本使用的1.7.0_79. 一.maven是什么? 简 ...
使用 Dotfuscator 对代码进行混淆
Dotfuscator 简介作为一种高级语言,c# 类库很容易被 .NET Reflector 这样的工具反编译.攻击者很容易从代码中找到数据库连接方式,加解密方法等重要信息.使用 dnspy 这样 ...
gitlab之gitlab-runner自动部署（二）
转载自:https://blog.csdn.net/hxpjava1/article/details/78514999 简介 gitlab-ci全称是gitlab continuous integra ...
PyCharm | 常见问题
1.安装使用每次建立PyCharm工程都建立一个虚拟环境env,需要重新下载或复制模块
JS框架设计之模块加载系统
任何语言一到大规模应用阶段,必然要拆封模块,有利于维护和团队协作,与Java走得最近的dojo率先引进了加载器,使用document.write与同步Ajax请求实现,后台dojo以JSONP的方法来 ...
远控项目（Windows Socket）
实现内容(屏幕,鼠标,键盘实时控制) 控制端: #pragma once #ifndef keybd_H #define keybd_H #include <stdio.h> #inclu ...
android actionbar viewpager 实现类微信主界面布局
1 Activity public class MainActivity extends FragmentActivity { private ViewPager pager; private Act ...
TortoiseGit学习系列之TortoiseGit是什么？
写该文章目的肯定有人会遇到这样的问题: 最近换了一份新工作,新公司的源码管理都是使用GIT,习惯了之前的TFS和SVN进行项目源码管理和团队开发,第一次使用GIT进行团队开发和源码管理,颇有一些不习 ...
HTML页面中嵌入SVG
HTML页面中嵌入SVG的几种方式你有N种理由使用SVG在页面中展示图像,如它的矢量特性.广泛的浏览器支持.比JPEG和PNG更小的体积.可用CSS设置外观.使用DOM API操作以及各种可用的SV ...
学习Python要知道哪些重要的库和工具
本文转自:https://github.com/jobbole/awesome-python-cn 环境管理管理 Python 版本和环境的工具 p:非常简单的交互式 python 版本管理工具. ...

hive中的bucket table

前言

应用场景

hive中的bucket table的更多相关文章

随机推荐

热门专题