hive 常用参数

hive.exec.max.created.files

•说明：所有hive运行的map与reduce任务可以产生的文件的和

•默认值:100000

hive.exec.dynamic.partition

•说明：是否为自动分区

•默认值：false

hive.mapred.reduce.tasks.speculative.execution

•说明：是否打开推测执行

•默认值：true

hive.input.format

•说明：Hive默认的input format

•默认值： org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

•如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat

hive.exec.counters.pull.interval

•说明：Hive与JobTracker拉取counter信息的时间

•默认值：1000ms

hive.script.recordreader

•说明：使用脚本时默认的读取类

•默认值： org.apache.hadoop.hive.ql.exec.TextRecordReader

hive.script.recordwriter

•说明：使用脚本时默认的数据写入类

•默认值： org.apache.hadoop.hive.ql.exec.TextRecordWriter

hive.mapjoin.check.memory.rows

•说明：内存里可以存储数据的行数

•默认值： 100000

hive.mapjoin.smalltable.filesize

•说明：输入小表的文件大小的阀值，如果小于该值，就采用普通的join

•默认值： 25000000

hive.auto.convert.join

•说明：是不是依据输入文件的大小，将Join转成普通的Map Join

•默认值： false

hive.mapjoin.followby.gby.localtask.max.memory.usage

•说明：map join做group by 操作时，可以使用多大的内存来存储数据，如果数据太大，则不会保存在内存里

•默认值：0.55

hive.mapjoin.localtask.max.memory.usage

•说明：本地任务可以使用内存的百分比

•默认值： 0.90

hive.heartbeat.interval

•说明：在进行MapJoin与过滤操作时，发送心跳的时间

•默认值1000

hive.merge.size.per.task

•说明：合并后文件的大小

•默认值： 256000000

hive.mergejob.maponly

•说明：在只有Map任务的时候合并输出结果

•默认值： true

hive.merge.mapredfiles

•默认值：在作业结束的时候是否合并小文件

•说明： false

hive.merge.mapfiles

•说明：Map-Only Job是否合并小文件

•默认值：true

hive.hwi.listen.host

•说明：Hive UI 默认的host

•默认值：0.0.0.0

hive.hwi.listen.port

•说明：Ui监听端口

•默认值：9999

hive.exec.parallel.thread.number

•说明：hive可以并行处理Job的线程数

•默认值：8

hive.exec.parallel

•说明：是否并行提交任务

•默认值：false

hive.exec.compress.output

•说明：输出使用压缩

•默认值： false

hive.mapred.mode

•说明： MapReduce的操作的限制模式，操作的运行在该模式下没有什么限制

•默认值： nonstrict

hive.join.cache.size

•说明： join操作时，可以存在内存里的条数

•默认值： 25000

hive.mapjoin.cache.numrows

•说明： mapjoin 存在内存里的数据量

•默认值：25000

hive.join.emit.interval

•说明：有连接时Hive在输出前，缓存的时间

•默认值： 1000

hive.optimize.groupby

•说明：在做分组统计时，是否使用bucket table

•默认值： true

hive.fileformat.check

•说明：是否检测文件输入格式

•默认值：true

hive.metastore.client.connect.retry.delay

•说明： client 连接失败时,retry的时间间隔

•默认值：1秒

hive.metastore.client.socket.timeout

•说明: Client socket 的超时时间

•默认值：20秒

mapred.reduce.tasks

•默认值：-1

•说明：每个任务reduce的默认值

-1 代表自动根据作业的情况来设置reduce的值

hive.exec.reducers.bytes.per.reducer

•默认值： 1000000000 （1G）

•说明：每个reduce的接受的数据量

如果送到reduce的数据为10G,那么将生成10个reduce任务

hive.exec.reducers.max

•默认值：999

•说明： reduce的最大个数

hive.exec.reducers.max

•默认值：999

•说明： reduce的最大个数

hive.metastore.warehouse.dir

•默认值：/user/hive/warehouse

•说明：默认的数据库存放位置

hive.default.fileformat

•默认值：TextFile

•说明：默认的fileformat

hive.map.aggr

•默认值：true

•说明： Map端聚合，相当于combiner

hive.exec.max.dynamic.partitions.pernode

•默认值：100

•说明：每个任务节点可以产生的最大的分区数

hive.exec.max.dynamic.partitions

•默认值：1000

•说明：默认的可以创建的分区数

hive.metastore.server.max.threads

•默认值：100000

•说明： metastore默认的最大的处理线程数

hive.metastore.server.min.threads

•默认值：200

•说明： metastore默认的最小的处理线程数

hive 常用参数的更多相关文章

[Hive_add_8] Hive 常用参数配置
0. 说明记录 Hive 常用参数的配置 1. 设置本地模式让 Hive 自动使用 Hadoop 的本地模式运行作业,提升处理性能适合小文件,一般用于测试 set hive.exec.mode. ...
hive常用参数配置设置
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
大数据：Hive常用参数调优
1.limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
hive & hive beeline常用参数
Hive 1参数如下: usage: hive -d,--define <key=value> Variable substitution to apply to Hive command ...
Linux下查看某个进程打开的文件数-losf工具常用参数介绍
Linux下查看某个进程打开的文件数-losf工具常用参数介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在linux操作系统中,一切皆文件.通过文件不仅仅可以访问常规数据,还 ...
hive常用函数 wordCount--Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战
第三天笔记第三天笔记 SQL练习Hive 常用函数关系运算数值计算条件函数日期函数重点!!!字符串函数Hive 中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战 ...
Production环境中iptables常用参数配置
production环境中iptables常用参数配置作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我相信在实际生产环境中有很多运维的兄弟跟我一样,很少用到iptables的这个 ...
chattr的常用参数详解
chattr的常用参数详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在实际生产环境中,有的运维工程师不得不和开发和测试打交道,在我们公司最常见的就是部署接口.每天每个人部署的 ...
dmidecode常用参数
dmidecode常用参数详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. dmidecode这个命令真是神器啊,他能快速的获取服务器的硬件信息,而且这个命令有很多的花式玩法,今 ...

随机推荐

opencv-02--图像的邻域操作
图像的邻域操作很多时候,我们对图像处理时,要考虑它的邻域,比如3*3是我们常用的,这在图像滤波.去噪中最为常见,下面我们介绍如果在一次图像遍历过程中进行邻域的运算. 下面我们进行一个简单的滤波操作, ...
Go part 3 指针，栈与堆
指针类型要明白指针,需要知道几个概念:指针地址,指针类型和指针取值取指针地址每个变量在运行时都拥有一个地址,这个地址代表变量在内存中的位置,使用 & 放在变量前面进行“取指针地址”操 ...
自定义flask转换器
自定义flask转换器以匹配手机号为例: # 1. 定义自己的转换器 class MobileConverter(BaseConverter): def __init__(self, url_map ...
Linux网络管理——路由配置文件、DNS配置文件、hosts文件
路由配置文件 route命令添加的路由表,重启网络服务或者重启系统之后就全都失效了.可以创建针对网卡的路由配置文件,这样在重启网络服务或者重启系统的时候就会加载针对某个网卡的配置文件. CONFI ...
（1）openstack-Rabbitmq 集群部署
一.前期准备 (1)条件:准备3台linux系统,确保配置好源,及epel源 yun1,yun2,yun3 (2)三台机器能够静态解析彼此 (3)设置可以无密钥登陆 ssh-keyge ...
Vue-Cli3.0 单页面如何预渲染，解决登录拦截导致无法部分路由无法预渲染问题？
vue单页面不利于seo,如何解决已有spa项目seo问题? 1.安装 cnpm install prerender-spa-plugin --save-dev 2.路由history模式 const ...
如何用pycharm 控制远程服务器来跑代码!!!!!!!!!!!!非常牛逼
2019-09-04,10点58 想弄一个pycharm的插件,就是用deployment同步代码的时候,在pycharm里面运行代码,的时候本机不动,而是远程服务器运行,然后把结果返回!!!!!!挺 ...
甘特图、Data Editors控件新玩法—DevExpress WPF v19.2
通过DevExpress WPF Controls,你能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案. 无论是Office办公软件的衍 ...
sublimetext插件自定义respository
官方文档(https://packagecontrol.io/docs/submitting_a_package) 上面说明了插件可以按两种方式挂起,一种是github,一种是ssl认证的web服务器 ...
Codeforces Round #584 B. Koala and Lights
链接: https://codeforces.com/contest/1209/problem/B 题意: It is a holiday season, and Koala is decoratin ...

hive 常用参数

hive 常用参数的更多相关文章

随机推荐

热门专题