Hive 参数

hive.exec.max.created.files

•说明：所有hive运行的map与reduce任务可以产生的文件的和

•默认值:100000

hive.exec.dynamic.partition

•说明：是否为自动分区

•默认值：false

hive.mapred.reduce.tasks.speculative.execution

•说明：是否打开推测执行

•默认值：true

hive.input.format

•说明：Hive默认的input format

•默认值： org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

•如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat

hive.exec.counters.pull.interval

•说明：Hive与JobTracker拉取counter信息的时间

•默认值：1000ms

hive.script.recordreader

•说明：使用脚本时默认的读取类

•默认值： org.apache.hadoop.hive.ql.exec.TextRecordReader

hive.script.recordwriter

•说明：使用脚本时默认的数据写入类

•默认值： org.apache.hadoop.hive.ql.exec.TextRecordWriter

hive.mapjoin.check.memory.rows

•说明：内存里可以存储数据的行数

•默认值： 100000

hive.mapjoin.smalltable.filesize

•说明：输入小表的文件大小的阀值，如果小于该值，就采用普通的join

•默认值： 25000000

hive.auto.convert.join

•说明：是不是依据输入文件的大小，将Join转成普通的Map Join

•默认值： false

hive.mapjoin.followby.gby.localtask.max.memory.usage

•说明：map join做group by 操作时，可以使用多大的内存来存储数据，如果数据太大，则不会保存在内存里

•默认值：0.55

hive.mapjoin.localtask.max.memory.usage

•说明：本地任务可以使用内存的百分比

•默认值： 0.90

hive.heartbeat.interval

•说明：在进行MapJoin与过滤操作时，发送心跳的时间

•默认值1000

hive.merge.size.per.task

•说明：合并后文件的大小

•默认值： 256000000

hive.mergejob.maponly

•说明：在只有Map任务的时候合并输出结果

•默认值： true

hive.merge.mapredfiles

•默认值：在作业结束的时候是否合并小文件

•说明： false

hive.merge.mapfiles

•说明：Map-Only Job是否合并小文件

•默认值：true

hive.hwi.listen.host

•说明：Hive UI 默认的host

•默认值：0.0.0.0

hive.hwi.listen.port

•说明：Ui监听端口

•默认值：9999

hive.exec.parallel.thread.number

•说明：hive可以并行处理Job的线程数

•默认值：8

hive.exec.parallel

•说明：是否并行提交任务

•默认值：false

hive.exec.compress.output

•说明：输出使用压缩

•默认值： false

hive.mapred.mode

•说明： MapReduce的操作的限制模式，操作的运行在该模式下没有什么限制

•默认值： nonstrict

hive.join.cache.size

•说明： join操作时，可以存在内存里的条数

•默认值： 25000

hive.mapjoin.cache.numrows

•说明： mapjoin 存在内存里的数据量

•默认值：25000

hive.join.emit.interval

•说明：有连接时Hive在输出前，缓存的时间

•默认值： 1000

hive.optimize.groupby

•说明：在做分组统计时，是否使用bucket table

•默认值： true

hive.fileformat.check

•说明：是否检测文件输入格式

•默认值：true

hive.metastore.client.connect.retry.delay

•说明： client 连接失败时,retry的时间间隔

•默认值：1秒

hive.metastore.client.socket.timeout

•说明: Client socket 的超时时间

•默认值：20秒

mapred.reduce.tasks

•默认值：-1

•说明：每个任务reduce的默认值

-1 代表自动根据作业的情况来设置reduce的值

hive.exec.reducers.bytes.per.reducer

•默认值： 1000000000 （1G）

•说明：每个reduce的接受的数据量

如果送到reduce的数据为10G,那么将生成10个reduce任务

hive.exec.reducers.max

•默认值：999

•说明： reduce的最大个数

hive.exec.reducers.max

•默认值：999

•说明： reduce的最大个数

hive.metastore.warehouse.dir

•默认值：/user/hive/warehouse

•说明：默认的数据库存放位置

hive.default.fileformat

•默认值：TextFile

•说明：默认的fileformat

hive.map.aggr

•默认值：true

•说明： Map端聚合，相当于combiner

hive.exec.max.dynamic.partitions.pernode

•默认值：100

•说明：每个任务节点可以产生的最大的分区数

hive.exec.max.dynamic.partitions

•默认值：1000

•说明：默认的可以创建的分区数

hive.metastore.server.max.threads

•默认值：100000

•说明： metastore默认的最大的处理线程数

hive.metastore.server.min.threads

•默认值：200

•说明： metastore默认的最小的处理线程数

Hive 参数的更多相关文章

[Hive] - Hive参数含义详解
hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以 ...
Hive参数
1.hive当中的参数.变量都是以命名空间开头 2.通过${}方式进行引用,其中system.env下的变量必须以前缀开头 3.hive参数设置方式 1.修改配置文件${HIVE_HOME}/conf ...
【Hive学习之五】Hive 参数&动态分区&分桶
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
hive参数——深入浅出学Hive
第一部分:Hive 参数 hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.d ...
Hive（七）Hive参数操作和运行方式
Hive参数操作和运行方式 1.Hive参数操作 1.hive参数介绍 hive当中的参数.变量都是以命名空间开头的,详情如下表所示: 命名空间读写权限含义 hiveconf 可读写 hive ...
Hive参数层面常用优化
1.hive数据仓库权限问题: set hive.warehouse.subdir.inherit.perms=true; 2.HiveServer2的内存连接的个数越多压力越大,可以加大内存:可以 ...
hive参数配置
CLI参数两种修改方式: 1)启动时 hive --hiveconf hive.cli.print.current.db=true 2)修改当前用户home目录下 .hiverc文件,hive c ...
Hive参数的临时设置和永久性设置
Hive中有一些参数是系统给提供给用户的,我们可以通过这些参数的设置可以让Hive在不同的模式下工作,或者改变显示的效果. 1.通过set对参数值进行设定,这种设置只能是在本次会话有效,退出Hive就 ...
hive参数配置详细
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
hive参数配置及任务优化
一.hive常用参数 0.常用参数 --@Name: --@Description: --@Type:全量加载 --@Author:--- --@CreateDate: --@Target: --@S ...

随机推荐

[JZOJ5279]香港记者题解--最短路图
[JZOJ5279]香港记者题解--最短路图题目链接过于暴力分析有一个naiive的想法就是从1到n跑最短路,中途建图,然后在图上按字典序最小走一遍,然而·这是不行的,你这样跳不一定能跳 ...
2019 WebRtc AudioMixer混音流程
本文简要说明最新版WebRtc AudioMixer混音流程. 本程序使用4个16KHz 单声道时长均大于10秒的Wav文件作为混音源,只合成前10秒的音频,输出也是16KHz单声道音频. 输入和输出 ...
socket技术详解
https://blog.csdn.net/weixin_39634961/article/details/80236161 socket编程是网络常用的编程,我们通过在网络中创建socket关键字来 ...
分布式爬虫-bilibili评论
实属课程需要,不然早就放弃在半路了.维持了断续半个多月的 bug 调试,突然就实现了.很是欣慰.网上关于分布式爬虫的都是一些介绍,实战的不多并且都很相似,说的云来雾去的,只是项目的流程.可能是项目一路 ...
javaWeb文件上传与下载
文件上传与下载在项目中运用的使用频率很大今天也花时间整理了一下多文件上传图片回显和文件下载 1.多文件上传这里会涉及到几个属性 fileSizeThreshold:缓冲区文件的大小如果上传 ...
Bert-util安装
转载:https://blog.csdn.net/u013109501/article/details/91987180 https://blog.csdn.net/Vancl_Wang/articl ...
Oracle查询表空间使用情况的一个sql
select t1.tablespace_name,curr_b/1024/1024/1024,max_b/1024/1024/1024,curr_b/max_b from(select table ...
L1与L2正则化
目录过拟合结构风险最小化原理正则化 L2正则化 L1正则化 L1与L2正则化参考链接过拟合机器学习中,如果参数过多.模型过于复杂,容易造成过拟合. 结构风险最小化原理在经验风险最小化(训 ...
python cmd 窗口中文乱码解决方法（附：打印不同颜色）
python cmd 窗口中文乱码解决方法 (附:打印不同颜色) 前言在 python 开发中,有时候想通过cmd窗口来和用户交互,比如显示信息之类的,会比自己创建 GUI 来的方便,但是随之而 ...
从项目开始的Java开发学习
积累了一些项目中见到的代码,希望见一次之后自己也能写出来. 一.通过cxf JaxWsDynamicClientFactory进行WebService 客户端调用代码:在项目中从非项目内的接口获取数 ...

Hive 参数

Hive 参数的更多相关文章

随机推荐

热门专题