hadoop记录-hadoop常用

1.hdfs目录配额

#设置配额目录
hdfs dfsadmin -setSpaceQuota 10T /user/hive/warehouser/tmp
查看配额目录信息
hdfs dfs -count -q -h /user/hive/warehouser/tmp
#清除配额目录信息
hdfs dfsadmin -clrSpaceQuota /user/hive/warehouser/tmp

2.均衡

$ hdfs dfsadmin -setBalancerBandwidth 1073741824
$ nohup hdfs balancer \
-Ddfs.datanode.balance.max.concurrent.moves = 10 \
-Ddfs.balancer.dispatcherThreads = 1024 \
-Ddfs.balance.bandwidthPerSec = 1073741824

#此配置用于限制允许Datanode平衡群集的最大并发块移动数
dfs.datanode.balance.max.concurrent.moves, default is 5
#带宽
dfs.datanode.balance.bandwidthPerSec, default is 1048576 (=1MB/s)
dfsadmin -setBalancerBandwidth <bandwidth in bytes per second>
#mover线程数
dfs.balancer.moverThreads, default is 1000
#datanode传输的最大线程数
dfs.datanode.max.transfer.threads
修改dfs.datanode.max.transfer.threads=4096 (如果运行HBase的话建议为16384)，
指定用于在DataNode间传输block数据的最大线程数，老版本的对应参数为dfs.datanode.max.xcievers。

#平衡策略，默认为datanode
[-policy <policy>]
blockpool: Cluster is balanced if each pool in each node is balanced.
datanode: Cluster is balanced if each datanode is balanced.
#阈值
[-threshold <threshold>] [1.0, 100.0]
#包含列表
[-include [-f <hosts-file> | <comma-separated list of hosts>]]
#排除列表
[-exclude [-f <hosts-file> | <comma-separated list of hosts>]]
#最大移动数据大小
dfs.balancer.max-size-to-move, default is 10737418240 (=10GB)
#####################################################

问题背景与现象
当HDFS集群各个DataNode存储的数据不均衡时，需要使用hdfs balance功能，调整相关参数可以提升balance性能。
操作步骤
修改如下参数：
dfs.datanode.balance.bandwidthPerSec =209715200
说明：
该参数限定每个DataNode用来平衡数据时，占用带宽的上限；
这个参数的调整要看组网情况，如果集群负载较高，可以改为20971520(200MB)，如果集群空闲，可以改为1073741824 (1G)。
dfs.datanode.max.transfer.threads = 8192
dfs.namenode.replication.max-streams=20
dfs.datanode.balance.max.concurrent.moves=30

3.find

find $dir-mtime +22 -name "*.dat" -exec rm -f {} \;

find $dir -type f -mtime +22 -exec ls -l {} \; | more

find $dir -type f -mtime +7 -print | xargs rm -rf

find ${dir3} -mtime +7 -name "hive.log.*" -exec rm -rf {} \;

4.hive

beeline -u " jdbc:hive2://xxx:10000" -n hive -p hive
set hive.execution.engine=tez;

nohup hive --service hiveserver2 &
nohup hive --service metastore &

hive -S -e "select * from xxx" --S静音模式不打印MR2的进度信息 e加载hql查询语句
hive -f test.hql --加载一个hql文件
source test.hql

for f in 'rpm -qa | grep xxx';do rpm -e --nodeps ${f} done;

磁盘空间满了，kill超时太长的job

cd hive/yarn/local1/usercache/hive/appcache
su yarn
yarn application -kill job名

5.修改sudo

vim /etc/sudoers.d/xxx

xxx ALL=(ALL) ALL
xxx ALL=(ALL) NOPASSWD: ALL

Defaults !env_reset

6.for

for i in `ps -aux | grep -i "xxx" | grep -i "2018" | awk '{print $2}'`; do kill -9 $i; done

hadoop记录-hadoop常用的更多相关文章

Hadoop记录-hadoop集群常见问题汇总
[问题1]HBase Shell:ERROR: org.apache.hadoop.hbase.IPc.ServerNotRunningYetException: Server is not runn ...
Hadoop记录-Hadoop shell常用命令
hadoop记录-Hadoop参数汇总
Hadoop参数汇总 linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 ...
Hadoop记录-Hadoop NameNode 高可用 (High Availability) 实现解析
Hadoop NameNode 高可用 (High Availability) 实现解析 NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDF ...
Hadoop记录-hadoop介绍
1.hadoop是什么? Hadoop 是Apache基金会下一个开源的大数据分布式计算平台,它以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了系统底层细节透明的分布式基础架构. ...
hadoop记录-hadoop集群日常运维命令
hadoop集群日常运维命令 #1.namenode hadoop namenode -format #格式化,慎用 su hdfs hadoop-daemon.sh start namenode h ...
Hadoop记录-Hadoop监控指标汇总
系统参数监控metrics load_one 每分钟的系统平均负载 load_fifteen 每15分钟的系统平均负载 load_five 每5 ...
Hadoop记录-Hadoop jmx
https://cwiki.apache.org/confluence/display/EAG/Hadoop+JMX+Monitoring+and+Alerting curl http://10.11 ...
Hadoop记录-hadoop和hbase监控有那些比较好的工具
New Relic hadoop jmx granfa falcon Ganglia,Nagios和Chukwa 自带监控软件 hadoop yarn 开启jmx监控打开{hadoop_home} ...

随机推荐

如何将Eclipse的javaWeb项目改为IDEA的maven项目
1.首先去IDEA开发工具创建一个maven项目,把该项目改为Web项目, a.在pom.xml中,添加packaging标签,值为war b.右键File,选中project structure, ...
python使用rabbitMQ介绍四（路由模式）
一.模式介绍路由模式,与发布-订阅模式一样,消息发送到exchange中,消费者把队列绑定到exchange上. 这种模式在exchange上添加添加了一个路由键(routing-key),生产者发 ...
关于MySQL集群的一些看法
作者:Gary Chen链接:https://zhuanlan.zhihu.com/p/20204156来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 市面上的招聘往往 ...
UNIX DOMAIN SOCKET效率
关于UNIX DOMAIN SOCKET和普通udp socket的对比在TX1(4核A57 1.7GHz)的板卡上进行测试,每个包大小设置为1024,全速收发,UDS的速度在90Mbps左右,UD ...
我的Windows日常——Win7完美兼容tsmmc.msc的方法
操作步骤 32位操作系统: 1.将2003系统C:\WINDOWS\system32目录下的mstsmhst.dll.mstsmmc.dll.tsmmc.msc拷贝到Windows7系统中的C:\WI ...
centos7安装docker并设置开机自启以及常用命令
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化.容器是完全使用沙箱机制,相互之间不会有任何 ...
配置安全的管理访问（GNS3）
实验拓扑: 实验目的: 尝试用R2/R3远程登陆R1路由器并进行管理,在此之前先在R1配置安全的管理访问 1.端口IP配置 R1: e1/0 192.168.1.1/24 e1/1 192.168.2 ...
eclipse java formater 配置详解
comment.insert_new_line_before_root_tags(insert/do_not_insert):在Javadoc根标记块前插入空行,默认为insert: insert_s ...
基本MVVM 和 ICommand用法举例（转）
引言在本贴中,我们将学习WPF Commands. Commands 可以很好地与 MVVM 模式 (Model- View-ViewModel)结合在一起.我们也将看到,视图(view)实际上是怎 ...
教你如何在Drcom下使用路由器上校园网(以广东工业大学、极路由1S HC5661A为例)
免责声明: 在根据本教程进行实际操作时,如因您操作失误导致出现的一切意外,包括但不限于路由器变砖.故障.数据丢失等情况,概不负责: 该技术仅供学习交流,请勿将此技术应用于任何商业行为,所产生的法律责任 ...

hadoop记录-hadoop常用

hadoop记录-hadoop常用的更多相关文章

随机推荐

热门专题