Hadoop记录-变更

1.安装salt-minion sed -i 's/^#//g' /etc/yum.repos.d/centos7.4.repo sed -i 's/enabled=0/enabled=1/g' /etc/yum.repos.d/centos7.4.repo rm -rf /etc/salt/pki/minion/minion_master.pub systemctl stop firewalld.service systemctl disable firewalld mshn=cnsz17pl…

Hadoop记录-MRv2（Yarn）运行机制

1.MRv2结构—Yarn模式运行机制 Client---客户端提交任务 ResourceManager---资源管理 ---Scheduler调度器-资源分配Containers ----在Yarn中有三种调度器可以选择:FIFO Scheduler先进先出调度器 ,Capacity Scheduler容量调度器,FairS cheduler公平调度器. FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,…

hadoop记录-Hadoop参数汇总

Hadoop参数汇总 linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 Linux的内核的IO调度器 JVM参数 Hadoop参数大全要配置文件: core hdfs yarn mapred 重要性表示如下: 重要一般不重要 core-default.xml hadoop.common.configuration.version 配置文件的版本. hadoop.t…

hadoop记录-hive常见设置

分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create table test.test28_partition(id string, name string)PARTITIONED BY (inc_day string)STORED AS PARQUETlocation 'hdfs://xxx/user/hive/warehouse/test/test27_pa…

Hadoop记录-日常运维操作

1.Active NameNode hang死,未自动切换 #登录当前hang死 Active namenode主机,停止Namenode,触发自动切换.hadoop-daemon.sh stop namenode#如果自动切换未触发,转手动切换[可选]hdfs haadmin -ns bdpfinance - transitionToActive --forceactive nn2 --forcemanual*假设原active节点为nn1 2.误删 1)确认删表语句或命令拿到用户的删表语句如…

Hadoop记录-hdfs转载

Hadoop 存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多.例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB. Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行…

Hadoop记录-hadoop2.x常用端口及定义方法

Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问.而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询. 这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper: 组件节点默认端口配置用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode…

Hadoop记录-Hadoop NameNode 高可用 (High Availability) 实现解析

Hadoop NameNode 高可用 (High Availability) 实现解析 NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重.因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包括 M…

Hadoop记录-hadoop介绍

1.hadoop是什么? Hadoop 是Apache基金会下一个开源的大数据分布式计算平台,它以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了系统底层细节透明的分布式基础架构. 2.hadoop主要组成部分 1)hdfs分布式存储文件系统---海量数据存储,大文件被分成默认64M一块的数据块分布存储在集群机器中 2)Yarn资源管理与作业调度 3)MapReduce算法---数据计算(并行计算框架) 3.hadoop特点可靠.高效.可伸缩.容错.不适合低延迟数据访问.可处…

hadoop记录topk

lk@lk-virtual-machine:~$ cd hadoop-1.0.1 lk@lk-virtual-machine:~/hadoop-1.0.1$ ./bin dfs -mkdir input bash: ./bin: 是一个文件夹 lk@lk-virtual-machine:~/hadoop-1.0.1$ ./bin/hadoop dfs -mkdir input 14/05/11 21:12:07 INFO ipc.Client: Retrying connect to serv…

hadoop记录-如何换namenode机器

namenode机器磁盘IO负载持续承压,造成NAMENODE切换多次及访问异常. 1 初始化新机器1.1 在新器1.1.1.3部署hadoop软件(直接复制standby1.1.1.2节点)1.2 初始化/log,/data/等目录1.3 试启动namenode,zkfc,以便确认目录权限OK注:以上已提前完成 2.更换standby 1.1.1.12.1 停namenode 1.1.1.12.2复制/data/dfs/local数据到1.1.1.3:/data/dfs/local 2.3 切…

hadoop记录-hadoop集群日常运维命令

hadoop集群日常运维命令 #1.namenode hadoop namenode -format #格式化,慎用 su hdfs hadoop-daemon.sh start namenode hadoop-daemon.sh stop namenode #2.journalnode hadoop-daemon.sh start journalnode hadoop-daemon.sh stop journalnode #3.zkfc hdfs zkfc -formatZK #格式化,慎用…

hadoop记录-浅析Hadoop中的DistCp和FastCopy（转载）

DistCp(Distributed Copy)是用于大规模集群内部或者集群之间的高性能拷贝工具. 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成. 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝. DistCp是Apache Hadoop自带的工具,目前存在两个版本,DistCp1和DistCp2,FastCopy是Facebook Hadoop中自带的,相比于Distcp,它能明显加快同节点数据拷贝速度,尤其是Hadoop 2.0稳定版(…

Hadoop记录-queue使用率

#!/bin/sh ip=xxx port=8088 export HADOOP_HOME=/app/hadoop/bin rmstate1=$($HADOOP_HOME/yarn rmadmin -getServiceState rm1) rmstate2=$($HADOOP_HOME/yarn rmadmin -getServiceState rm2) if [[ $rmstate1 == *active* ]] then ip=xxx fi cd /home/yarn/queuecheck…

Hadoop记录-切换NN

一.第一种方法重启namenode(1.1.1.1 1.1.1.2)重启standby节点:1.1hadoop-daemon.sh stop zkfchadoop-daemon.sh stop namenodehadoop-daemon.sh start namenodehadoop dfsadmin -safemode get #查看安全模式是否退出hadoop-daemon.sh start zkfctail -300f /log/hadoop/hadoop-hdfs-zkfc-xxx.l…

Hadoop记录-退役

一.datanode添加新节点 1.在dfs.include文件中包含新节点名称,该文件在名称节点的本地目录下 [白名单] [/app/hadoop/etc/hadoop/dfs.include] 2.在hdfs-site.xml文件中添加属性 <property> <name>dfs.hosts</name> <value>/app/hadoop/etc/dfs.include.txt</value> </property…

Hadoop记录-JMX参数

Yarn metrics参数说明获取Yarn jmx信息:curl -i http://xxx:8088/jmx Hadoop:service=ResourceManager,name=FSOpDurationsHadoop:service=ResourceManager,name=JvmMetricsHadoop:service=ResourceManager,name=ClusterMetricsHadoop:service=ResourceManager,name=RpcActivity…

Hadoop记录- Yarn scheduler队列采集

#!/bin/sh ip=10.116.100.11 port=8088 export HADOOP_HOME=/app/hadoop/bin rmstate1=$($HADOOP_HOME/yarn rmadmin -getServiceState rm1) rmstate2=$($HADOOP_HOME/yarn rmadmin -getServiceState rm2) if [ $rmstate1 == *active* ] then ip=10.116.100.10 fi echo $…

Hadoop记录- Yarn Job MAX

#!/bin/sh #yarn job status:NEW.NEW_SAVING.SUBMITTED.ACCEPTED.RUNNING.FINISHED.FAILED.KILLED nnum=$(/app/hadoop/bin/yarn application -list -appStates NEW | wc -l) nsnum=$(/app/hadoop/bin/yarn application -list -appStates NEW_SAVING | wc -l) snum=$(/ap…

Hadoop记录-metastore jmx配置

参考:http://www.lixiuliang.cn/categories/%E5%A4%A7%E6%95%B0%E6%8D%AE/ 1.修改bin/hive文件添加jvm启动参数: if [ ${SERVICE} == 'metastore' ]then HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=9093 -Dcom.s…

Hadoop记录-hive merge小文件

1. Map输入合并小文件对应参数:set mapred.max.split.size=256000000; #每个Map最大输入大小set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小 set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小set hive.input.format=org.apache.hadoop.hive.ql.io.Com…

Hadoop记录-Hadoop监控指标汇总

系统参数监控metrics load_one 每分钟的系统平均负载 load_fifteen 每15分钟的系统平均负载 load_five 每5分钟的系统平均负载 boottime 系统启动时间,精确到秒 bytes_in 网络接收速度,单位bytes/sec bytes_out 网络发送速度,单位bytes/sec cpu_aidle 启动的空闲CPU百…

Hadoop记录-技术网站

Grafan监控:http://docs.grafana.org/ Tez:http://tez.apache.org/install.html 阿里巴巴镜像:https://opsx.alibaba.com/mirror Hadoop官方文档:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 清华大学镜像:https://mirrors.tuna.tsinghua.…

Hadoop记录-Hadoop jmx

https://cwiki.apache.org/confluence/display/EAG/Hadoop+JMX+Monitoring+and+Alerting curl http://10.116.100.2:50070/jmx?qry=Hadoop:service=NameNode,name=RpcActivityForPort8020 认识JMX类JMXJsonServlet继承父类 javax.servlet.http.HttpServlet只提供web页面来访问JMX 例如:启动了…

Hadoop记录-Linux Service

[Unit] Description=Datanode After=syslog.target network.target auditd.service sshd.service datanode_precheck.service Requires=datanode_precheck.service [Service] User=hdfs Group=hdfs Type=forking Slice=hadoop.slice LimitNOFILE=524288 Environment=CLAS…

Hadoop记录-Yarn命令

概述 YARN命令是调用bin/yarn脚本文件,如果运行yarn脚本没有带任何参数,则会打印yarn所有命令的描述. 使用: yarn [--config confdir] COMMAND [--loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS] YARN有一个参数解析框架,采用解析泛型参数以及运行类. 命令参数描述 --config confdir 指定一个默认的配置文件目录,默认值是: ${HADOOP_PREFIX}/conf.…

Hadoop记录-hadoop和hbase监控有那些比较好的工具

New Relic hadoop jmx granfa falcon Ganglia,Nagios和Chukwa 自带监控软件 hadoop yarn 开启jmx监控打开{hadoop_home}/etc/hadoop/yarn-env.sh文件,文件最后添加三行. YARN_OPTS=”$YARN_OPTS -Dcom.sun.management.jmxremote.authenticate=false” YARN_OPTS=”$YARN_OPTS -Dcom.sun.managemen…

Hadoop记录-Federation联邦机制

在Hadoop2.0之前,HDFS的单NameNode设计带来诸多问题: 单点故障.内存受限,制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等为了解决这些问题,除了用基于共享存储的HA解决方案我们还可以用HDFS的Federation机制来解决这个问题. [单机namenode的瓶颈大约是在4000台集群,而后则需要使用联邦机制] 什么是Federation机制 Federation是指HDFS集群可使用多个独立的NameSpace(NameNode节点管…

Hadoop记录-hadoop集群常见问题汇总

[问题1]HBase Shell:ERROR: org.apache.hadoop.hbase.IPc.ServerNotRunningYetException: Server is not running yet原因:hadoop处于safe modehadoop dfsadmin -safemode get 查看hadoop当前启动状态是否为safe modehadoop dfsadmin -safemode leave 退出 [问题2]Rowkey设计问题现象打开HBase的Web端,发…

Hadoop记录-Hadoop集群添加节点和删除节点

1.添加节点 A:新节点中添加账户,设置无密码登陆 B:Name节点中设置到新节点的无密码登陆 C:在Name节点slaves文件中添加新节点 D:在所有节点/etc/hosts文件中增加新节点(所有节点保持一致) E:在新节点中执行 ./bin/hadoop-daemon.sh start datanode ./bin/hadoop-daemon.sh start tasktracker 均衡个数据节点中的数据./bin/start-balancer.sh 注意 1)如果不balance,那么…

【Hadoop记录-变更】的更多相关文章