hadoop参数配置,主要是配置 core-site.xml,hdfs-site.xml,mapred-site.xml 三个配置文件,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置,core-default.xml,hdfs-default.xml,mapred-default.xml 是集群的默认配置,HDP2.4 安装包中 hadoop 版本为2.7,分别可从下面的地址获取到默认的参数说明:

目录:

  • core-site常用参数
  • hsdf-site常用参数

core-site常用参数:


  • ha.zookeeper.quorum:                           ZooKeeper集群的地址和端口。注意,数量一定是奇数,且不少于三个节点,如(hdp3:2181,hdp2:2181,r:2181)
  • fs.trash.interval:                                    这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间,单位是分钟,默认:360
  • io.file.buffer.size:                                   SequenceFiles在读写中可以使用的缓存大小,默认设置:131072
  • net.topology.script.file.name:                 机架感知脚本位置
  • ipc.client.connect.max.retrie:         建立与服务器连接的重试次数,默认为50

hsdf-site常用参数:  文档中的默认值是指基于 hdp2.4安装后的默认值


  • dfs.blocksize:                                  每个文件块的大小,我们用128M
  • dfs.replication:                                hdfs数据块的复制份数,默认3
  • dfs.heartbeat.interval:                    DN的心跳检测时间间隔,默认3秒
  • dfs.permissions.enabled:                 dfs权限是否打开, 建议设为false,否则可能存在数据因为权限问题访问不了的情况
  • dfs.permissions.superusergroup:       设置hdfs超级权限的组,默认是hdfs
  • dfs.cluster.administrators:               hdfs超级管理员,默认:hdfs
  • dfs.datanode.data.dir:                          NN保存元数据和事务日志的本地目录,可用逗号分隔的目录列表用于指定多份数据的冗余备份.
  • dfs.datanode.data.dir.perm:                   dn所使用的本地文件夹的路径权限,默认755
  • dfs.datanode.du.reserved:                      表示在datanode对磁盘写时候,保留多少非dfs的磁盘空间,从而避免dfs将所在的磁盘写满,默认为0
  • dfs.datanode.failed.volumes.tolerated:   dn允许磁盘损坏的个数,默认为0, (dn启动时候会使用dfs.data.dir下配置的文件夹,若是有一些不可以用且个数>上面配置的那个 值,启动失败)
  • dfs.datanode.balance.bandwidthPerSec: balancer时,hdfs移动数据的速度,默认值为1M/S的速度。一般情况下设置为10M
  • dfs.datanode.max.transfer.threads:         数据传输最大线程,默认:16384
  • dfs.datanode.address:                          DN的服务监听端口,端口为0的话会随机监听端口,通过心跳通知NN,默认:50010
  • dfs.datanode.http.address:                   dn WebUI, 默认:50075
  • dfs.datanode.https.address:                 DN的HTTPS服务器和端口, 默认:50475
  • dfs.datanode.ipc.address:                    DN的IPC监听端口,写0的话监听在随机端口通过心跳传输给NN,默认:8010
  • dfs.namenode.checkpoint.dir:                 standy NN节点存储 checkpoint 文件目录,默认:/hadoop/hdfs/namesecondary
  • dfs.namenode.stale.datanode.interval:      标记一个dn为“down机”时间间隔,即:如果 nn没有接到一个dn心跳超过这个时间间隔,dn将标记为“过期”,过期的间隔不能太小 (默认: 3000)
  • dfs.journalnode.http-address:           JournalNode web UI监听。 如果端口是0,那么服务器将启动将自定义端口, 默认:8480
  • dfs.support.append:                         是否允许文件追加, (hbase 的 wal 就是追加方式吧)
  • dfs.blockreport.intervalMsec:           控制DN定期将当前该结点上所有的BLOCK信息报告给NN的时间间隔,默认21600000ms = 1小时
  • dfs.blockreport.initialDelay:             初始值为0
  • 说明:dn启动后第一次报告自己的block信息的时间是在(0,$(dfs.blockreport.initialDelay ))之间的一个随机数 initTime,然后从initTime(不同datanode上的这个随即肯定是不一样的)开始每隔dfs.blockreport.intervalMsec 时间,该datanode会向namenode报告自己的所有block的信息,如果没有initTime,多有datanode都从启动的那一刻开始发,这样会造成大量数据发往nn,造成堵塞
  • dfs.replication.min                                   最小复制份数,默认为1
  • dfs.replication.max                                  最大复制份数,默认为512
  • dfs.namenode.safemode.threshold-pct      指定应有多少比例的数据块满足最小副本数要求,默认0.999f
  •   说明: (NN在启动的时候首先进入安全模式,如果DN丢失的block达到此参数设置的比例,则系统会一直处于安全模式状态即只读状态。如果设为1则HDFS永远是处于SafeMode)

hadoop(四):配置参数的更多相关文章

  1. Hadoop YARN配置参数剖析—RM与NM相关参数

    注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患.另外,这些参数均需要在yarn-site.xml中配置. 1.    ResourceManager相关配置参数 (1) ...

  2. hadoop YARN配置参数剖析—MapReduce相关参数

    MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中 ...

  3. Hadoop YARN配置参数剖析(3)—MapReduce相关参数

    MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中 ...

  4. Hadoop yarn配置参数

    参照site:http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml 我们在配置yar ...

  5. Hadoop集群参数和常用端口

    一.Hadoop集群参数配置 在hadoop集群中,需要配置的文件主要包括四个,分别是core-site.xml.hdfs-site.xml.mapred-site.xml和yarn-site.xml ...

  6. hadoop之 YARN配置参数剖析—RM与NM相关参数

    参数均需要在yarn-site.xml中配置: 1. ResourceManager相关配置参数 (1) yarn.resourcemanager.address 参数解释:ResourceManag ...

  7. hibernate篇章四-- Hibernate配置文件中hiberante.hbm2ddl.auto四个参数的配置

    我们在搭建环境的时候,在配置文件中有一个属性标签为: <property name="hibernate.hbm2ddl.auto">     </propert ...

  8. Hibernate配置文件中hiberante.hbm2ddl.auto四个参数的配置

    我们在搭建环境的时候,在配置文件中有一个属性标签为: <property name="hibernate.hbm2ddl.auto">     </propert ...

  9. JVM知识(四):GC配置参数

    JVM配置参数分为三类参数:跟踪参数.堆分配参数.栈分配参数 这三类参数分别用于跟踪监控JVM状态,分配堆内存以及分配栈内存. 跟踪参数 跟踪参数用户跟踪监控JVM,往往被开发人员用于JVM调优以及故 ...

随机推荐

  1. 20135214万子惠 (2)——-Java面向对象程序设计

    实验内容 1. 初步掌握单元测试和TDD 2. 理解并掌握面向对象三要素:封装.继承.多态 3. 初步掌握UML建模 4. 熟悉S.O.L.I.D原则 5. 了解设计模式 (一)单元测试 (1) 三种 ...

  2. JavaScript数据结构——链表

    链表:存储有序的元素集合,但不同于数组,链表中的元素在内存中不是连续放置的.每个元素由一个存储元素本身的节点和一个指向下一个元素的引用(也称指针或链接)组成. 好处:可以添加或移除任意项,它会按需扩容 ...

  3. Sonar + Jacoco,强悍的UT, IT 双覆盖率统计(转)

    以前做统计代码测试覆盖,一般用Cobertura.以前统计测试覆盖率,一般只算Unit Test,或者闭上眼睛把Unit Test和Integration Test一起算. 但是,我们已经过了迷信UT ...

  4. css中解决img在a元素中使得a元素撑大写法

    给外面a标签padding-left:; img自身float:left;margin-left:; 这种写法避免了不少因浮动产生的问题,且代码简明,推荐适当的使用此方法.

  5. NetCDF 格式化数据概述

    前言 马上要开始新的项目了.气象局方面要求处理的数据是 NetCDF 格式的,这是一种封装好了的数据结构,需要连接一些库,调用特定的 API 进行操作. 可这方面我知之甚少,遂利用周日上午的时间学习这 ...

  6. Oracle执行语句跟踪(2)——使用10046事件实现语句追踪

    接上篇博文Oracle执行语句跟踪(1)--使用sql trace实现语句追踪,一旦我们通过会话追踪获取到超时事物的执行语句,就可以使用10046事件对语句进行追踪. 启用10046事件追踪的方式 S ...

  7. UI学习笔记---第十一天UITableView表视图高级-自定义cell

    自定义cell,多类型cell混合使用,cell自适应高度 自定义cell就是创建一个UITableViewCell的子类 把cell上的空间创建都封装在子类中,简化viewController中的代 ...

  8. Linux一些常用软件的源码安装

    Sreen: wget ftp://ftp.gnu.org/pub/gnu/screen/screen-4.0.3.tar.gz .tar.gz cd screen- ./configure make ...

  9. 快速掌握grep命令及正则表达式

    Linux系统自带了支持拓展正则表达式的 GNU 版本 grep 工具,所有的Linux发行版中均默认安装grep ,grep 命令被用来检索一台服务器或工作站上任何位置的文本信息,如何在 Linux ...

  10. 触摸精灵lua脚本实现微信群加好友功能

    --此脚本针对iPhone5/5s --目前只实现一个屏幕微信群好友的添加,如果想添加更多好友, --需要划屏操作,执行划屏操作时建议循环滑动 function main() --获取屏幕的分辨率 w ...