hadoop(hbase)副本数修改】的更多相关文章

目前我们使用的elastic版本为2.3.5 当前版本没有直接的curl操作可以更改索引的名称,索引的副本数. 有直接更改索引副本数的api. curl -XPUT "192.168.1.1:9200/test001/_settings" -d '{ "index" : { "number_of_replicas" : 2 } }' 但是,我们可以通过elastic的快照功能来实现以上两种操作. 1.索引重命名 1.0 准备工作:停止对目标索引做…
一.需求场景 随着业务数据的快速增长,物理磁盘剩余空间告警,需要将数据备份从3份修改为1份,从而快速腾出可用磁盘容量. 二.解决方案 1. 修改hdfs的副本数 Hbase 的数据是存储在 hdfs 上的,Hbase的副本数是默认读取hdfs的配置进行副本备份的,所以需要修改hdfs上的副本数据. 2.删除重复数据 修改hdfs-site.xml的副本数,只能对以后的数据有效,不能修改已经存储的文件备份数,所以需要删除多余的数据. 3.负载均衡 可以增加新的存储节点,并且执行负载均衡策略.将数据…
package com.slp.hdfs; import org.apache.commons.io.output.ByteArrayOutputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.F…
工作案例: 大数据开发用系统脚本自动在kafka建topic,检查后才发现副本数只有1个,存在数据丢失的风险.需要立刻把副本数改为3个. 开始干活,首先想到的是下面的命令: ${BIN_PATH}/kafka-topics.sh --zookeeper ${ZOOKEEPER_ADDR} --topic $1 --partitions $2 --alter${BIN_PATH}/kafka-topics.sh --zookeeper ${ZOOKEEPER_ADDR} --topic $1 --…
描述:将HDFS副本数修改为2第一步:将HDFS上已有文件副本数修改为2 hdfs dfs -setrep 2 -R -w / 第二步:修改dfs.replication值为2(页面上操作),然后重启HDFShdfs-site.xml文件: <property> <name>dfs.replication</name> <value>2</value> </property> 第三步:修改副本数之后进行核对 hdfs fsck / -…
hadoop修改MR的提交的代码程序的副本数 Under-Replicated Blocks的数量很多,有7万多个.hadoop fsck -blocks 检查发现有很多replica missing.而且这些丢失的replica对应的文件都是mr的程序文件. 原因:MR,hive 的程序代码上传到hdfs上,默认的副本数是10份,但集群只有4台,造成大量的 Under-Replicated Blocks 和 missing replicas. 1. 修改MR的提交的代码程序的副本数. vi m…
一个文件,上传到hdfs上时指定的是几个副本就是几个.修改了副本数(dfs.replications),对已经上传了的文件也不会起作用.当然可以在上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=2 -put abc.txt /tmp可以通过命令来更改已经上传的文件的副本数:hadoop fs -setrep -R 2 / 查看当前hdfs的副本数hadoop fsck -locations某个文件的副本数,可以通过ls中的文件描述符看到hadoop df…
kafka关于修改副本数和分区的数的案例实战(也可用作leader节点均衡案例) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.关于topic分区数的修改 1>.创建1分区1个的topic,名称为yinzhengjie-channel [root@node101 ~]# kafka-topics. --create --replication-factor -partitions --topic yinzhengjie-channel Created topic "…
1.说明 当不修改PID文件位置时,系统默认会把PID文件生成到/tmp目录下,但是/tmp目录在一段时间后会被删除,所以以后当我们停止HADOOP/HBASE/SPARK时,会发现无法停止相应的进程 会警告说:no datanode to stop.no namenode to stop 等,因为PID文件已经被删除,此时只能用kill命令先干掉,所以现在我们需要修改HADOOP/HBASE/SPARK的PID文件位置: 修改配置前,应先停止相关集群服务: 可以先修改一台的配置,然后分发到其他…
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索. 搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩.高可用.对大量信息的索引与搜索都可以在近 乎实时的情况下完成,能够快速实时搜索数十亿的文件以及PB级的数据,同时提供了全方面的选项,可以对…