前言 kafka集群扩容后,新的broker上面不会数据进入这些节点,也就是说,这些节点是空闲的:它只有在创建新的topic时才会参与工作.除非将已有的partition迁移到新的服务器上面:所以需要将一些topic的分区迁移到新的broker上.另外一种情况就是集群减少broker节点,对原有的topic信息进行迁移,重新分配broker节点. 简单案例 本次案例将原本存在于两个borker节点(86,87)上的topic:test01(两副本),转移到87,88两个broker上(重新分配)…
假如Kafka集群中一个broker宕机无法恢复, 应该如何处理? 今天面试时遇到这个问题, 网上资料说添加新的broker, 是不会自动同步旧数据的. 笨办法 环境介绍 三个broker的集群, zk,kafka装在一起 | broker | IP | broker.id | |---------|---------------|-----------| | broker1 | 172.18.12.211 | 211 | | broker2 | 172.18.12.212 | 212 | |…
问题描述:kafka单台机器做集群操作是没有问题的,如果分布多台机器并且partitions或者备份的个数大于1都会报kafka.common.KafkaException: Should not set log end offset on partition 这个错误,如果使用kafka默认的日志等级,过不了几分钟错误日志就会把磁盘刷满,导致服务器down掉. 这个问题困扰了我几天,怎么搞都不行,开始以为是版本问题,升级到最新版本问题还是存在,后来在官方FQA中找到了一段描述,原文如下: Wh…
一 kafka集群扩容比较简单,机器配置一样的前提下只需要把配置文件里的brokerid改一个新的启动起来就可以.比较需要注意的是如果公司内网dns更改的不是很及时的话,需要给原有的旧机器加上新服务器的host,不然可能会产生controller服务器从zk上拿到域名但是解析不到新机器地址的情况. 二 集群扩容后数据是不会自动均衡到新机器上的,需要采用kafka-reassign-partitions.sh这个工具脚本.脚本可以工作在三种模式--generate,--execute,--veri…
jmx端口主要用来监控kafka集群的. 在启动kafka的脚本kafka-server-start.sh中找到堆设置,添加export JMX_PORT="9999" if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G" export JMX_PORT=" fi 或者在启动脚本中添加如下: #!/bin/sh JM…
# 监控kafka集群 # 有一个问题,需要在kafka-server-start.sh文件中配置端口,有如下三种办法 # 第一种:复制并修改kafka目录,比如kafka-1,kafka-2,kafka-3,然后再每个目录下修改kafka-server-start.sh文件 # 第二种:在启动脚本start.sh中添加指定端口 # 第三种:多复制几个kafka-server-start.sh文件,然后进行修改,最后在start.sh中修改一下 # 以下三种方法任选其一即可 # 第一种方式办法,…
一个简单的例子! 环境:CentOS6.5 Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目 --有一个用户数据样本(表名huserinfo)10万数据左右:--其中有一个字段:身份证号(id_card)--身份证号前两位代表:省,例如:11北京,12天津,13河北:--身份证前x位对照表(表名hidcard_province)--要求1:计算出每个省份出现的次数,并按从大到小排序取前30个:--要求2:使用R画出柱状图. 2.编写Hive提取数据脚本:…
我们要从MySQL当中导出数据到Greenplum当中,按照以下步骤就可以 1:将MySQL当中的表导出外部文件 以schema_name.table_name为例 select product_id, number, name, english_name, purchase_name, system_name, bar_code, category_one, category_two, category_three, parent_id, parent_number, brand_id, su…
3个虚拟机,首先关闭防火墙,在进行下面操作 一.java环境 yum list java* yum -y install java-1.8.0-openjdk* 查看Java版本 Java -version   二.zookeeper下载   官网下载 wget https://archive.apache.org/dist/zookeeper/zookeeper-3.5.2-alpha/zookeeper-3.5.2-alpha.tar.gz   下载到主目录下 mkdir Test 在下面新…
最近几天在做spark数据同步过程中,中间通过kafka集群处理消息,每次同步到一半就会出现同步不了 查看日志如下: 最开始看到这个问题很懵逼,完全找不到解决问题的切入口,期间也询问了架构师-因为这个kafka和spark都是他引进来的,同时也问了运维同事,有没有碰到这个问题,最后都是无法解决这个问题 查看对应存在问题的kafka节点的日志: 一次突发奇想,是不是可以看一下kafka集群的日志,发现此时kafka集群也报错了,其实有时候看到错误还是很开心的,毕竟有错误才知道哪里存在问题 但是看到…