Kafka学习之二 Kafka安装和使用

部署环境Linux(Centos 6.5),JDK 1.8.0,zookeeper-3.4.12,kafka_2.11-2.0.0. 1. 单机环境官方建议使用JDK 1.8版本,因此本文使用的环境都是JDK1.8.如果小于1.8版本,请看我的博客:https://www.cnblogs.com/xuejiale/p/10504845.html 将环境的JDK更新到1.8版本.(PS:我开始使用机器默认安装的JDK 1.7,在启动kafka时会报错). 由于Kafka依赖zookeep…

kafka学习2：kafka集群安装与配置

在前一篇:kafka学习1:kafka安装中,我们安装了单机版的Kafka,而在实际应用中,不可能是单机版的应用,必定是以集群的方式出现.本篇介绍Kafka集群的安装过程: 一.准备工作 1.开通Zookeeper和Kafka需要的端口在 zookeeper-端口说明中,我们可以看到Zookeeper需要用到3个端口,我们都需要开放这个端口.Linux开放端口,可以参考:Linux 开启端口命令这篇文章. 否则在启动的时候,会出现如下错误(连接超时错误): 2.修改主机名称在搭建Kaf…

kafka学习1：kafka安装

一.环境准备 1.jdk 如果不会安装linux下的jdk,参考这篇文章:http://www.cnblogs.com/gudi/p/7812033.html 2.kafka wget –c http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz 二.安装kafka 解压kafka:tar –zxvf kafka_2.11-1.0.0.tgz /usr/app/kafka 配置环境变量: …

kafka学习（二）-------- 什么是Kafka

通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? Kafka的基本原理,术语,版本等等都是怎么样的?到底什么是Kafka呢? 一.Kafka简介 http://kafka.apache.org/intro 2011年,LinkIn开源, November 1, 2017 1.0版本发布 July 30, 2018 2.0版本发布参考官网的图: Ka…

Kafka学习（二）

作者:程序员cxuan链接:https://www.zhihu.com/question/53331259/answer/1262483551来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 初识 Kafka 什么是 Kafka Kafka 是由 Linkedin 公司开发的,它是一个分布式的,支持多分区.多副本,基于 Zookeeper 的分布式消息流平台,它同时也是一款开源的基于发布订阅模式的消息引擎系统. Kafka 的基本术语消息:Kafka 中的数据单元…

kafka 学习（二--前言）

kafka 现在在企业应用和互联网项目中的应用越来越多了,本篇文章就从 kafka 的基础开始带你一展 kafka 的宏图 1. 什么是 Kafka Kafka 是一个分布式流式平台,它有三个关键能力订阅发布记录流,它类似于企业中的消息队列或企业消息传递系统以容错的方式存储记录流实时记录流 Kafka 的应用作为消息系统作为存储系统作为流处理器 Kafka 可以建立流数据管道,可靠性的在系统或应用之间获取数据. 建立流式应用传输和响应数据. Kafka 作为消息系统 Kafka…

Kafka学习笔记之Kafka背景及架构介绍

0x00 概述本文介绍了Kafka的创建背景,设计目标,使用消息系统的优势以及目前流行的消息系统对比.并介绍了Kafka的架构,Producer消息路由,Consumer Group以及由其实现的不同消息分发方式,Topic & Partition,最后介绍了Kafka Consumer为何使用pull模式以及Kafka提供的三种delivery guarantee. Kafka是由LinkedIn开发并开源的分布式消息系统,因其分布式及高吞吐率而被广泛使用,现已与Cloudera Hadoo…

【kafka学习之五】kafka运维：kafka操作日志设置和主题删除

一.操作日志首先附上kafka 操作日志配置文件:log4j.properties 根据相应的需要设置日志. #日志级别覆盖规则优先级:ALL < DEBUG < INFO <WARN < ERROR < FATAL < OFF #1.子日志log4j.logger会覆盖主日志log4j.rootLogger,这里设置的是日志输出级别,Threshold设置appender的日志接收级别: #2.log4j.logger级别低于Threshold,appender接…

【kafka学习之三】kafka集群运维

kafka集群维护一.kafka集群启停#启动kafka/home/cluster/kafka211/bin/kafka-server-start.sh -daemon /home/cluster/kafka211/config/server.properties #关闭kafka/home/cluster/kafka211/bin/kafka-server-stop.sh 二.kafka集群基本信息实时查看和修改#列出所有有效主题/home/cluster/kafka211/bin/kafka…

Kafka学习笔记之Kafka性能测试方法及Benchmark报告

0x00 概述本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能,以及如何使用Kafka Manager监控Kafka的工作状态,最后给出了Kafka的性能测试报告. 0x01 性能测试及集群监控工具 Kafka提供了非常多有用的工具,如Kafka设计解析(三)- Kafka High Availability (下)中提到的运维类工具——Partition Reassign Tool,Preferred Replica Leader Elect…

Kafka学习笔记之Kafka三款监控工具

0x00 概述在之前的博客中,介绍了Kafka Web Console这个监控工具,在生产环境中使用,运行一段时间后,发现该工具会和Kafka生产者.消费者.ZooKeeper建立大量连接,从而导致网络阻塞.并且这个 Bug也在其他使用者中出现过,看来使用开源工具要慎重!该Bug暂未得到修复,不得已,只能研究下其他同类的Kafka监控软件. 通过研究,发现主流的三种kafka监控程序分别为: Kafka Web Conslole Kafka Manager KafkaOffsetMonito…

kafka学习总结之kafka简介

kafka是一个分布式,基于subscribe-publish的消息系统特性:高吞吐量.低延迟.可扩展性.持久性(消息持久化到本地磁盘).可靠性.容错性(n个副本,允许n-1个节点失败).高并发(支持数千个客户端同时读写) 设计思想: (1) Consumer group:多个consumer可以组成一个group(group-id区分),每个消息只能被组中的一个consumer消费,同时消费一个消息的consumer一定不在同一组: (2) 消息状态:kafka中,消…

【kafka学习之四】kafka集群性能测试

kafka集群的性能受限于JVM参数.服务器的硬件配置以及kafka的配置,因此需要对所要部署kafka的机器进行性能测试,根据测试结果,找出符合业务需求的最佳配置. 1.kafka broker jVM参数kafka broker jVM 是由脚本kafka-server-start.sh中参数KAFKA_HEAP_OPTS来控制的,如果不设置,默认是1G可以在首行添加KAFKA_HEAP_OPTS配置,注意如果要使用G1垃圾回收器,堆内存最小4G,jdk至少jdk7u51以上举例:expor…

Kafka学习笔记之Kafka Consumer设计解析

0x00 摘要本文主要介绍了Kafka High Level Consumer,Consumer Group,Consumer Rebalance,Low Level Consumer实现的语义,以及适用场景.以及未来版本中对High Level Consumer的重新设计–使用Consumer Coordinator解决Split Brain和Herd等问题. 0x01 High Level Consumer 很多时候,客户程序只是希望从Kafka读取数据,不太关心消息offset的处理.同…

【kafka学习之二】Kafka集群搭建

安装环境 jdk1.7 zookeeper-3.4.5(参考 https://www.cnblogs.com/cac2020/p/9426531.html) VM虚拟机redhat6.5-x64:192.168.1.200 192.168.1.201 192.168.1.202 kafka_2.10-0.9.0.1.tgz Xshell4 部署方案zookeeper三个节点 kafka三个节点安装步骤:[三台机器同样操作以200为例] 步骤一:解压安装文件kafka_2.10-0.9.…

Kafka学习笔记1——Kafka的安装和启动

一.准备工作 1. 安装JDK 可以用命令 java -version 查看版本…

kafka学习（二）kafka工作流程分析

一.发送数据 follower的同步流程 PS:Producer在写入数据的时候永远的找leader,不会直接将数据写入follower PS:消息写入leader后,follower是主动的去leader进行同步的! PS:producer采用push模式将数据发布到broker,每条消息追加到分区中,顺序写入磁盘,所以保证同一分区内的数据是有序的! PS:往不存在的topic写数据,kafka会自动创建topic,分区和副本的数量根据默认配置都是1. 分区主要目的: 方便扩展:因为一个to…

【kafka学习之一】 kafka初识

环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4一.kafka是什么? (1)kafka是一个高吞吐的分部式消息系统.(2)消息列队常见应用场景:系统之间解耦合;峰值压力缓冲;异步通信; 二.kafka特点:1.生产者消费者模型,FIFO.partition内部是FIFO的,partition之间呢不是FIFO的,当然我们可以把topic设为一个partition,这样就是严格的FIFO 2.高性能:单节点支持上千个…

Kafka学习笔记之Kafka High Availability(上)

0x00 摘要 Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务.若该Broker永远不能再恢复,亦或磁盘故障,则其上数据将丢失.而Kafka的设计目标之一即是提供数据持久化,同时对于分布式系统来说,尤其当集群规模上升到一定程度后,一台或者多台机器宕机的可能性大大提高,对于Failover机制的需求非常高.因此,Kafka从0.8开始提供High Availability机制.本文…

Kafka学习笔记之Kafka自身操作日志的清理方法(非Topic数据)

0x00 概述本文主要讲Kafka自身操作日志的清理方法(非Topic数据),Topic数据自己有对应的删除策略,请看这里. Kafka长时间运行过程中,在kafka/logs目录下产生了大量的kafka-request.log.*和server.log.*文件,其中*代表日期和时间,比如kafka-request.log.2018-12-08-03和server.log.2018-12-06-03,这些文件对磁盘空间的消耗非常大,需要定期备份或者清理.目前没有发现kafka自身提供了这些操作…

kafka详解(二)--kafka为什么快

前言 Kafka 有多快呢?我们可以使用 OpenMessaging Benchmark Framework 测试框架方便地对 RocketMQ.Pulsar.Kafka.RabbitMQ 等消息系统进行对比测试,因为暂时没有测试条件(后续补上),我直接用这篇文章的测试结果(Benchmarking Kafka vs. Pulsar vs. RabbitMQ: Which is Fastest?),可以看到,在某种条件下,Kafka 写入速度比 RabbitMQ 快 15 倍,比 Pulsar…

J2EE SSH学习（二）安装Eclipse插件和第一个Eclipse项目

(一)安装Eclipse插件 Eclipse有很多功能很强大的插件,我现在作为一个菜鸟只知道插件的功能通常都很牛叉实用或者很有趣,那么该怎么安装Eclipse插件呢? 我使用的是Eclipse 4.3,不同版本的操作过程可能略有不同,但本质上是一致的. 方法一:在线安装 1.点击Help —— Install New Software: 2.点击Add: 3.输入Name和Location,其中Name为用户自己对插件的命名,Location为插件资源的安装网址. 4.点击OK后,等待pendi…

kafka学习总结之kafka核心

1. Kafka核心组件 (1)replication(副本).partition(分区) 一个topic可以有多个副本,副本的数量决定了有多少个broker存放写入的数据:副本是以partition为单位的,存放副本即是备份若干个partition,但是只有一个partition被选为Leader用于读写:partition(分区)数量设置最好大于consumer数量(保证每个消费者都有一个partition). (2)producer(生产者) kafka中的producer可以直接发送消…

Snmp学习总结(二)——WinXP安装和配置SNMP

一.安装SNMP 今天讲解一下在XP下安装SNMP协议,安装步骤如下:…

Kafka学习笔记之Kafka High Availability(下)

0x00 摘要本文在上篇文章基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种场景,如Broker failover,Controller failover,Topic创建/删除,Broker启动,Follower从Leader fetch数据等详细处理过程.同时介绍了Kafka提供的与Replication相关的工具,如重新分配Partition等. 0x01 Broker Failover过程 1.1 Controller对Broker Failure的处理过程 Contr…

Kafka学习笔记之Kafka日志删出策略

0x00 概述 kafka将topic分成不同的partitions,每个partition的日志分成不同的segments,最后以segment为单位将陈旧的日志从文件系统删除. 假设kafka的在server.properity文件中设置的日志目录为tmp/kafka-logs,对于名为test_perf的topic.假设两个partitions,那么我们可以在tmp/kafka-logs目录下看到目录VST_TOPIC-0,VST_TOPIC-1.也就是说kafka使用目录表示topic…

【kafka学习笔记】kafka的基本概念

在了解了背景知识后,我们来整体看一下kafka的基本概念,这里不做深入讲解,只是初步了解一下. kafka的消息架构注意这里不是设计的架构,只是为了方便理解,脑补的三层架构.从代码的实现来看,kafka其实就一层,不像MySQL分了服务层.引擎层之类的. 主题层首先是主题层,Topic(主题),比如用户消息,命名为'user_message';支付消息,命名为'pay_message'.两者互不干扰,等于是两条道. 注意这里的Topic是逻辑概念,落到硬件上,应该叫partition(分区)…

Docker学习总结(二)--Docker安装与启动

注:笔者使用的环境为 CentOS 7.6,如果版本不一致可能会出现一些错误. 安装 Docker 1)将 yum 包更新到最新版本 sudo yum update 2) 安装需要的软件包 sudo yum install -y yum-utils device-mapper-persistent-data lvm2 yum-util 提供 yum-config-manager 功能 device-mapper-persistent-data 和 lvm2 是 devicemapper 的驱动依…

大数据 -- kafka学习笔记：知识点整理（部分转载）

一为什么需要消息系统 1.解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕. 3.扩展性因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可. 4.灵活性…