一、Kafka 简介

1.基本概念

  Kafka 是一个分布式的基于发布/订阅消息系统,主要应用于大数据实时处理领域,其官网是:http://kafka.apache.org/。Kafka 是一个分布式、支持分区的(Partition)、多副本的(Replica),基于 ZooKeeper 协调的发布/订阅消息系统。

  Kafka 有以下三个基本概念:

  • Kafka 作为一个集群运行在一个或多个服务器上;
  • Kafka 集群存储的消息是以 Topic 为类别记录的;
  • 每个消息是由一个 Key,一个 Value 和时间戳构成。

2.基本架构

  Kafka 的基本架构图如下:

  

  • Producer:生产者,就是向 Broker 发消息的客户端;
  • Consumer:消费者,就是从 Broker 取消息的客户端;
  • Consumer Group:消费者组,由多个消费者组成。组内每个消费者负责消费不同分区的数据,一个分区的数据只能由一个组内的消费者进行消费,组内消费者之间互不影响;
  • Broker:一个 Kafka 服务器就是一个 Broker,一个集群由多个 Broker 组成;
  • Topic:主题,可以理解为队列,生成者和消费者都是用的同一个队列;
  • Partition:分区,为实现扩展性,一个大的 Topic 可以分散到多个 Broker 上,一个 Topic 可以分为多个 Partition;
  • Replica:副本,保证集群中某个节点发生故障时,该节点上的数据不丢失。

二、Ubuntu 下安装 Kafka

1.安装 Java

  更新软件包

sudo apt-get update

  安装 openjdk-8-jdk

sudo apt-get install openjdk-8-jdk

  查看 Java 版本,检查是否安装成功

   

2.安装 ZooKeeper

1)安装

  下载 ZooKeeper:http://mirrors.hust.edu.cn/apache/zookeeper/

  下载好之后解压(注意:3.5.5之后的版本应该下载文件名中带“bin”的压缩包),再执行如下命令:

sudo mv apache-zookeeper-3.5.8-bin /usr/local/zookeeper

cd /usr/local/zookeeper

cp conf/zoo_sample.cfg conf/zoo.cfg

  其中有一些配置参数:

  • tickTime:Zookeeper 使用的基本时间单元,默认值2000;
  • initLimit:Zookeeper 中连接同步的最大时间,默认值为10;
  • syncLimit:Zookeeper 中进行心跳检测的最大时间,默认值为5;
  • dataDir:数据库更新事物保存的目录;
  • clientPort:Zookeeper 服务监听的端口,默认值为2181。

2)配置

  修改 /etc/profile 文件,增加如下内容:

export ZOOKEEPER_HOME=/usr/local/zookeeper/

export PATH=$PATH:$ZOOKEEPER_HOME/bin

  更新环境变量

source /etc/profile

3)测试

  首先进入 bin 目录,开启服务:

  

  再启动 CLI 连接服务:

  

3.安装 Kafka

1)安装

  下载 Kafka:http://kafka.apache.org/downloads

  

  下载好之后解压,再执行如下命令:

sudo mv kafka_2.13-2.5.0/ /usr/local/kafka

cd /usr/local/kafka

2)测试

  由于前面已经启动了 Zookeeper 服务,所以这里只需要执行如下命令来开启 Kafka 服务:

bin/kafka-server-start.sh config/server.properties

  通过输出信息可以看到 Kafka 服务已经成功开启了,截图如下:

  

  但这样开启之后是阻塞的了,我们可以在中间加一个“-daemon”即开一个守护进程来运行,则命令如下:

bin/kafka-server-start.sh -daemon config/server.properties

  创建一个主题,用一个分区和一个副本创建一个名为“mytopic”的主题:

bin/kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 1 --topic mytopic

  

  这样就已经创建成功了,然后可以使用如下命令查看主题:

bin/kafka-topics.sh --list --zookeeper 127.0.0.1:2181

  Kafka 有一个命令行服务端,它将从文件或标准输入中获取输入,并将其作为消息发送到 Kafka 集群。默认情况下,每行将作为单独的消息发送:

bin/kafka-console-producer.sh --broker-list 127.0.0.1:9092 --topic mytopic

   

  同样的,Kafka 还有一个命令行客户端,可以从 Kafka 集群中获取消息:

bin/kafka-console-consumer.sh --bootstrap-server 127.0.0.1:9092 --topic mytopic --from-beginning

  

三、kafka-python 使用

1.安装 kafka-python

pip3 install kafka-python

2.创建 Consumer

  Consumer 消费者负责从 Kafka 中获取消息进行处理,需要实例化 KafkaConsumer 这个类。

 from kafka import KafkaConsumer

 consumer = KafkaConsumer("test", bootstrap_servers=["localhost:9092"])
for msg in consumer:
print(msg)

3.创建 Producer

  Producer 生产者负责向 Kafka 生产和发送消息,需要实例化 KafkaProducer 这个类。

 from kafka import KafkaProducer

 producer = KafkaProducer(bootstrap_servers="localhost:9092")
for i in range(10):
producer.send("test", "Hello {}".format(i).encode("utf-8"))
producer.close()

4.运行测试

  先运行消费者程序,再运行生产者程序,消费者一直在监听,等到生产者发送消息,消费者就把消息取出,运行结果如下:

  可以看到其中每个消息都包含了主题、分区、消息内容、时间戳等信息。

Kafka 入门(一)--安装配置和 kafka-python 调用的更多相关文章

  1. 在Centos 7上安装配置 Apche Kafka 分布式消息系统集群

    Apache Kafka是一种颇受欢迎的分布式消息代理系统,旨在有效地处理大量的实时数据.Kafka集群不仅具有高度可扩展性和容错性,而且与其他消息代理(如ActiveMQ和RabbitMQ)相比,还 ...

  2. (Linux环境Kafka集群安装配置及常用命令

    Linux环境Kafka集群安装配置及常用命令 Kafka 消息队列内部实现原理 Kafka架构 一.下载Kafka安装包 二.Kafka安装包的解压 三.设置环境变量 四.配置kafka文件 4.1 ...

  3. kafka介绍及安装配置(windows)

    Kafka介绍 Kafka是分布式的发布—订阅消息系统.它最初由LinkedIn(领英)公司发布,使用Scala和Java语言编写,与2010年12月份开源,成为Apache的顶级项目.Kafka是一 ...

  4. Kafka集群安装部署、Kafka生产者、Kafka消费者

    Storm上游数据源之Kakfa 目标: 理解Storm消费的数据来源.理解JMS规范.理解Kafka核心组件.掌握Kakfa生产者API.掌握Kafka消费者API.对流式计算的生态环境有深入的了解 ...

  5. 【菜鸟入门】安装配置eclipse 并编写运行第一个Java程序

    不得不吐槽一下,安装配置这eclipse真是太费劲了...下面总结一下,以便下次再安装 本人 win10系统,64位机 一.在官网下载eclipse安装包 文件名:eclipse-inst-win64 ...

  6. zookeeper和Kafka集群安装配置

    3个虚拟机,首先关闭防火墙,在进行下面操作 一.java环境 yum list java* yum -y install java-1.8.0-openjdk* 查看Java版本 Java -vers ...

  7. kafka集群安装配置

    1.下载安装包 2.解压安装包 3.进入到kafka的config目录修改server.properties文件 进入后显示如下: 修改log.dirs,基本上大部分都是默认配置 kafka依赖zoo ...

  8. Kafka入门(安装及使用)

    Kafka是一种分布式的,基于发布/订阅的消息系统. Kafka的组成包括: Kafka将消息以topic为单位进行归纳. 将向Kafka topic发布消息的程序成为producers. 将预订to ...

  9. linux 安装配置 sublime 进行 python 开发

    1. 下载sublime 地址:http://www.sublimetext.com/3 2. 解压出来,将sublime_text_3 文件夹的名字改为 sublime_text , 然后将 sub ...

  10. Redis安装配置及在Python上的应用

    最近在使用Kazoo(开源电话系统) API时,一次请求的处理需要调用几次API,只为了得到一个name和id的对应关系,耗时非常大,开始想使用一种简单的实现,直接将对应关系保存到静态类的静态变量中, ...

随机推荐

  1. SpringBoot — HelloWorld开发部署

    springboot官方推荐使用jdk1.8 一.配置pom.xml 二.Application.java 三.HelloController.java 四.项目运行: Application.jav ...

  2. linux网络编程-posix条件变量(40)

    举一个列子来说明条件变量: 假设有两个线程同时访问全局变量n,初始化值是0, 一个线程进入临界区,进行互斥操作,线程当n大于0的时候才执行下面的操作,如果n不大于0,该线程就一直等待. 另外一个线程也 ...

  3. Ajax 下载文件 文件被损坏

    问题表现 Ajax 下载文件成功后,打开提示格式损坏,源代码如下: axios({ method: 'get', url: "/public/工作簿1.xlsx", // 静态资源 ...

  4. vue全家桶(2.4)

    3.6.重定向和别名 3.6.1.重定向 路由重定向通俗的说就是从一个路由重新定位跳转到另一个路由,例如:访问的 "/a" 重定向到"/b" 重定向也是通过配置 ...

  5. ORACLE数据库数据被修改或者删除恢复数据(闪回)

    1. SELECT * FROM CT_FIN_RiskItem  --先查询表,确定数据的确不对  (cfstatus 第一行缺少) 2. select * from CT_FIN_RiskItem ...

  6. Spring Cloud Alibaba基础教程:Sentinel Dashboard中修改规则同步到Apollo

    在之前的两篇教程中我们分别介绍了如何将Sentinel的限流规则存储到Nacos和Apollo中.同时,在文末的思考中,我都指出了这两套整合方案都存在一个不足之处:不论采用什么配置中心,限流规则都只能 ...

  7. 程序员的修炼-我们为什么会编写BUG

    在最近的一周,我维护的业务系统出现了很多坏毛病,一周七天crash掉了4次,每次都需要都是因为一点很小的问题,触发了蝴蝶效应,导致整个系统全盘崩溃,于是产生除了叙述本篇的想法,当然这并不是为了掩盖我在 ...

  8. 2020年学习目标之一——emacs

    这两天在虚机里面安装了centos7(gnome),决定后续自己的学习一直在这个里面进行,对于编辑器我最后选择了emacs,新手一枚,不过正好也算是今年的一项学习目标吧,加油! (完)

  9. Redis系列(十二):数据结构SortedSet跳跃表中基本操作命令和源码解析

    1.SkipList Redis的sortedSet数据结构是有序不重复的(索引为唯一的,数据(score)却可以重复), 跳表是redis的一个核心组件,也同时被广泛地运用到了各种缓存地实现当中,它 ...

  10. 探讨NET Core数据进行3DES加密或解密弱密钥问题

    前言 之前写过一篇<探讨.NET Core数据进行3DES加密和解密问题>,最近看到有人提出弱密钥问题,换个强密钥不就完了吗,猜测可能是与第三方对接导致很无奈不能更换密钥,所以产生本文解决 ...