kafka介绍和集群环境搭建

kafka概念：

kafka是一个高吞吐量的流式分布式消息系统，用来处理活动流数据。比方网页的訪问量pm,日志等，既可以实时处理大数据信息

也能离线处理。

特点：

1.高吞吐量

2.是一种显式的分布式系统，它如果，数据生产者（producer）,代理（brokers）和数据使用者（consumer）分散在多台机器上。

3.有关哪些数据已经被使用了的状态信息保存为数据使用着（consumer）的一部分。而不是保存在服务秋上。

关于队列的基础知识：

消息：指的是通信的基本单位，由消息生产者（producer）公布关于某个胡全体（topic）的消息，这句话的意思是消息以一种物理方式被发送给了

作为代理（broker）的server。若干的消费者（consumer）订阅（subscribe）某个话题，然后生产者公布的消息都会被发送给全部的使用者。

kafka是一个显式的分布式系统。指的是生产者，消费者，和代理者都能够执行在作为一个逻辑单位的，相互协调的集群的不同机器上。

消费者组：每一个消费者进程都隶属于一个消费者组。每条消息仅仅会发送到这个消费者组中的一个消费者进程，消费者组将多个消费者进程或多台

机器在逻辑上看做为了一个消费者。消费者组的意义就是。每条消息都仅仅会发送到这个消费者组中的一个进程，可是在同一个组中的消费者进程

都能使用这个消息，所以不管消费者组中有多少个订阅者。每条信息值在组中存储一份！

在kafka中，使用者（consumer）负责维护反应哪些消息已经被使用的状态（偏移量）。在kafka中会将状态数据保存到zookeeper中，

在hadoop的载入作业从kafka并行载入作业时。每一个mapper在map任务结束之前会将状态偏移量，存储到hdfs中。

通过这样的机制还能够回退数据读。

分发机制;

kafka通常情况下是执行在集群中的server上。没有中央的“主”节点。

代理彼此之间是对等的。不须要不论什么手动配置就可以可随时加入和删除。

相同，

生产者和消费者能够在不论什么时候开启。
每一个代理都能够在zookeeper(分布式协调系统)中注冊的一些元数据（比如，可用的主题）。生产者和消费者

能够使用zookeeper发现主题和相互协调。

关于生产者和消费者的细节将在以下描写叙述。

消费者和生产者通过分区实现负载均衡。

主题：用来区分不同种类的数据信息

分区partition:有主有从。将数据写到不同的文件上，分区的编号默认是从0開始。0,1,2,3...

leader负责读写数据，follower负责同步数据，高吞吐量。负载均衡

producer来能够去不同的分区上去写数据，consumer也是相同原理，这样就能够

将读写负载均衡到不同的分区中

消费之consumer，消费数据从主分区上（leader）读

消费组：共享消费信息，在同一个消费组中的消费者，读取同一份数据仅仅要一次即可了。由于

同一个组中消费者之间共享数据

#########################################################################################################

安装kafka:

1.上传kafka_2.9.2-0.8.1.1.tgz到server

2.单节点kafka,

a.先启动zookeeper集群

运行bin/kafka-server-start.sh config/server.properties

会报：

Unrecognized VM option 'UseCompressedOops'

Error: Could not create the Java Virtual Machine.

Error: A fatal exception has occurred. Program will exit.

原因是jdk的版本号不匹配，须要改动一下配置文件

改动文件：

去掉这个配置

-XX:+UseCompressedOops

b.启动一个服务端

bin/kafka-server-start.sh config/server.properties

c.查看topic

bin/kafka-topics.sh --list --zookeeper localhost:2181

创建topic

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

查看topic描写叙述

bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic

d.測试

启动一个生产者

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

开启一个消费者

bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

3.集群搭建

改动配置文件

vim config/server-1.properties

最后的zookeeper集群的配置

zookeeper.connect=storm01:2181,storm02:2181,storm03:2181

再将kafka的配置复制到其它的server

scp -r /usr/itcast/kafka root@storm02:/usr/itcast/

scp -r /usr/itcast/kafka root@storm03:/usr/itcast/

改动配置文件

vim config/server-1.properties

broker.id=1,broker.id=2

启动測试

kafka介绍和集群环境搭建的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装
一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（八）安装zookeeper-3.4.12
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（九）安装kafka_2.11-1.1.0
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（三）安装spark2.2.1
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二）安装hadoop2.9.0
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

随机推荐

[转]EJS入门
今天学习了EJS,转个再点个赞,动态创网页的好方法! 主页:http://www.embeddedjs.com/ 转自:http://www.csser.com/board/4fddc4f0b28ed ...
POJ 3321 Apple Tree dfs+二叉索引树
题目:http://poj.org/problem?id=3321 动态更新某个元素,并且求和,显然是二叉索引树,但是节点的标号不连续,二叉索引树必须是连续的,所以需要转化成连续的,多叉树的形状已经建 ...
【转】centOS中mysql一些常用操作
安装mysql yum -y install mysql-server 修改mysql配置vi /etc/my.cnf 这里会有很多需要注意的配置项,后面会有专门的笔记暂时修改一下编码(添加在密码下方 ...
jersey REST的接口简述
GET方法:只读,是幂等和安全的.在接口中抽象地定义了资源的请求方法类型后,其全部实现类都无须再定义. HEAD方法:与GET方法相似,只是服务器端的返回值不包括HTTP实体. OPTIONS方法:与 ...
SecureCRT 绝佳配色方案, 保护你的眼睛
http://blog.csdn.net/zklth/article/details/8937905 关键词:SecureCRT配色, SecureCRT设置颜色, Linux终端配色,Linux ...
【BZOJ 1233】 [Usaco2009Open]干草堆tower （单调队列优化DP）
1233: [Usaco2009Open]干草堆tower Description 奶牛们讨厌黑暗. 为了调整牛棚顶的电灯的亮度,Bessie必须建一座干草堆使得她能够爬上去够到灯泡 .一共有N大包的 ...
UVA 10716 Evil Straw Warts Live(贪心）
Problem D: Evil Straw Warts Live A palindrome is a string of symbols that is equal to itself when re ...
【HDOJ】2546 饭卡
01背包,需要先对数据升序排序.这样保证优先购买最贵的东西,才满足背包条件. #include <stdio.h> #include <string.h> #include & ...
Phpwind v9.0 存储型xss跨站漏洞
漏洞版本: Phpwind v9.0 漏洞描述: Phpwind专注于中小网站应用的整合和价值的发掘,我们认为,以社区为网站的基础,可以提供丰富的应用,满足人们获取信息.交流.娱乐.消费等生活需求.获 ...
sql server 清除日志
SQL2008 的收缩日志由于SQL2008对文件和日志管理进行了优化,所以以下语句在SQL2005中可以运行但在SQL2008中已经被取消: (SQL2005) Backup Log DNNam ...

kafka介绍和集群环境搭建

kafka介绍和集群环境搭建的更多相关文章

随机推荐

热门专题