kafka概念:

    kafka是一个高吞吐量的流式分布式消息系统,用来处理活动流数据。比方网页的訪问量pm,日志等,既可以实时处理大数据信息
    也能离线处理。

    特点:
        1.高吞吐量    
        2.是一种显式的分布式系统,它如果,数据生产者(producer),代理(brokers)和数据使用者(consumer)分散在多台机器上。
        3.有关哪些数据已经被使用了的状态信息保存为数据使用着(consumer)的一部分。而不是保存在服务秋上。


关于队列的基础知识:
    消息:指的是通信的基本单位,由消息生产者(producer)公布关于某个胡全体(topic)的消息,这句话的意思是消息以一种物理方式被发送给了
    作为代理(broker)的server。若干的消费者(consumer)订阅(subscribe)某个话题,然后生产者公布的消息都会被发送给全部的使用者。

    
    kafka是一个显式的分布式系统。指的是生产者,消费者,和代理者都能够执行在作为一个逻辑单位的,相互协调的集群的不同机器上。
    
    消费者组:每一个消费者进程都隶属于一个消费者组。每条消息仅仅会发送到这个消费者组中的一个消费者进程,消费者组将多个消费者进程或多台
    机器在逻辑上看做为了一个消费者。消费者组的意义就是。每条消息都仅仅会发送到这个消费者组中的一个进程,可是在同一个组中的消费者进程
    都能使用这个消息,所以不管消费者组中有多少个订阅者。每条信息值在组中存储一份!

    在kafka中,使用者(consumer)负责维护反应哪些消息已经被使用的状态(偏移量)。在kafka中会将状态数据保存到zookeeper中,
    在hadoop的载入作业从kafka并行载入作业时。每一个mapper在map任务结束之前会将状态偏移量,存储到hdfs中。

通过这样的机制还能够回退数据读。

    
    分发机制;
    kafka通常情况下是执行在集群中的server上。没有中央的“主”节点。

代理彼此之间是对等的。不须要不论什么手动配置就可以可随时加入和删除。

相同,

        生产者和消费者能够在不论什么时候开启。
每一个代理都能够在zookeeper(分布式协调系统)中注冊的一些元数据(比如,可用的主题)。生产者和消费者
        能够使用zookeeper发现主题和相互协调。

关于生产者和消费者的细节将在以下描写叙述。


   
消费者和生产者通过分区实现负载均衡。
        主题:用来区分不同种类的数据信息
分区partition:有主有从。将数据写到不同的文件上,分区的编号默认是从0開始。0,1,2,3...
leader负责读写数据,follower负责同步数据,高吞吐量。负载均衡
  
producer来能够去不同的分区上去写数据,consumer也是相同原理,这样就能够
 
 将读写负载均衡到不同的分区中
消费之consumer,消费数据从主分区上(leader)读
消费组:共享消费信息,在同一个消费组中的消费者,读取同一份数据仅仅要一次即可了。由于
同一个组中消费者之间共享数据

    #########################################################################################################
安装kafka:     

1.上传kafka_2.9.2-0.8.1.1.tgz到server

2.单节点kafka,
a.先启动zookeeper集群
运行bin/kafka-server-start.sh  config/server.properties
会报:
Unrecognized VM option 'UseCompressedOops'
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.
原因是jdk的版本号不匹配,须要改动一下配置文件
改动文件:
去掉这个配置
-XX:+UseCompressedOops
b.启动一个服务端
bin/kafka-server-start.sh config/server.properties

c.查看topic
 bin/kafka-topics.sh --list --zookeeper localhost:2181
  创建topic
 bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
  查看topic描写叙述
 bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic

d.測试
启动一个生产者
bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test 
开启一个消费者
bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

3.集群搭建


改动配置文件
vim config/server-1.properties 
最后的zookeeper集群的配置
zookeeper.connect=storm01:2181,storm02:2181,storm03:2181
再将kafka的配置复制到其它的server
scp -r /usr/itcast/kafka root@storm02:/usr/itcast/
scp -r /usr/itcast/kafka root@storm03:/usr/itcast/
改动配置文件
vim config/server-1.properties 
broker.id=1,broker.id=2
启动測试

    

    

 

kafka介绍和集群环境搭建的更多相关文章

  1. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十一)NIFI1.7.1安装

    一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...

  2. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十一)定制一个arvo格式文件发送到kafka的topic,通过Structured Streaming读取kafka的数据

    将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...

  3. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(八)安装zookeeper-3.4.12

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  4. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十三)kafka+spark streaming打包好的程序提交时提示虚拟内存不足(Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G)

    异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...

  5. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十二)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网。

    Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...

  6. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十)安装hadoop2.9.0搭建HA

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  7. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(九)安装kafka_2.11-1.1.0

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  8. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(三)安装spark2.2.1

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  9. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二)安装hadoop2.9.0

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

随机推荐

  1. Java NIO回炉

    重回东软了,据说可能要做一个跟文件相关的项目,于是决定把Java NIO的内容再捡起来,看看. 为什么要使用NIO,其实在低连接数的情况下,NIO的性能是要低于IO的:但是在高并发的情况下,确实NIO ...

  2. 从小白进阶ubuntu高手的必经之路—命令

    精选的十二个ubuntu下的命令,熟记于心,则能甩掉ubuntu小白标签,高手的伟岸形象焕然生发.一.管理员权限绝大部分情况下,命令的行为须要被赋予管理员权限才能执行.命令 sudo 作用:赋予当前命 ...

  3. UOJ179 线性规划

    Description 这是一道模板题. 本题中你需要求解一个标准型线性规划: 有\(n\)个实数变量\(x_1,x_2,\cdots,x_n\)和\(m\)条约束,其中第\(i\)条约束形如\(\s ...

  4. ABAP写的一个递归

    需求:计算下面树形结构中每个子节点与最上层父节点的对应关系. DATA:BEGIN OF lt_ztab OCCURS 0,      a  TYPE string,      b  TYPE str ...

  5. tornado异步请求非阻塞

    前言也许有同学很迷惑:tornado不是标榜异步非阻塞解决10K问题的嘛?但是我却发现不是torando不好,而是你用错了 比如最近发现一个事情:某网 前言 也许有同学很迷惑:tornado不是标榜异 ...

  6. POJ_2446_Chessboard

    题目意思就是一个M*N的有洞棋盘棋盘上,用1*2的板子去覆盖没有洞的地方,要求板子不能重叠,最终能否将棋盘完整覆盖. 代码: #include<stdio.h> #include<s ...

  7. 编译GNU/Linux共享库, 为什么要用PIC编译?

    http://blog.csdn.net/chenji001/article/details/5691690

  8. usaco3.33Camelot(BFS)

    恶心的题啊 .. 先枚举哪个点是所有人集合的点 再枚举所有骑士遇见国王的点 如果全部枚举出来会大大的TLE 经大牛验证 只需要枚举国王周围的点就可以了+-2 之内 然后各种繁琐 各种错误 骑士有可能不 ...

  9. 【转】重载(overload),覆盖(override),隐藏(hide)的区别

    原文网址:http://www.cppblog.com/zgysx/archive/2007/03/12/19662.html 写正题之前,先给出几个关键字的中英文对照,重载(overload),覆盖 ...

  10. 修改Oracle数据库用户的密码

    修改数据库用户system密码的两个方法: 方法一: alter user system identified by password; 方法二: password system;