kafka复习(1)

　　一：flume复习

0.JMS(java message service )java消息服务

--------------------------------------------------------------

　　queue（队列模式）：点对点服务只能有一个消费者。也叫做点对点模式

　　publish-subscribe（发布-订阅模式，也叫做主题模式）：

1.flume是收集，聚合，移动日志的框架

2.agent:　　

　　source:　　//接受数据的，生产者

　　　　　　　//netcat

　　　　　　 //ExecSource实时收集：tail -F xxx.txt

　　　　　　　//spooldir监控文件夹

　　　　　　　//seq

　　　　　　　//Stress　　压力测试

　　　　　　 //avroSource

　　channel　　//暂存数据，相当于缓冲区

　　　　　　　　//非永久性的：MemoryChannel

　　　　　　　　//永久性:FileChannel磁盘

　　　　　　　　//SpillableMemoryChannel:是内存通道和文件通道的一个重组

　　sink　　　　//输出数据，消费者，从通道中提取数据

　　　　　　　　//HdfsSink　　//

　　　　　　　　//HBaseSink　//

　　　　　　　　//HiveSink　　//　　　

　　　　　　　　//avroSink　　

kafka

-------------------------------------------------------

一、kafka简介

　　1.JMS:java message service :java消息服务

　　2.kafka:是分布式流处理平台，在系统之间构建实时数据流管道

　　3.kafka以集群的形式运行有一个或者多个主机，kafka以主题来分类存储记录，每个记录都有key ,value和timestamp

　　4.Producer:生产者；Consumer:消费者；consumer group消费者组；kafka server 包括broker,kafka服务器

　　　topic:消息以topic为类别记录，每一类的消息称为一个主题

　　　broker:以集群的方式运行，可以由一个或者多个服务组成，每个服务叫做一个broker,消费者可以订阅一个或者多个主题，并从broker拉数据，从而消费这些已经发布的消息

　　　每个消息是由:key+value+timestamp组成

　　5.kafka：每秒钟百万数据吞吐量

二、安装kafka

　　0.选择s202 ~ s204三台主机安装kafka
　　1.准备zk
　　　　略
　　2.jdk
　　　　略
　　3.tar文件
　　4.环境变量
　　　　略
　　5.配置kafka
　　　　[kafka/config/server.properties]
　　　　...
　　　　broker.id=202
　　　　...
　　　　listeners=PLAINTEXT://:9092
　　　　...
　　　　log.dirs=/home/centos/kafka/logs
　　　　...
　　　　zookeeper.connect=s201:2181,s202:2181,s203:2181

　　　　6.分发server.properties，同时修改每个文件的broker.id
　　　　7.启动kafka服务器
　　　　　　a)先启动zk　　
　　　　　　b)启动kafka
　　　　　　[s202 ~ s204]
　　　　$>bin/kafka-server-start.sh config/server.properties

　　　　　　c)验证kafka服务器是否启动
　　　　　　$>netstat -anop | grep 9092

　　　　8.创建主题

　　　　　　$>bin/kafka-topics.sh --create --zookeeper s202:2181 --replication-factor 3 --partitions 3 --topic test　　//创建主题，分区数为3

　　　　9.查看主题列表
　　　　　　$>bin/kafka-topics.sh --list --zookeeper s202:2181

　　　　10.启动控制台生产者
　　　　　　$>bin/kafka-console-producer.sh --broker-list s202:9092 --topic test

　　　　11.启动控制台消费者
　　　　　　$>bin/kafka-console-consumer.sh --bootstrap-server s202:9092 --topic test --from-beginning --zookeeper s202:2181　　//从头开始消费数据

　　　　12.在生产者控制台输入hello world

三、

　　1.副本：broker存放消息以消息到达的顺序进行存放，生产和消费都是副本感知的，支持n-1个故障，每个分区都有leader

　　　　新leader选举的过程是通过isr进行的，第一个注册的follower称为新的leader

　　2.kafka支持的副本模式：

　　　　[同步复制]:

　　　　1.producer联系zk识别leader

　　　　2.向leader发送消息

　　　　3.leader收入消息，写入本地log

　　　　4.follower从leader pull消息

　　　　5.follower向本地写入log

　　　　6.follower向leader发送ack确认消息

　　　　7.leader收到所有的ack消息

　　　　8.leader向producer回传ack消息

　　　　[异步复制]:

　　合同步复制的区别在与leader写入本地log后，直接向client回传ack消息，不需要等待所有的follower复制完成，但是这种模式不能保证消息被生产者分发

API方式进行访问

------------------------------------------

　　1.消息生产者

package com.it18zhang.kafkaDemo.test;

import kafka.javaapi.producer.Producer;

import kafka.producer.KeyedMessage;

import kafka.producer.ProducerConfig;

import org.junit.Test;

import java.util.HashMap;

import java.util.Properties;

/**

 * Created by stone on 2018/8/17.

 */

public class TestProducer {

    @Test

    public void testSend(){

        Properties props = new Properties();

        props.put("metadata.broker.list","s202:9092");

        props.put("serializer.class","kafka.serializer.StringEncoder");

        props.put("request.required.acks","");

        //配置生产值配置对象

        ProducerConfig config = new ProducerConfig(props);

        //创建生产者

        Producer<String,String> producer = new Producer<String,String>(config);

        KeyedMessage<String,String> msg =new KeyedMessage<String, String>("test2","","hello world jack");

        producer.send(msg);

        System.out.println("send over");

    }

}

2.消息消费者

@Test

    public void testConsumer(){

        Properties prop = new Properties();

        prop.put("zookeeper.connect","s202:2181");

        prop.put("group.id","g1");

        prop.put("zookeeper.session.timeout.ms","");

        prop.put("zookeeper.sync.time.ms","");

        //创建消费者配置

        Map<String,Integer> map = new HashMap<String, Integer>();

        map.put("test2",new Integer());

        Map<String, List<KafkaStream<byte[], byte[]>>>  msgs= Consumer.createJavaConsumerConnector(new ConsumerConfig(prop) ).createMessageStreams(map);

        List<KafkaStream<byte[], byte[]>> msgList = msgs.get("test2");

        for(KafkaStream<byte[],byte[]> stream : msgList){

            ConsumerIterator<byte[],byte[]> it = stream.iterator();

            while(it.hasNext()){

                byte[] message = it.next().message();

                System.out.println(new String(message));

            }

        }

    }

flume与kafka集成的方式

----------------------------------------

　　1.flume数据sink到kafka

　　　　flume充当生产者

　　a1.sources=r1

　　a1.sinks=k1

　　a1.channels=c1

　　a1.sources.r1.type=netcat

　　a1.sources.r1.port=8888

　　a1.sources.r1.bind=localhsot

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.kafka.topic = test2

a1.sinks.k1.kafka.bootstrap.servers = s202:9092

a1.sinks.k1.kafka.flumeBatchSize = 20

a1.sinks.k1.kafka.producer.acks = 1

a1.sinks.k1.channel = c1
a1.channels.c1.type=memory
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

　　2.kafka充当source

　　　　flume充当消费者

a1.sources = r1
a1.sinks = k1
a1.channels = c1

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = s202:9092
a1.sources.r1.kafka.topics = test3
a1.sources.r1.kafka.consumer.group.id = g4

a1.sinks.k1.type = logger

a1.channels.c1.type=memory

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

　　3.channels通道临时数据存放地缓冲区，flume通道有内存通道，文件通道，同时数据也可以存放进入kafka中去，把消息放在kafka里面，flume充当生产者

a1.sources = r1
a1.sinks = k1
a1.channels = c1

a1.sources.r1.type = avro
a1.sources.r1.bind = localhost
a1.sources.r1.port = 8888

a1.sinks.k1.type = logger

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = s202:9092
a1.channels.c1.kafka.topic = test3
a1.channels.c1.kafka.consumer.group.id = g6

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

kafka复习(1)的更多相关文章

kafka复习(2)
一.简介 --------------------------------------- 1.kafka是一个分布式的.可分区的.可复制的消息系统.它提供了消息系统的功能,但是有自己独特的设计. 2. ...
[CDH] Acquire data: Flume and Kafka
Flume 基本概念一.是什么 Ref: http://flume.apache.org/ 数据源获取:Flume.Google Refine.Needlebase.ScraperWiki.Bloo ...
JAVA复习笔记分布式篇：kafka
前言:第一次使用消息队列是在实在前年的时候,那时候还不了解kafka,用的是阿里的rocket_mq,当时觉得挺好用的,后来听原阿里的同事说rocket_mq是他们看来kafka的源码后自己开发了一套 ...
【原创】kafka producer源代码分析
Kafka 0.8.2引入了一个用Java写的producer.下一个版本还会引入一个对等的Java版本的consumer.新的API旨在取代老的使用Scala编写的客户端API,但为了兼容性 ...
Kafka学习之路
一直在思考写一些什么东西作为2017年开篇博客.突然看到一篇<Kafka学习之路>的博文,觉得十分应景,于是决定搬来这“他山之石”.虽然对于Kafka博客我一向坚持原创,不过这篇来自Con ...
051 Kafka的安装
后来重新复习的时候,发现这篇文章不错:https://www.cnblogs.com/z-sm/p/5691760.html 一:前提 1.安装条件 Java Scala zookeeper Ka ...
Kafka基础系列第1讲：Kafka的诞生背景及应用
Kafka 是由 LinkedIn 开发的一个分布式的消息系统,使用 Scala 编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如 Cloudera.Apache Sto ...
Kafka消息存储原理
kafka消息存储机制 (一)关键术语复习一下几个基本概念,详见上面的基础知识文章. Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker能够组成一个Kafka ...
大数据入门第二十四天——SparkStreaming（二）与flume、kafka整合
前一篇中数据源采用的是从一个socket中拿数据,有点属于“旁门左道”,正经的是从kafka等消息队列中拿数据! 主要支持的source,由官网得知如下: 获取数据的形式包括推送push和拉取pull ...

随机推荐

「CF 961G」Partitions
题目链接戳我 $Solution$ 首先,这个直接推式子.自己推去所以我们来想一想一些巧妙的方法 $|S|\sum w_i$ 可以转化为:划分好集合后,每个点都对当前点有$w_i$的贡 ...
如何快速查询中科院JCR分区和汤森路透JCR分区
参考: https://blog.csdn.net/chichuhe/article/details/83054624 https://blog.csdn.net/Sunflower02/articl ...
Javascript事件：this.value()和this.select()
1.JavaScript的this.value() <asp:TextBox ID="txtComment" runat="server" Text=&q ...
关于 oracle10g、oracle client和plsql devement 三者之间的关系
oracle10g是服务器,如果本机安装了oracle10g,没有必要安装oracle client,只要配置好DNS,就可以使用plsql devement连接当然你也可以同时安装orac ...
python3笔记十五：python函数
一:学习内容函数概述函数的参数与返回值参数值传递和引用传递关键字参数默认参数不定长参数二:函数概述 1.本质:函数就是对功能的封装 2.优点: 简化代码结构,增加了代码的复用度(重复使用 ...
LVS负载均衡DR工作流程
LVS负载均衡DR工作流程 (a) 当用户请求到达Director Server,此时请求的数据报文会先到内核空间的PREROUTING链. 此时报文的源IP为CIP,目标IP为VIP (b) PRE ...
java删除文件夹或者文件
private static void deleteFile(File file) { if (file.exists()) { // 判断文件是否存在 if (file.isFile()) { // ...
Python学习笔记：使用request库遇到的问题
一.在请求参数中包含中文时,需要进行编码,如果不进行编码会报错报错信息: 如:请求参数为:{"username":"超级管理员"} 在使用xlrd模块进行操作 ...
浏览器访问ipv6站点(未绑定主机的ipv6站点)
我们在浏览器直接输入ipv6地址敲回车,一般情况下浏览器会跳转到搜索引擎进行搜索. 我们需要在浏览器器中输入: http://[::1] 或者 [::1]
string中getline，cin的方法getline(),get总结
一.string中的getline不是string的成员函数,属于全局函数,使用需要include<string>,有两个重载版本: 函数原型参见:http://www.cplusplus ...

kafka复习(1)

一、kafka简介

二、安装kafka

三、

kafka复习(1)的更多相关文章

随机推荐

热门专题