大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令

一、kafka常用命令

　　1.创建topic

bin/kafka-topics.sh --create --topic topic_1 --partitions  --replication-factor  --zookeeper mini1:

　　// 如果配置了PATH可以省略相关命令路径，相关命令参数暂不深入，字面意思也可以大概推断。后续给出完整参数参考。

　　2.查看所有topic

bin/kafka-topics.sh --list --zookeeper  mini1:

　　3.生产者发送消息（通常情况下有上游源生产）

bin/kafka-console-producer.sh --broker-list mini1: --topic topic_1

　　4.消费者消费消息

bin/kafka-console-consumer.sh --zookeeper mini1: --from-beginning --topic topic_1

　　// 可以在Mini2上消费，是分布式的

　　5.删除topic

bin/kafka-topics.sh --delete --zookeeper mini1: --topic topic_1

需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。

　　6.查看topic详情

bin/kafka-topics.sh --topic topic_1 --describe --zookeeper mini1:

　　可以使用kafkamanager来简化一些管理

二、JavaAPI

　　1.引入依赖

<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka -->

<dependency>

    <groupId>org.apache.kafka</groupId>

    <artifactId>kafka_2.12</artifactId>

    <version>0.11.0.2</version>

</dependency>

　　2.基本topic的操作

　　　　基本对应命令：

　　　　　　参考：https://www.cnblogs.com/huxi2b/p/6592862.html

　　3.生产者与消费者

　　　　以下的很多配置，都在kafka的3个配置里，详情参考入门篇。

　　　　生产者：

package cn.itcast.storm.kafka.simple;

import kafka.javaapi.producer.Producer;

import kafka.producer.KeyedMessage;

import kafka.producer.ProducerConfig;

import java.util.Properties;

import java.util.UUID;

/**

 * 这是一个简单的Kafka producer代码

 * 包含两个功能:

 * 1、数据发送

 * 2、数据按照自定义的partition策略进行发送

 *

 *

 * KafkaSpout的类

 */

public class KafkaProducerSimple {

    public static void main(String[] args) {

        /**

         * 1、指定当前kafka producer生产的数据的目的地

         *  创建topic可以输入以下命令，在kafka集群的任一节点进行创建。

         *  bin/kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 1 --partitions 1 --topic test

         */

        String TOPIC = "orderMq";

        /**

         * 2、读取配置文件

         */

        Properties props = new Properties();

        /*

         * key.serializer.class默认为serializer.class

         */

        props.put("serializer.class", "kafka.serializer.StringEncoder");

        /*

         * kafka broker对应的主机，格式为host1:port1,host2:port2

         */

        props.put("metadata.broker.list", "kafka01:9092,kafka02:9092,kafka03:9092");

        /*

         * request.required.acks,设置发送数据是否需要服务端的反馈,有三个值0,1,-1

         * 0，意味着producer永远不会等待一个来自broker的ack，这就是0.7版本的行为。

         * 这个选项提供了最低的延迟，但是持久化的保证是最弱的，当server挂掉的时候会丢失一些数据。

         * 1，意味着在leader replica已经接收到数据后，producer会得到一个ack。

         * 这个选项提供了更好的持久性，因为在server确认请求成功处理后，client才会返回。

         * 如果刚写到leader上，还没来得及复制leader就挂了，那么消息才可能会丢失。

         * -1，意味着在所有的ISR都接收到数据后，producer才得到一个ack。

         * 这个选项提供了最好的持久性，只要还有一个replica存活，那么数据就不会丢失

         */

        props.put("request.required.acks", "1");

        /*

         * 可选配置，如果不配置，则使用默认的partitioner partitioner.class

         * 默认值：kafka.producer.DefaultPartitioner

         * 用来把消息分到各个partition中，默认行为是对key进行hash。

         */

        props.put("partitioner.class", "cn.itcast.storm.kafka.MyLogPartitioner");

//        props.put("partitioner.class", "kafka.producer.DefaultPartitioner");

        /**

         * 3、通过配置文件，创建生产者

         */

        Producer<String, String> producer = new Producer<String, String>(new ProducerConfig(props));

        /**

         * 4、通过for循环生产数据

         */

        for (int messageNo = 1; messageNo < 100000; messageNo++) {

            /**

             * 5、调用producer的send方法发送数据

             * 注意：这里需要指定 partitionKey，用来配合自定义的MyLogPartitioner进行数据分发

             */

            producer.send(new KeyedMessage<String, String>(TOPIC, messageNo + "", "appid" + UUID.randomUUID() + "itcast"));

        }

    }

}

　　消费者：

package cn.itcast.storm.kafka.simple;

import kafka.consumer.Consumer;

import kafka.consumer.ConsumerConfig;

import kafka.consumer.ConsumerIterator;

import kafka.consumer.KafkaStream;

import kafka.javaapi.consumer.ConsumerConnector;

import kafka.message.MessageAndMetadata;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Properties;

import java.util.concurrent.ExecutorService;

import java.util.concurrent.Executors;

public class KafkaConsumerSimple implements Runnable {

    public String title;

    public KafkaStream<byte[], byte[]> stream;

    public KafkaConsumerSimple(String title, KafkaStream<byte[], byte[]> stream) {

        this.title = title;

        this.stream = stream;

    }

    @Override

    public void run() {

        System.out.println("开始运行 " + title);

        ConsumerIterator<byte[], byte[]> it = stream.iterator();

        /**

         * 不停地从stream读取新到来的消息，在等待新的消息时，hasNext()会阻塞

         * 如果调用 `ConsumerConnector#shutdown`，那么`hasNext`会返回false

         * */

        while (it.hasNext()) {

            MessageAndMetadata<byte[], byte[]> data = it.next();

            String topic = data.topic();

            int partition = data.partition();

            long offset = data.offset();

            String msg = new String(data.message());

            System.out.println(String.format(

                    "Consumer: [%s],  Topic: [%s],  PartitionId: [%d], Offset: [%d], msg: [%s]",

                    title, topic, partition, offset, msg));

        }

        System.out.println(String.format("Consumer: [%s] exiting ...", title));

    }

    public static void main(String[] args) throws Exception{

        Properties props = new Properties();

        props.put("group.id", "dashujujiagoushi");

        props.put("zookeeper.connect", "zk01:2181,zk02:2181,zk03:2181");

        props.put("auto.offset.reset", "largest");

        props.put("auto.commit.interval.ms", "1000");

        props.put("partition.assignment.strategy", "roundrobin");

        ConsumerConfig config = new ConsumerConfig(props);

        String topic1 = "orderMq";

        String topic2 = "paymentMq";

        //只要ConsumerConnector还在的话，consumer会一直等待新消息，不会自己退出

        ConsumerConnector consumerConn = Consumer.createJavaConsumerConnector(config);

        //定义一个map

        Map<String, Integer> topicCountMap = new HashMap<>();

        topicCountMap.put(topic1, 3);

        //Map<String, List<KafkaStream<byte[], byte[]>> 中String是topic， List<KafkaStream<byte[], byte[]>是对应的流

        Map<String, List<KafkaStream<byte[], byte[]>>> topicStreamsMap = consumerConn.createMessageStreams(topicCountMap);

        //取出 `kafkaTest` 对应的 streams

        List<KafkaStream<byte[], byte[]>> streams = topicStreamsMap.get(topic1);

        //创建一个容量为4的线程池

        ExecutorService executor = Executors.newFixedThreadPool(3);

        //创建20个consumer threads

        for (int i = 0; i < streams.size(); i++)

            executor.execute(new KafkaConsumerSimple("消费者" + (i + 1), streams.get(i)));

    }

}

　　自定义分区：

package cn.itcast.storm.kafka;

import kafka.producer.Partitioner;

import kafka.utils.VerifiableProperties;

import org.apache.log4j.Logger;

public class MyLogPartitioner implements Partitioner {

    private static Logger logger = Logger.getLogger(MyLogPartitioner.class);

    public MyLogPartitioner(VerifiableProperties props) {

    }

    public int partition(Object obj, int numPartitions) {

        return Integer.parseInt(obj.toString())%numPartitions;

//        return 1;

    }

}

　　很明显，上面的代码徒手写是很费劲的，这个时候，就可以请出我们的KafkaSpout来整合storm了！

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令的更多相关文章

大数据入门第十七天——storm上游数据源之kafka详解（一）入门与集群安装
一.概述 1.kafka是什么根据标题可以有个概念:kafka是storm的上游数据源之一,也是一对经典的组合,就像郭德纲和于谦根据官网:http://kafka.apache.org/intro ...
大数据入门第十七天——storm上游数据源之kafka详解（三）其他问题
一.kafka文件存储机制 1.topic存储在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序 ...
大数据入门第十六天——流式计算之storm详解（一）入门与集群安装
一.概述今天起就正式进入了流式计算.这里先解释一下流式计算的概念离线计算离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示代表技术:Sqoop批量导入数据.HDFS批量存储数据 ...
大数据入门第十六天——流式计算之storm详解（二）常用命令与wc实例
一.常用命令 1.提交命令提交任务命令格式:storm jar [jar路径] [拓扑包名.拓扑类名] [拓扑名称] torm jar examples/storm-starter/storm-st ...
大数据入门第八天——MapReduce详解（三）MR的shuffer、combiner与Yarn集群分析
/mr的combiner /mr的排序 /mr的shuffle /mr与yarn /mr运行模式 /mr实现join /mr全局图 /mr的压缩今日提纲一.流量汇总排序的实现 1.需求对日志数据 ...
大数据入门第二十天——scala入门（一）入门与配置
一.概述 1.什么是scala Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性.Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序. ...
大数据入门第十九天——推荐系统与mahout（一）入门与概述
一.推荐系统概述为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,才有了个性化推荐系统.其实,解决信息过载的问题,代表性的解决方案是分类目录和搜索引擎,如hao123,电商首页的分类目录 ...
大数据入门第七天——MapReduce详解（一）入门与简单示例
一.概述 1.map-reduce是什么 Hadoop MapReduce is a software framework for easily writing applications which ...
大数据入门第三天——基础补充与ActiveMQ
一.多线程基础回顾先导知识在基础随笔篇:http://www.cnblogs.com/jiangbei/p/6664555.html 以下此部分以补充为主 1.概念进程:进行中的程序,内存中有独立 ...

随机推荐

Android 监听手机GPS打开状态
转载请标明出处:http://blog.csdn.net/zhaoyanjun6/article/details/70854942 本文出自[赵彦军的博客] GPS_Presenter package ...
8.2，常用模块介绍：sys,os,time,random
sys: 介绍:主要包含涉及python编译器与系统交互的函数. 常用函数: import sys print(sys.argv)#本文件名,已经运行该程序时的参数 #[如在命令窗口中python3 ...
使用 Azure Active Directory 管理 Azure 中的 HPC Pack 群集
Microsoft HPC Pack 2016 支持在 Azure 中部署 HPC Pack 群集的管理员将其与 Azure Active Directory (Azure AD) 集成. 请按照本文 ...
Automation Script For Percona Xtrabackup FULL/Incremental
This is my first post in 2019, and Im starting with a MySQL solution. In MySQL world, implementing a ...
python 多进程 Event的使用
Event事件多进程的使用通俗点儿讲就是 1. Event().wait() 插入在进程中插入一个标记(flag) 默认为 false 然后flag为false时程序会停止运 ...
C Programming vs. Java Programming
Thing C Java type of language function oriented object oriented basic programming unit function clas ...
【转】Mysql学习---MySQL悲观锁中的排它锁
[原文]https://www.toutiao.com/i6595305814087434760/ 悲观锁中的排它锁. 排它锁关键字:for update 特点:会锁住行或者表,防止其他事务进行修改操 ...
NOIP2018考前抱佛脚——图论基础复习
目录存图方式邻接矩阵存图邻接表存图链式前向星最小生成树例1 P1536 村村通题目描述输入输出格式输入输出样例标程例2 P1546 最短网络 Agri-Net 题目背景题目描述 ...
PyQt5--QProgressBar
# -*- coding:utf-8 -*- ''' Created on Sep 20, 2018 @author: SaShuangYiBing Comment: ''' import sys f ...
类与对象 - Java学习（二）
弄清楚类与对象的本质与基本特征,是进一步学习面向对象编程语言的基本要求.面向对象程序设计与面向过程程序设计在思维上存在着很大差别,改变一种思维方式并不是一件容易的事情. 一.面向对象程序设计程序由对 ...

大数据入门第十七天——storm上游数据源 之kafka详解（二）常用命令

一、kafka常用命令

二、JavaAPI

大数据入门第十七天——storm上游数据源 之kafka详解（二）常用命令的更多相关文章

随机推荐

热门专题

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令的更多相关文章