kafka生产消息，streaming消费

package com.bd.useranalysis.spark.streaming.kafka2es;

import com.alibaba.fastjson.JSON;

import com.bd.useranalysis.common.config.ConfigUtil;

import com.bd.useranalysis.common.project.datatype.DataTypeProperties;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.kafka.clients.producer.ProducerConfig;

import org.apache.kafka.common.serialization.StringDeserializer;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka010.*;

import java.util.*;

public class Kafka2EsJava {

    Properties properties = ConfigUtil.getInstance().getProperties("kafka/kafka-server-config.properties");

    static Set<String> dataTypes = DataTypeProperties.dataTypeMap.keySet();

    public static void main(String[] args) throws InterruptedException {

        SparkConf sparkConf = new SparkConf().setAppName("sparkstreaming_kafka2es").setMaster("local[2]");

        JavaSparkContext jsc = new JavaSparkContext(sparkConf);

        jsc.setLogLevel("WARN");

        JavaStreamingContext jss = new JavaStreamingContext(jsc, Durations.seconds(2L));

        Map<String, Object> kafkaParams = new HashMap<>();

        kafkaParams.put("bootstrap.servers","quyf:9092");

        kafkaParams.put("key.deserializer", StringDeserializer.class);

        kafkaParams.put("value.deserializer", StringDeserializer.class);

        kafkaParams.put("group.id", "test_20190815");

        kafkaParams.put("auto.offset.reset", "latest");

        kafkaParams.put("enable.auto.commit", true);

        List<String> topicList = Arrays.asList("test","test2");

        JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils.createDirectStream(jss,

                LocationStrategies.PreferConsistent(),

                ConsumerStrategies.Subscribe(topicList, kafkaParams)

        );

        JavaDStream<HashMap<String, String>> recordDS = stream.map(new Function<ConsumerRecord<String, String>, HashMap<String, String>>() {

            @Override

            public HashMap<String, String> call(ConsumerRecord<String, String> record) throws Exception {

                //System.out.println("consumer==>"+record.value());

                return JSON.parseObject(record.value(), HashMap.class);

            }

        });

        for (String type : dataTypes) {

            recordDS.filter(new Function<HashMap<String, String>, Boolean>() {

                @Override

                public Boolean call(HashMap<String, String> resultMap) throws Exception {

                    return resultMap.get("table").equals(type);

                }

            }).foreachRDD(new VoidFunction<JavaRDD<HashMap<String, String>>>() {

                @Override

                public void call(JavaRDD<HashMap<String, String>> mapJavaRDD) throws Exception {

                   mapJavaRDD.foreach(new VoidFunction<HashMap<String, String>>() {

                       @Override

                       public void call(HashMap<String, String> stringStringHashMap) throws Exception {

                           System.out.println(stringStringHashMap.toString());

                       }

                   });

                }

            });

        }

        jss.start();

        jss.awaitTermination();

    }

}

public class GenKafkaData {

    public static void main(String[] args) throws Exception {

        List<String> lines = IOUtils.readLines(new FileReader(

                new File("E:\\wechat\\wechat_source1_1111153.txt")));

        Producer<String, String> producer = getProducer();

        ArrayList<String> columns = DataTypeProperties.dataTypeMap.get("wechat");

        Map<String, String> dataMap = new HashMap<>();

        dataMap.put("table","wechat");

        for(String line : lines){

            String[] fields = line.split("\t");

            for (int i = 0; i < fields.length; i++) {

                dataMap.put(columns.get(i), fields[i]);

            }

            int index = 0;

            while(true){

                String lineRecord = JSON.toJSONString(dataMap);

                producer.send(new ProducerRecord<>("test2",null, lineRecord));

                Thread.sleep(1000);

                index++;

                System.out.println("send->"+lineRecord);

                if(index==10){

                    break;

                }

            }

            //System.out.println("send->"+lineRecord);

            //StringProducer.producer("test", lineRecord);

        }

    }

    public static Producer<String, String> getProducer(){

        Producer<String, String> producer =  new KafkaProducer<String, String>(createProducerProperties());

        return producer;

    }

    private static Properties createProducerProperties() {

        Properties props = new Properties();

//        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");

//        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        props.put("key.serializer", StringSerializer.class);

        props.put("value.serializer", StringSerializer.class);

        props.put("bootstrap.servers", "quyf:9092");

        props.put("linger.ms",1);

        props.put("acks", "all");

        // 消息发送最大尝试次数

        props.put("retries", 0);

        // 一批消息处理大小

        props.put("batch.size", 16384);

        // 增加服务端请求延时

        props.put("linger.ms", 1);

        // 发送缓存区内存大小

        props.put("buffer.memory", 33554432);

        return props;

    }

}

kafka生产消息，streaming消费的更多相关文章

kafka生产消息的速度跟什么有关？
kafka的吞吐量很大,在保证带宽的情况下,网上的一些测试表明3台broker,没有replication,6个partition的情况下,一般的写入速度可以达到300MB/s.参考:kakfa测试 ...
kafka生产者与消费者的生产消息与消费消息所遇到的问题
当我们用API写kafka的时候生产者生产消息,但是消费者接收不到消息?集群上启动消费者显示生产的消息.我们需要修改一下配置 (1)我们打开在虚拟机中修改kafka集群的配置文件 [root@spa ...
kafka 保证消息被消费和消息只消费一次
1. 保证消息被消费即使消息发送到了消息队列,消息也不会万无一失,还是会面临丢失的风险. 我们以 Kafka 为例,消息在Kafka 中是存储在本地磁盘上的, 为了减少消息存储对磁盘的随机 I/O, ...
用canal同步binlog到kafka，spark streaming消费kafka topic乱码问题
canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有kafka和RocketMQ. 在投递的时候我们使用的是非压平的消 ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
kafka生产消费原理笔记
一.什么是kafka Kafka是最初由Linkedin公司开发,是一个分布式.支持分区的(partition).多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性 ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
Python 基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控
基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控 By: 授客 QQ:1033553122 1．测试环境 python 3.4 zookeeper- ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...

随机推荐

领扣（LeetCode）删除排序数组中的重复项个人题解
给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度. 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成. 示例 1 ...
usaco training <1.2 Greedy Gift Givers>
题面 Task 'gift1': Greedy Gift Givers A group of NP (2 ≤ NP ≤ 10) uniquely named friends has decided t ...
小白学 Python 爬虫（3）：前置准备（二）Linux基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装 Linux 基础 CentOS 官网: https: ...
关闭zabbix 告警
1. 到触发器配置界面开启Allow manual close. (可能需要在连接的模板处修改) 2. 永久关闭告警,即disable该触发器.
elementui分页记录，reserve-selection
第一步:在<el-table></el-table>标签中加上 :row-key="getRowKeys" 第二步:在<el-table-column ...
Linux(CentOS65)
首先下载VMware,然后下载CentOS镜像文件,VM的版本尽量高一点,因为软件一般都有向下兼容性,如果版本太低,可能匹配不了CentOS. 安装VMTools工具主要用于虚拟主机显示优化与调整, ...
Selenium WebDriver 中鼠标事件
鼠标点击操作鼠标点击事件有以下几种类型: 清单 1. 鼠标左键点击 Actions action = new Actions(driver);action.click();// 鼠标左键在当 ...
2019牛客暑期多校训练营（第九场）Quadratic equation——二次剩余（模奇素数）
题意:给定p=1e9+7,构造x,y使其满足(x+y) mod p = b,(x*y) mod p = c . 思路:不考虑取模的情况下, .在取模的意义下,,因为a是模p的二次剩余的充分必要条件为 ...
程序员的算法课（20）-常用的图算法：最小生成树（MST）
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/m0_37609579/article/de ...
【Android - 控件】之MD - CoordinatorLayout的使用
CoordinatorLayout是Android 5.0新特性——Material Design中的一个布局控件,主要用来协调各个子视图之间的工作,也可以用来作为顶部布局.CoordinatorLa ...

kafka生产消息，streaming消费

kafka生产消息，streaming消费的更多相关文章

随机推荐

热门专题