kafka生产消息，streaming消费

package com.bd.useranalysis.spark.streaming.kafka2es;

import com.alibaba.fastjson.JSON;

import com.bd.useranalysis.common.config.ConfigUtil;

import com.bd.useranalysis.common.project.datatype.DataTypeProperties;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.kafka.clients.producer.ProducerConfig;

import org.apache.kafka.common.serialization.StringDeserializer;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka010.*;

import java.util.*;

public class Kafka2EsJava {

    Properties properties = ConfigUtil.getInstance().getProperties("kafka/kafka-server-config.properties");

    static Set<String> dataTypes = DataTypeProperties.dataTypeMap.keySet();

    public static void main(String[] args) throws InterruptedException {

        SparkConf sparkConf = new SparkConf().setAppName("sparkstreaming_kafka2es").setMaster("local[2]");

        JavaSparkContext jsc = new JavaSparkContext(sparkConf);

        jsc.setLogLevel("WARN");

        JavaStreamingContext jss = new JavaStreamingContext(jsc, Durations.seconds(2L));

        Map<String, Object> kafkaParams = new HashMap<>();

        kafkaParams.put("bootstrap.servers","quyf:9092");

        kafkaParams.put("key.deserializer", StringDeserializer.class);

        kafkaParams.put("value.deserializer", StringDeserializer.class);

        kafkaParams.put("group.id", "test_20190815");

        kafkaParams.put("auto.offset.reset", "latest");

        kafkaParams.put("enable.auto.commit", true);

        List<String> topicList = Arrays.asList("test","test2");

        JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils.createDirectStream(jss,

                LocationStrategies.PreferConsistent(),

                ConsumerStrategies.Subscribe(topicList, kafkaParams)

        );

        JavaDStream<HashMap<String, String>> recordDS = stream.map(new Function<ConsumerRecord<String, String>, HashMap<String, String>>() {

            @Override

            public HashMap<String, String> call(ConsumerRecord<String, String> record) throws Exception {

                //System.out.println("consumer==>"+record.value());

                return JSON.parseObject(record.value(), HashMap.class);

            }

        });

        for (String type : dataTypes) {

            recordDS.filter(new Function<HashMap<String, String>, Boolean>() {

                @Override

                public Boolean call(HashMap<String, String> resultMap) throws Exception {

                    return resultMap.get("table").equals(type);

                }

            }).foreachRDD(new VoidFunction<JavaRDD<HashMap<String, String>>>() {

                @Override

                public void call(JavaRDD<HashMap<String, String>> mapJavaRDD) throws Exception {

                   mapJavaRDD.foreach(new VoidFunction<HashMap<String, String>>() {

                       @Override

                       public void call(HashMap<String, String> stringStringHashMap) throws Exception {

                           System.out.println(stringStringHashMap.toString());

                       }

                   });

                }

            });

        }

        jss.start();

        jss.awaitTermination();

    }

}

public class GenKafkaData {

    public static void main(String[] args) throws Exception {

        List<String> lines = IOUtils.readLines(new FileReader(

                new File("E:\\wechat\\wechat_source1_1111153.txt")));

        Producer<String, String> producer = getProducer();

        ArrayList<String> columns = DataTypeProperties.dataTypeMap.get("wechat");

        Map<String, String> dataMap = new HashMap<>();

        dataMap.put("table","wechat");

        for(String line : lines){

            String[] fields = line.split("\t");

            for (int i = 0; i < fields.length; i++) {

                dataMap.put(columns.get(i), fields[i]);

            }

            int index = 0;

            while(true){

                String lineRecord = JSON.toJSONString(dataMap);

                producer.send(new ProducerRecord<>("test2",null, lineRecord));

                Thread.sleep(1000);

                index++;

                System.out.println("send->"+lineRecord);

                if(index==10){

                    break;

                }

            }

            //System.out.println("send->"+lineRecord);

            //StringProducer.producer("test", lineRecord);

        }

    }

    public static Producer<String, String> getProducer(){

        Producer<String, String> producer =  new KafkaProducer<String, String>(createProducerProperties());

        return producer;

    }

    private static Properties createProducerProperties() {

        Properties props = new Properties();

//        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");

//        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        props.put("key.serializer", StringSerializer.class);

        props.put("value.serializer", StringSerializer.class);

        props.put("bootstrap.servers", "quyf:9092");

        props.put("linger.ms",1);

        props.put("acks", "all");

        // 消息发送最大尝试次数

        props.put("retries", 0);

        // 一批消息处理大小

        props.put("batch.size", 16384);

        // 增加服务端请求延时

        props.put("linger.ms", 1);

        // 发送缓存区内存大小

        props.put("buffer.memory", 33554432);

        return props;

    }

}

kafka生产消息，streaming消费的更多相关文章

kafka生产消息的速度跟什么有关？
kafka的吞吐量很大,在保证带宽的情况下,网上的一些测试表明3台broker,没有replication,6个partition的情况下,一般的写入速度可以达到300MB/s.参考:kakfa测试 ...
kafka生产者与消费者的生产消息与消费消息所遇到的问题
当我们用API写kafka的时候生产者生产消息,但是消费者接收不到消息?集群上启动消费者显示生产的消息.我们需要修改一下配置 (1)我们打开在虚拟机中修改kafka集群的配置文件 [root@spa ...
kafka 保证消息被消费和消息只消费一次
1. 保证消息被消费即使消息发送到了消息队列,消息也不会万无一失,还是会面临丢失的风险. 我们以 Kafka 为例,消息在Kafka 中是存储在本地磁盘上的, 为了减少消息存储对磁盘的随机 I/O, ...
用canal同步binlog到kafka，spark streaming消费kafka topic乱码问题
canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有kafka和RocketMQ. 在投递的时候我们使用的是非压平的消 ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
kafka生产消费原理笔记
一.什么是kafka Kafka是最初由Linkedin公司开发,是一个分布式.支持分区的(partition).多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性 ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
Python 基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控
基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控 By: 授客 QQ:1033553122 1．测试环境 python 3.4 zookeeper- ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...

随机推荐

Python多线程与队列
Python多线程与Queue队列多线程在感官上类似于同时执行多个程序,虽然由于GIL的存在,在Python中无法实现线程的真正并行,但是对于某些场景,多线程仍不失为一个有效的处理方法: 1,不紧急的 ...
.Net Core 使用NPOI导入数据
一.搭建环境 1.新建ASP.NET Core Web 应用程序 2.选择API 3.引用Swashbuckle.AspNetCore NuGet 包进行安装. Swashbuckle.AspNetC ...
ubuntukylin16.04LTS（乌班图麒麟版长期支持版，并非银河麒麟）安装体验
最近,国产银河麒麟版在政府部门推广使用.我有幸接触了,感觉还是不错的.这次政府软件正版化整改中,也列入了windows和银河麒麟的选项.我想试安装一下,可是没找到.就近找了它的类似系统ubuntuky ...
React-基础总结
使用1. // js文件,第一部引入React(大写,不然保错) import React from 'react' // 创建数组 const arrList = Array.from({lengt ...
Nginx服务器安装及配置解释
nginx是高性能的轻量级web服务器. 特性: 1.http代理 2.反向代理 3.负载均衡 4.缓存机制一,安装及启动(centos7,nginx 1.14.0) 1.下载 wget http: ...
vue常用指令总结
一.vue指令官网解释指令 (Directives) 是带有 v- 前缀的特殊特性.指令特性的值预期是单个 JavaScript 表达式 (v-for 是例外情况).指令的职责是,当表达式的值改变 ...
微调(Fine-tune)原理
在自己的数据集上训练一个新的深度学习模型时,一般采取在预训练好的模型上进行微调的方法.什么是微调?这里已VGG16为例进行讲解,下面贴出VGGNet结构示意图. 上面圈出来的是VGG16示意图,也可以 ...
nslookup命令查找域名
了解 DNS 域名服务熟悉使用 nslookup 查找 DNS 服务器上登记的域名,记录几次查询的结果, 及服务器的 ip. 1. 某个子域下的一部分主机的名字- IP 地址对应关系,如 flame ...
Spring-boot(一)通过向导快速创建Spring-boot项目
通过向导快速创建Spring-boot项目创建步骤: 选择Spring Initializr 填写组织和模块名选择对应的模块注:这里左侧的模块比较多,玩家可以根据自己的实际需要自由选择,此处暂时 ...
异常：java.lang.RuntimeException: Canvas: trying to draw too large(161740800bytes) bitmap
现象今天做一个安卓项目的时候,我使用了10张图片,这10张图片都是放在了drawable目录下. 根据这个错误,我在网上寻找解决问题的方案,然后我放在了mipmap-xxhdpi下结果可以运行. 但 ...

kafka生产消息，streaming消费

kafka生产消息，streaming消费的更多相关文章

随机推荐

热门专题