不使用es-hadoop的saveToES,与scala版本冲突问题太多。
不使用bulkprocessor,异步提交,es容易oom,速度反而不快。
使用BulkRequestBuilder同步提交。

主要代码

public static void main(String[] args){
System.setProperty("hadoop.home.dir", "D:\\hadoop");
System.setProperty("es.set.netty.runtime.available.processors", "false");
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("SendRecord");
conf.set("spark.streaming.backpressure.enabled", "true");
conf.set("spark.streaming.receiver.maxRate", "1000");
conf.set("spark.streaming.kafka.maxRatePerPartition", "1000");
conf.set("es.nodes", "eshost");
conf.set("es.port", "9200");
JavaStreamingContext ssc = new JavaStreamingContext(conf, Durations.seconds(2)); Map<String, Object> kafkaParams = new HashMap<>();
kafkaParams.put("bootstrap.servers", "kafkahost:9092");
kafkaParams.put("key.deserializer", StringDeserializer.class);
kafkaParams.put("value.deserializer", StringDeserializer.class);
kafkaParams.put("group.id", "sparkGroup4");
kafkaParams.put("auto.offset.reset", "latest");
kafkaParams.put("enable.auto.commit", false); Collection<String> topics = Arrays.asList("users");
JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils.createDirectStream
(ssc, LocationStrategies.PreferConsistent(), ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams)); JavaDStream<User> kafkaDStream = stream.map(new Function<ConsumerRecord<String, String>, User>() {
@Override
public User call(ConsumerRecord<String, String> record) throws Exception {
Gson gson = new Gson();
return gson.fromJson(record.value(), User.class);
}
}); kafkaDStream.foreachRDD(new VoidFunction<JavaRDD<User>>() {
@Override
public void call(JavaRDD<User> userJavaRDD) throws Exception {
userJavaRDD.foreachPartition(new VoidFunction<Iterator<User>>() {
@Override
public void call(Iterator<User> userIterator) throws Exception {
TransportClient client = ESClient.getClient();
BulkRequestBuilder bulkRequestBuilder = client.prepareBulk();
Map<String, Object> map = new HashMap<>();
while(userIterator.hasNext()){
User user = userIterator.next();
map.put("name", user.getName());
map.put("age", user.getAge());
map.put("desc", user.getDescription());
IndexRequest request = client.prepareIndex("users", "info").setSource(map).request();
bulkRequestBuilder.add(request);
}
if(bulkRequestBuilder.numberOfActions() > 0){
BulkResponse bulkItemResponses = bulkRequestBuilder.execute().actionGet();
}
}
});
}
});
ssc.start(); try {
// Wait for the computation to terminate.
ssc.awaitTermination();
} catch (InterruptedException e) {
e.printStackTrace();
}
}

  

ESClient:

public class ESClient {
public static TransportClient getClient(){
return Holder.client;
} private static class Holder{
private static TransportClient client;
static{
try {
Settings setting = Settings.builder()
.put("cluster.name", "es")
.put("client.transport.sniff", false)
.put("client.transport.ping_timeout", "60s")
.put("client.transport.nodes_sampler_interval", "60s")
.build();
client = new PreBuiltTransportClient(setting);
client.addTransportAddress(new TransportAddress(new InetSocketAddress("eshost",9300)));
} catch (Exception e) {
System.out.println(e.getMessage());
}
}
}
}

  

sparkstreaming消费kafka后bulk到es的更多相关文章

  1. SparkStreaming消费kafka中数据的方式

    有两种:Direct直连方式.Receiver方式 1.Receiver方式: 使用kafka高层次的consumer API来实现,receiver从kafka中获取的数据都保存在spark exc ...

  2. SparkStreaming消费Kafka,手动维护Offset到Mysql

    目录 说明 整体逻辑 offset建表语句 代码实现 说明 当前处理只实现手动维护offset到mysql,只能保证数据不丢失,可能会重复 要想实现精准一次性,还需要将数据提交和offset提交维护在 ...

  3. spark-streaming集成Kafka处理实时数据

    在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟 我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...

  4. Spark streaming消费Kafka的正确姿势

    前言 在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...

  5. [Golang] 消费Kafka的日志提交到ElasticSearch

    0x0 需求 消费Kafka的日志并写入ElasticSearch供查询 0x1 依赖库 golang版Kafka客户端 https://github.com/Shopify/sarama golan ...

  6. SparkStreaming获取kafka数据的两种方式:Receiver与Direct

    简介: Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以简单理解成: Receiver方式是通过zookeeper来连接kafka队列, Dire ...

  7. 【Spark】SparkStreaming和Kafka的整合

    文章目录 Streaming和Kafka整合 概述 使用0.8版本下Receiver DStream接收数据进行消费 步骤 一.启动Kafka集群 二.创建maven工程,导入jar包 三.创建一个k ...

  8. 图解SparkStreaming与Kafka的整合,这些细节大家要注意!

    前言 老刘是一名即将找工作的研二学生,写博客一方面是复习总结大数据开发的知识点,一方面是希望帮助更多自学的小伙伴.由于老刘是自学大数据开发,肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! ...

  9. SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once

    在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...

随机推荐

  1. 5分钟了解为什么学习Go

    1.什么是Go语言? Google开源 编译型语言 21世纪的C语言(主流编程语言都是单线程环境下发布的) 2.Go语言的特点? 简单易学习(类似python学习难度,自带格式化) 开发效率高 执行性 ...

  2. Java一行代码可声明多个同类变量

    Java支持一句语句声明多个同类变量. Example: String a = "Hello", c = "hello"; int x = 5, y = 5;

  3. springboot2动态数据源的绑定

    由于springboot2更新了绑定参数的api,部分springboot1用于绑定的工具类如RelaxedPropertyResolver已经无法在新版本中使用.本文实现参考了https://blo ...

  4. Java开发中RMI和webservice区别和应用领域

    Java开发中RMI和webservice区别和应用领域 一.RMI和webservice区别和联系 0. 首先,都是远程调用技术. 1. RMI是在TCP协议上传递可序列化的java对象(使用Str ...

  5. H3C PPP MP配置示例一

  6. 限制允许某些IP访问服务器

    买了台阿里云服务器,部署了一些东西在上面,但是最近老是发现有异常登录,而且不仅仅是登录就完事了,还把服务器上一些重要的项目数据文件都给删除了,由于本人不是专业的运维人员,单位也没有运维人员,百度了一下 ...

  7. centos linux mysql 10060远程错误代码

    Navicat for MySQL远程连接数据错误代码10060 1.登陆远程linux服务器命令界面 vim /etc/sysconfig/iptables  进入防火墙配置修改 增加以下两条防火墙 ...

  8. 在Vue 中调用数据出现属性不存在的问题

    这已经是我在调用数据时趟过几次的坑了,索性记录下来防止后面再犯: 一般我们请求数据来渲染一个页面的时候,请求下来的数据基本上都是数组或是对象,再通过列表循环和插值表达式渲染的页面:在data 中提前声 ...

  9. 如何理解springMVC?

    springMVC 工作原理? 简单理解:客户端发送请求-->前端控制器接受客户端的请求DispathServelt-->找到处理器映射HandMapping-->找到处理器hand ...

  10. vue 实例未加载完成显示 花括号解决方案

    css [v - cloak] { display: none!important; } html < div id = "app" v-cloak >