Spark 推送数据至 elasticsearch

1.工程依赖

 <properties>

     <spark_version>2.3.1</spark_version>

     <!-- elasticsearch-->

     <elasticsearch.version>5.5.2</elasticsearch.version>

     <fastjson.version>1.2.28</fastjson.version>

     <elasticsearch-hadoop.version>6.3.2</elasticsearch-hadoop.version>

     <elasticsearch-spark.version>5.5.2</elasticsearch-spark.version>

 </properties>

 <dependencies>

     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-core_2.11</artifactId>

         <version>${spark_version}</version>

     </dependency>

     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-sql_2.11</artifactId>

         <version>${spark_version}</version>

     </dependency>

     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-yarn -->

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-yarn_2.11</artifactId>

         <version>${spark_version}</version>

     </dependency>

     <dependency>

         <groupId>org.elasticsearch</groupId>

         <artifactId>elasticsearch-spark-20_2.11</artifactId>

         <version>${elasticsearch-spark.version}</version>

     </dependency>

     <dependency>

         <groupId>mysql</groupId>

         <artifactId>mysql-connector-java</artifactId>

         <version>5.1.46</version>

     </dependency>

 </dependencies>

2.spark读取hadoop hdfs数据，并推送至elasticsearch

 public class PushWordCombination {

     private static PinyinTool tool = new PinyinTool();

     public static void pushDataByLen(SparkContext sc, SparkSession sparkSession, String goodsCategory, Integer len) {

         Dataset<Row> goodsDF1 = sparkSession.read().format("json").json(String.format("/data/app/%s/combination%d.json", goodsCategory, len));

         if (goodsDF1.count() == 0) {

             return;

         }

         sparkSession.udf().register("pinYin", (String s) -> tool.toPinYin(s, "", PinyinTool.Type.LOWERCASE), DataTypes.StringType);

         Encoder<RDDKeyByCounts> nameKeyEncoder = Encoders.bean(RDDKeyByCounts.class);

         Dataset<RDDKeyByCounts> dataset = goodsDF1.selectExpr("name as name", "counts as counts", String.format("%d as goodsCategory", 0),

                 String.format("%d as nameLen", len), "pinYin(name) as pinYin").as(nameKeyEncoder);

         JavaEsSpark.saveToEs(dataset.javaRDD(),"goods-category/category", ImmutableMap.of("es.mapping.id", "name"));

     }

     public static void main(String[] args) {

         //自定义比较器

         SparkConf conf = new SparkConf().setAppName("my-app").

                 set("es.nodes", ESProperties.IP).

                 set("es.port",ESProperties.PORT).

                 set("pushdown",ESProperties.PUSH_DOWN).

                 set("es.index.auto.create",ESProperties.INDEX_AUTO_CREATE).

                 set("es.nodes.wan.only","true").//在这种模式下，连接器禁用发现，并且只在所有操作中通过声明的ESE节点连接，包括读和写

                 set("es.net.http.auth.user",ESProperties.SECURITY_USER).

                 set("es.net.http.auth.pass",ESProperties.SECURITY_PWD);

         SparkContext sc = new SparkContext(conf);

         SparkSession sparkSession = new SparkSession(sc);

         for (int j = 2; j <= 4; j++) {

             pushDataByLen(sc, sparkSession, "all", j);

         }

         sparkSession.stop();

     }

 }

Spark 推送数据至 elasticsearch的更多相关文章

Flume推送数据到SparkStreaming案例实战和内幕源码解密
本期内容: 1. Flume on HDFS案例回顾 2. Flume推送数据到Spark Streaming实战 3. 原理绘图剖析 1. Flume on HDFS案例回顾上节课要求大家自己安装 ...
hive向es推送数据
第一步:首先要保证网络是通的,很多公司里子网遍布,要和运维和工程侧同事确认好网络是通的,es的地址可以通过curl es地址的方式测试一下. 第二步:下载需要的jar包,必须的是es-hadoop的包 ...
SQL Server 2000向SQL Server 2008 R2推送数据
[文章摘要]最近做的一个项目要获取存在于其他服务器的一些数据,为了安全起见,采用由其他“服务器”向我们服务器推送的方式实现.我们服务器使用的是SQL Server 2008 R2,其他“服务器”使用的 ...
WebService推送数据，数据结构应该怎样定义？
存放在Session有一些弊端,不能实时更新.server压力增大等... 要求:将从BO拿回来的数据存放在UI Cache里面,数据库更新了就通过RemoveCallback "告诉&qu ...
java接口对接——调用别人接口推送数据
实际开发中经常会遇到要和其他平台或系统对接的情况,实际操作就是互相调用别人的接口获取或者推送数据, 当我们调用别人接口推送数据时,需要对方给一个接口地址以及接口的规范文档,规范中要包括接口的明确入参及 ...
SuperSocket主动从服务器端推送数据到客户端
关键字: 主动推送, 推送数据, 客户端推送, 获取Session, 发送数据, 回话快照通过Session对象发送数据到客户端前面已经说过,AppSession 代表了一个逻辑的 socke ...
httpclient post推送数据
客户端代码 /** * 从接口获取数据 * @param url 服务器接口地址 * @param json 传入的参数若获取全部,此项为空 * @return 返回查询到的数据 * @throws ...
Asp.net Core3.1+Vue 使用SignalR推送数据
本文就简单使用往前端页面推送消息 SignalR 是什么 SignalR是一个.NET Core/.NET Framework的开源实时框架. SignalR的可使用Web Socket, Serv ...
使用SignalR ASP.NET Core来简单实现一个后台实时推送数据给Echarts展示图表的功能
什么是 SignalR ASP.NET Core ASP.NET Core SignalR 是一种开放源代码库,可简化将实时 web 功能添加到应用程序的功能. 实时 web 功能使服务器端代码可以立 ...

随机推荐

python 动态导入模块、断言
断言: 类似与判断,后面的程序依赖前面的,可以加一个断言,断言成功继续执行.断言失败报错停止执行. a = 'abc' assert type(a) is str print('yes') asser ...
supervisor运行virtualenv环境下的nagios-api
supervisord-example.conf [unix_http_server] file=/tmp/supervisor.sock ; path to your socket file [su ...
windows 服务器时间同步失败处理方法
服务器的时间同步失败,通过命令行的形式进行处理. 1.编写时间命令行代码 w32tm /config /manualpeerlist:time.windows.com /syncfromflags:M ...
屏幕　　z
private void FullScreen() //全屏 { SizeMode = 2; FormBorderStyle = FormBo ...
摩拜ofo挥师三四线市场第二梯队面临"团灭"危机
共享单车领域,在一二线主要城市的大规模扩张时期结束,行业内头部企业目标向三四线市场的转移挤压了当地共享单车企业的生存空间,第二梯队的创业公司正面临被“杀死”的危机.上海有多少辆共享单车?答案是150万 ...
set 和select 的区别
简单赋值是没有区别的
【转】Spring boot 打成jar包问题总结
http://www.cnblogs.com/xingzc/p/5972488.html 1.Unable to find a single main class from the following ...
【luogu P4113 [HEOI2012]采花】假题解
题目链接:https://www.luogu.org/problemnew/show/P4113 为什么要卡莫队!为什么加强的这么毒瘤! 莫队可以拿100分剩下三个点没治了 // luogu-judg ...
Android学习笔记_42_各种图形的炫酷效果的实现和使用
一.文档位置: 这里在android中的图形,在帮助文档的这个页面, android-sdk-windows\docs\guide\topics\resources\drawable-resourc ...
Android学习笔记_34_自定义窗口标题
1.建好项目之后在它的layout文件夹下创建一个title.xml文件,作为自定义窗口标题的文件. <?xml version="1.0" encoding="u ...

Spark 推送数据至 elasticsearch

Spark 推送数据至 elasticsearch的更多相关文章

随机推荐

热门专题