Hadoop允许Elasticsearch在Spark中以两种方式使用：通过自2.1以来的原生RDD支持，或者通过自2.0以来的Map/Reduce桥接器。从5.0版本开始，elasticsearch-hadoop就支持Spark 2.0。目前spark支持的数据源有：

（1）文件系统：LocalFS、HDFS、Hive、text、parquet、orc、json、csv

（2）数据RDBMS：mysql、oracle、mssql

（3）NOSQL数据库：HBase、ES、Redis

（4）消息对象：Redis

elasticsearch相对hdfs来说，容易搭建、并且有可视化kibana支持，非常方便spark的初学入门，本文主要讲解用elasticsearch-spark的入门。

一、原生RDD支持

1.1 基础配置

1.2 读取es数据

这里用的是kibana提供的sample data里面的索引kibana_sample_data_ecommerce，也可以替换成自己的索引。

public static void main(String[] args) {

    SparkConf conf = getSparkConf();

    try (JavaSparkContext jsc = new JavaSparkContext(conf)) {

        JavaPairRDD<String, Map<String, Object>> esRDD =

                JavaEsSpark.esRDD(jsc, "kibana_sample_data_ecommerce");

        esRDD.collect().forEach(System.out::println);

    }

}

esRDD同时也支持query语句esRDD(final JavaSparkContext jsc, final String resource, final String query)，一般对es的查询都需要根据时间筛选一下，不过相对于es的官方sdk，并没有那么友好的api，只能直接使用原生的dsl语句。

1.3 写数据

支持序列化对象、json，并且能够使用占位符动态索引写入数据（使用较少），不过多介绍了。

public static void jsonWrite(){

    String json1 = "{\"reason\" : \"business\",\"airport\" : \"SFO\"}";

    String json2 = "{\"participants\" : 5,\"airport\" : \"OTP\"}";

    JavaRDD<String> stringRDD = jsc.parallelize(ImmutableList.of(json1, json2));

    JavaEsSpark.saveJsonToEs(stringRDD, "spark-json");

}

比较常用的读写也就这些，更多可以看下官网相关介绍。

二、Spark Streaming

spark的实时处理，es5.0的时候开始支持，Spark Streaming中的DStream编程接口是RDD，我们需要对RDD进行处理，处理起来较为费劲且不美观。

在spark streaming中，如果我们需要修改流程序的代码，在修改代码重新提交任务时，是不能从checkpoint中恢复数据的（程序就跑不起来），是因为spark不认识修改后的程序了。

public class EsSparkStreaming extends EsBaseConfig {

    public static void main(String[] args) throws StreamingQueryException, TimeoutException {

        SparkConf conf = getSparkConf();

        JavaSparkContext jsc = new JavaSparkContext(conf);

        JavaStreamingContext jssc = new JavaStreamingContext(jsc, Seconds.apply(1));

        Map<String, ?> numbers = ImmutableMap.of("one", 1, "two", 2);

        Map<String, ?> airports = ImmutableMap.of("OTP", "Otopeni", "SFO", "San Fran");

        JavaRDD<Map<String, ?>> javaRDD = jsc.parallelize(ImmutableList.of(numbers, airports));

        Queue<JavaRDD<Map<String, ?>>> microbatches = new LinkedList<>();

        microbatches.add(javaRDD);

        JavaDStream<Map<String, ?>> javaDStream = jssc.queueStream(microbatches);

        JavaEsSparkStreaming.saveToEs(javaDStream, "spark-streaming");

        jssc.start();

    }

}

这里没有执行awaitTermination，执行代码后没有卡住，即可在es上查看

三、Spark SQL

elasticsearch-hadoop也提供了spark sql的插件，换言之，elasticsearch变成了Spark SQL的原生数据源，可以通过Spark SQL显示调用，下面的例子将kibana_sample_data_ecommerce索引读取，然后转化成dataset，在用sql来统计出当前货币。

public class EsToMysqlDemo extends EsBaseConfig {

    public static void main(String[] args) {

        SparkConf conf = getSparkConf();

        try (JavaSparkContext jsc = new JavaSparkContext(conf)) {

            SparkSession sparkSession = SparkSession.builder()

                    .config(conf)

                    .getOrCreate();

            JavaRDD<Map<String, Object>> esRDD = JavaEsSpark.esRDD(jsc, "kibana_sample_data_ecommerce").values();

            JavaRDD<Row> map = esRDD.map(v -> {

                String currency = v.get("currency").toString();

                String customerFullName = v.get("customer_full_name").toString();

                String productsSku = v.getOrDefault("products", "").toString();

                return RowFactory.create(currency, customerFullName, productsSku);

            });

            Dataset<Row> dataset = sparkSession.createDataFrame(map, StructType.fromDDL("currency string,customer_full_name string,products string"));

            dataset.show(2);

            Dataset<Row> count = dataset.select("currency").groupBy("currency").count();

            count.show(2);

        }

    }

}

第一个show展示了当前的dataset，第二个show展示group by之后的结果。

四、Spark Structure Streaming

Structured Streaming使用DataFrame、DataSet的编程接口，处理数据时可以使用Spark SQL中提供的方法，数据的转换和输出会变得更加简单。

在structured streaming中，对于指定的代码修改操作，是不影响修改后从checkpoint中恢复数据的。具体可参见文档。下面这个例子是从控制台中读取数据，然后根据","切割，把第一个赋值给name，然后写入到es的spark-structured-streaming索引中去，启动程序前需要在控制台执行下命令：nc -lk 9999。

@Data

public static class PersonBean {

    private String name;

    private String surname;

}

public static void main(String[] args) throws StreamingQueryException {

    SparkConf sparkConf = getSparkConf();

    SparkSession spark = SparkSession.builder().config(sparkConf).getOrCreate();

    Dataset<Row> lines = spark.readStream().format("socket").option("host", "localhost").option("port", 9999).load();

    Dataset<PersonBean> people = lines.as(Encoders.STRING())

            .map((MapFunction<String, PersonBean>) value -> {

                String[] split = value.split(",");

                PersonBean personBean = new PersonBean();

                personBean.setName(split[0]);

                return personBean;

            }, Encoders.bean(PersonBean.class));

    StreamingQuery es = people.writeStream().option("checkpointLocation", "./location")

            .format("es").start("spark-structured-streaming");

    es.awaitTermination();

}

checkpointLocation是用来设置检查点，里面会存储一些commits、offsets、sinks、metadata的信息。

执行完nc -lk 9999后，在控制台随便输入，即可在es中查看响应的结果。

参考：

1.Apache Spark support

2.elasticsearch-hadoop

3.使用SparkSQL操作Elasticsearch - Spark入门教程

4.Spark——Spark Streaming 对比 Structured Streaming

elasticsearch-spark的用法的更多相关文章

elasticsearch+spark+hbase 整合
1.用到的maven依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>sp ...
ElasticSearch的基本用法与集群搭建
一.简介 ElasticSearch和Solr都是基于Lucene的搜索引擎,不过ElasticSearch天生支持分布式,而Solr是4.0版本后的SolrCloud才是分布式版本,Solr的分布式 ...
Elasticsearch批量操作API用法介绍
Elasticsearch的Bulk API允许批量提交index和delete请求,有如下两种用法: 用法1 BulkRequestBuilder requestBuilder = client.p ...
ElasticSearch的基本用法与集群搭建 good
一.简介 ElasticSearch和Solr都是基于Lucene的搜索引擎,不过ElasticSearch天生支持分布式,而Solr是4.0版本后的SolrCloud才是分布式版本,Solr的分布式 ...
中间件：ElasticSearch组件RestHighLevelClient用法详解
本文源码:GitHub·点这里 || GitEE·点这里一.基础API简介 1.RestHighLevelClient RestHighLevelClient的API作为ElasticSearch备 ...
elasticsearch的基本用法
开始学习使用 elasticsearch, 把步骤记录在这里: 最大的特点: 1. 数据库的 database, 就是 index 2. 数据库的 table, 就是 tag 3. 不要使用bro ...
elasticsearch的基本用法(转载)
本文出自:http://blog.csdn.net/feelig/article/details/8499614 最大的特点: 1. 数据库的 database, 就是 index 2. 数据库 ...
elasticsearch 映射 dynamic用法
Spark读取elasticsearch数据指南
最近要在 Spark job 中通过 Spark SQL 的方式读取 Elasticsearch 数据,踩了一些坑,总结于此. 环境说明 Spark job 的编写语言为 Scala,scala-li ...
使用spark与ElasticSearch交互
使用 elasticsearch-hadoop 包,可在 github 中搜索到该项目项目地址 example import org.elasticsearch.spark._ import org ...

随机推荐

JavaScript读取剪贴板中的表格生成图片
原文 JavaScript读取剪贴板中的表格生成图片演示地址你可以访问下面的地址体验每个demo https://fairyever.github.io/excel-to-image-demo/ ...
使用自定义的鼠标图标 --- cursor url
前段时间在项目中遇到过自定义鼠标图标这一需求.由于一般我们用的鼠标样式大都是固定的几种,而自定义鼠标图标不是很常用到,所以对这一小知识点进行总结,以防忘记. 自定义鼠标图标自定义鼠标图标即 ...
ES6-11学习笔记--数组遍历
ES5中数组遍历方式: for循环 forEach():没有返回值,只是针对每个元素调用func map():返回新的Array,每个元素为调用func的结果 filter():返回符合func条件的 ...
tf.test.is_gpu_available() 返回结果为False解决办法
安装完gpu版本的tensorflow,导入正常,但是tf.test.is_gpu_available()一直返回False,解决办法: 1.打开NVIDIA控制面板,查看CUDA的驱动版本,如果版本 ...
IO流入门
@ 目录总结内容 1. IO流是什么 2. 字符流和字节流 3. File常用API(前面类型为返回类型) 4. 编码转换 5. IO流实现流程 6. 输入输出流简单实现 7. 输入输出流简单实现 ...
EMS设置发送连接器和接收连接器邮件大小
任务:通过EMS命令设置发送接收连接器和接收连接器的邮件大小限制值为50MB. 以Exchange管理员身份打开EMS控制台.在PowerShell命令提示符下. 键入以下命令设置接收-连接器的最大邮 ...
JS核心知识点梳理——闭包
闭包闭包这个东西咋说呢,不同的程序员,不同的资料都有不同的解释,你可以把它理解成一个函数,也可以把它理解函数+执行环境. 我们这里不纠结闭包的定义,而是关注闭包的现象,应用,再结合相关面试题去攻克它 ...
手撕spring核心源码，彻底搞懂spring流程
引子十几年前,刚工作不久的程序员还能过着很轻松的日子.记得那时候公司里有些开发和测试的女孩子,经常有问题解决不了的,不管什么领域的问题找到我,我都能帮她们解决.但是那时候我没有主动学习技术的意识,只 ...
Visual Studio 2022 git error Unable to negotiate with xx.xxx.xxxx port 22: no matching host key type found. Their offer: ssh-rsa
前言前两天因为升级了Git导致git提交拉取的时候都提示下面这个异常,然后经过一番折腾以后终于把这个问题解决了.但是今天我升级了下Visual Studio 2022将其升级到了17.1.3版本然后 ...
numpy教程02---ndarray数据和reshape重塑
欢迎关注公众号[Python开发实战], 获取更多内容! 工具-numpy numpy是使用Python进行数据科学的基础库.numpy以一个强大的N维数组对象为中心,它还包含有用的线性代数,傅里叶变 ...

elasticsearch-spark的用法