Spark搭档Elasticsearch

Spark与elasticsearch结合使用是一种常用的场景，小编在这里整理了一些Spark与ES结合使用的方法。
一、 write data to elasticsearch
利用elasticsearch Hadoop可以将任何的RDD保存到Elasticsearch，不过有个前提其内容可以翻译成文件。这意味着RDD需要一个Map/JavaBean/Scala case class
Scala
在Scala中只需要以下几步：

Spark Scala imports
Elasticsearch-hadoop Scala imports
Start Spark through its Scala API
makeRDD
index content(内容索引) index ES under spark/docs
下面是一个例子：

Scala用户可能会使用SEQ和→符号声明根对象（即JSON文件）而不是使用Map。而类似的，第一个符号的结果略有不同，不能相匹配的一个JSON文件：序列是一阶序列（换句话说，一个列表），←会创建一个Tuple(元组)，或多或少是一个有序的，元素的定数。例如，一个列表的列表不能作为一个文件，因为它不能被映射到一个JSON对象；但是它可以在一个自由的使用。因此在上面的例子Map（K→V）代替SEQ（K→V）
作为一种替代上面的隐式导入，elasticsearch-hadoop支持spark的Scala用户通过org.elasticsearch.spark.rdd包作为实用类允许显式方法调用EsSpark。此外，而不是地图（这是方便，但需要一个映射，每个实例，由于它们的结构的差异），使用一个case class：

EsSpark importrs
定义一个Case class名叫Trip
利用Trip实例创建一个RDD
明确RDD的index通过EsSpark

例子：

对于指定documents的id(或者其他类似于TTL或时间戳的元数据),可以设置名字为es.mapping.id的映射。下面以前的实例，Elasticsearch利用filed的id作为documents的id.更新RDD的配置configuration(也可以在SparkConf上设置全局的属性，不建议这样做)

Writing existing to Elasticsearch
如果Rdd的数据已经在Json中，elasticsearch-hadoop允许直接索引而不需要任何转换，数据直接发送到Elasticsearch.这时候elasticsearch-hadoop希望RDD包含字符或者字节数组(string[]/byte[]),假设每个条目代表一个JSON文档。如果RDD没有正确的签名，这savejsontoes方法无法应用（在Scala中他们将不可用）。

Writing to dynamic/multi-resources
当被写入ES的数据需要索引不同的buckets,可以利用es.resource.write,下面media的例子配置如下：

用于拆分数据的文档。任何字段都可以被声明（但要确保它在所有的文件中都是可用的）
保存每个对象根据其资源的模式，在这个例子的基础上media_type
每个文档或者对象被写入，Elasticsearch Hadoop将提取media_type字段，使用它的值来确定目标资源。

Handling document metadata
Elasticsearch允许每个文档有自己的元数据(metadata)，正如上面所解释的，通过各种映射选项可以自定义这些参数，以便他们的值是从他们的归属文档中提取。我们甚至可以包括/排除哪些部分数据被备份到Elasticsearch，在Spark中，Elasticsearch Hadoop扩展此功能允许将元数据提供的外部文档本身给pair RDDS用。另一方面，对于包含key-value元组的RDDS,metadata可以从作为文档源的key-value中提取。

当有更多的Id需要被指定时，可以使用scala.collection.Map来接收 org.elasticsearch.spark.rdd.Metadata的key的类型：

当有更多的Id需要被指定时，可以使用ava.util.Map来接收 org.elasticsearch.spark.rdd.Metadata的key的类型：

二、 Reading data from elasticsearch
读数据需要定义一个EsRDD，将数据流从ES读到Spark

该方法可以被重载来指定一个额外的查询或配置图（overriding sparkconf）：

从Elasticsearch返回的文件，默认情况下，作为一个tuple2，包含第一个元素是文档ID和第二个元素实际文件通过Scala集合来表示，名字类似于Map[Sting,Any]，其中key是字段名称和value是各自的值。

elasticsearch-hadoop自动转换spark内置类型作为Elasticsearch类型，如下表：

SaprkSQL on support
直接看下面的例子：

Spark搭档Elasticsearch的更多相关文章

使用spark访问elasticsearch的数据
使用spark访问elasticsearch的数据,前提是spark能访问hive,hive能访问es http://blog.csdn.net/ggz631047367/article/detail ...
Spark 整合ElasticSearch
Spark 整合ElasticSearch 因为做资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例. ...
数据湖应用解析：Spark on Elasticsearch一致性问题
摘要:脏数据对数据计算的正确性带来了很严重的影响.因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性. 概述 Spark与Elasticsearch(es ...
spark操作elasticsearch数据的限制
对于复杂的数据类型,比如IP和GeoPoint,只是在elasticsearch中有效,用spark读取时会转换成常用的String类型. Geo types. It is worth mention ...
使用spark与ElasticSearch交互
使用 elasticsearch-hadoop 包,可在 github 中搜索到该项目项目地址 example import org.elasticsearch.spark._ import org ...
spark对elasticsearch增删查改
增新建一个 dataframe ,插入到索引 _index/_type ,直接调用 saveToEs ,让 _id 为自己设定的 id: import org.elasticsearch.spark ...
spark 集成elasticsearch
pyspark读写elasticsearch依赖elasticsearch-hadoop包,需要首先在这里下载,版本号可以通过自行修改url解决. """ write d ...
用 Spark 为 Elasticsearch 导入搜索数据
越来越健忘了,得记录下自己的操作才行! ES和spark版本: spark-1.6.0-bin-hadoop2.6 Elasticsearch for Apache Hadoop 2.1.2 如果是其 ...
分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)
热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. ...

随机推荐

ROS indigo安装完成后运行小乌龟示例程序
安装ROS成功后,在Beginner Tutorials中有一个简单的示例程序. 在Terminal中运行以下命令:$ roscore新开一个terminal,运行以下命令,打开小乌龟窗口:$ ros ...
【洛谷P1850】换教室[2016NOIP提高组]
换教室期望DP 状态: f[i][j][0/1]表示前i节课提交j个申请第i个教室不申请/申请(为了确定当前教室,方便转移) 的最小期望方程: f[i][j][0]=min(f[i-1][j] ...
Redis分布式锁的正确实现方式（Java版）
前言分布式锁一般有三种实现方式:1. 数据库乐观锁:2. 基于Redis的分布式锁:3. 基于ZooKeeper的分布式锁.本篇博客将介绍第二种方式,基于Redis实现分布式锁.虽然网上已经有各种介 ...
使用第三方《UITableView+FDTemplateLayoutCell》自动计算UITableViewCell高度（Masonry约束）
直接上代码: 1:先自定义cell .h文件中 #import <UIKit/UIKit.h> #import "LBDNewMsgListModel.h" #impo ...
c# 分布式系统开发
开篇吹牛,吹大牛了各位. 接连几篇博文,已经将了我们系统常用的东西,主要针对服务端,非桌面系统. 聊了这么久了,最后将这所有内容打包,完成一个系统.可能称为组件才合适,因为我没有提供启动程序. 每一个 ...
vue.esm.js:578 [Vue warn]: Missing required prop
问题: 解决: required: true,属性是,这个必须填写
使用Python对MySQL数据库操作
本文介绍Python3使用PyMySQL连接数据库,并实现简单的增删改查. 什么是PyMySQL? PyMySQL是Python3.x版本中用于连接MySQL服务器的一个库,Python2.x中则使用 ...
CentOS 手动配置本地yum源(参考CentOS7 制作 CentOS6本地yum源)
将原有/etc/yum.repos.d/目录下的文件名全部改为(*.bak),如(红色标记) [root@localhost ~]# cd /etc/yum.repos.d/ [root@localh ...
JS学习- ES6 async await使用
async 函数是什么?一句话,它就是 Generator 函数的语法糖. 使用场景常常会遇到,请求完一个接口,拿完值再去请求另外一个接口,我们之前回调callback函数处理,如果很多的情况下,看起 ...
01-HTML深入
1.1 浏览器的工作原理把一些标签解析成用户可视化的页面 1.2 HTML中的标签与元素在HTML中以<xx>开始,以</xx>结束,比如<html>< ...

Spark搭档Elasticsearch

Spark搭档Elasticsearch的更多相关文章

随机推荐

热门专题