spark 怎么读写 elasticsearch

参考文章：

https://www.bmc.com/blogs/spark-elasticsearch-hadoop/
https://blog.pythian.com/updating-elasticsearch-indexes-spark/
https://qbox.io/blog/elasticsearch-in-apache-spark-python 这里有 RDD level 的写法，有些操作比如count, aggregation 在 DataFrame/DataSet level 不支持pushdown, 所有需要用到RDD level 的写法

Pre-requisite:

先装上 elasticsearch-hadoop 包

Step-by-Step guide

1. 先在ES创建3个document

[mshuai@node1 ~]$ curl -XPUT --header 'Content-Type: application/json' http://your_ip:your_port/school/doc/1 -d '{

   "school" : "Clemson"

}'

[mshuai@node1 ~]$ curl -XPUT --header 'Content-Type: application/json' http://your_ip:your_port/school/doc/2 -d '{

   "school" : "Harvard"
}'

2. Spark 里面去读，这里是pyspark 代码

reader = spark.read.format("org.elasticsearch.spark.sql").option("es.read.metadata", "true").option("es.nodes.wan.only","true").option("es.port","your_port").option("es.net.ssl","false").option("es.nodes", "your_ip")

df = reader.load("school")

df.show()

输出这个格式的信息

3. 接下来尝试update 一个记录，先得到一个要改的id

hot = df.filter(df["school"] == 'Harvard') \

        .select(expr("_metadata._id as id")).withColumn('hot', lit(True))

hot.show()

4. 先来加一列

esconf={}

esconf["es.mapping.id"] = "id"

esconf["es.mapping.exclude"]='id'

esconf["es.nodes"] = "your_ip"

esconf["es.port"] = "your_port"

esconf["es.write.operation"] = "update"

esconf["es.nodes.discovery"] = "false"

esconf["es.nodes.wan.only"] = "true"

hot.write.format("org.elasticsearch.spark.sql").options(**esconf).mode("append").save("school/doc")

看，成功加了 hot 列，满足条件的记录赋了对应的值

5. 又来update已经存在的信息

esconf={}

esconf["es.mapping.id"] = "id"

esconf["es.nodes"] = "your_ip"

esconf["es.port"] = "your_port"

esconf["es.update.script.inline"] = "ctx._source.school = params.school"

esconf["es.update.script.params"] = "school:<SCU>"

esconf["es.write.operation"] = "update"

esconf["es.nodes.discovery"] = "false"

esconf["es.nodes.wan.only"] = "true"

hot.write.format("org.elasticsearch.spark.sql").options(**esconf).mode("append").save("school/doc")

reader.load("school").show()

嗯。。。成功把Harvard改成了川大

另外，怎么upload attachment 到ES呢？可以用这个plugin Ingest Attachment Processor Plugin

END

spark 怎么读写 elasticsearch的更多相关文章

如何在spark中读写cassandra数据 ---- 分布式计算框架spark学习之六
由于预处理的数据都存储在cassandra里面,所以想要用spark进行数据分析的话,需要读取cassandra数据,并把分析结果也一并存回到cassandra:因此需要研究一下spark如何读写ca ...
【原创】大叔经验分享（26）hive通过外部表读写elasticsearch数据
hive通过外部表读写elasticsearch数据,和读写hbase数据差不多,差别是需要下载elasticsearch-hadoop-hive-6.6.2.jar,然后使用其中的EsStorage ...
spark DataFrame 读写和保存数据
一.读写Parquet(DataFrame) Spark SQL可以支持Parquet.JSON.Hive等数据源,并且可以通过JDBC连接外部数据源.前面的介绍中,我们已经涉及到了JSON.文本格式 ...
spark block读写流程分析
之前分析了spark任务提交以及计算的流程,本文将分析在计算过程中数据的读写过程.我们知道:spark抽象出了RDD,在物理上RDD通常由多个Partition组成,一个partition对应一个bl ...
6.3 使用Spark SQL读写数据库
Spark SQL可以支持Parquet.JSON.Hive等数据源,并且可以通过JDBC连接外部数据源一.通过JDBC连接数据库 1.准备工作 ubuntu安装mysql教程在Linux中启动M ...
kafka spark steam 写入elasticsearch的部分问题
应用版本 elasticsearch 5.5 spark 2.2.0 hadoop 2.7 依赖包版本 docker cp /Users/cclient/.ivy2/cache/org.elastic ...
Spark SQL读写方法
一.DataFrame:有列名的RDD 首先,我们知道SparkSQL的目的是用sql语句去操作RDD,和Hive类似.SparkSQL的核心结构是DataFrame,如果我们知道RDD里面的字段,也 ...
Spark如何读写hive
原文引自:http://blog.csdn.net/zongzhiyuan/article/details/78076842 hive数据表建立可以在hive上建立,或者使用hiveContext.s ...
spark mysql读写
val data2Mysql2 = (iterator: Iterator[(String, Int)]) => { var conn: Connection = null; var ps: P ...
spark 集成elasticsearch
pyspark读写elasticsearch依赖elasticsearch-hadoop包,需要首先在这里下载,版本号可以通过自行修改url解决. """ write d ...

随机推荐

linux环境搭建mysql5.7总结
以下安装方式,在阿里云与腾讯云服务器上都测试可用. 一.进入到opt目录下,执行: [root@master opt]# wget https://dev.mysql.com/get/Download ...
Solo开发者社区-重新思考云原生应用的开发模式
当前云原生应用的开发模式在 FaaS 环境下存在挑战,本文提出一种开发模式构想:"单体式编程,编译时拆分,分布式执行",旨在简化云应用开发,提升开发效率和应用性能.思路是通过编译器 ...
PowerShell 基本使用
PowerShell Basic PowerShell Basic 简要基本使用 PowerShell cmdlet 获取帮助 PowerShell 别名和参数编写一个 PowerShell 脚本 ...
Pandas库学习笔记（2）
Pandas 数据结构 Pandas 有三种常用的数据结构 Series DataFrame Panel 这些数据结构建立在Numpy数组之上,这意味着它们运行速度都非常快. Python.Numpy ...
SpringTask
SpringTask是spring提供的一个任务调度工具,按照约定的时间自动执行代码逻辑定时任务框架,即定时自动执行某段代码应用场景:信用卡每月还款提醒,火车售票系统处理未支付订单 cron表达式 ...
BeanUtils.copyProperties无法复制list对象，替换为lambda表达式
List<Setmeal> setmeals = setmealMapper.selectList(queryWrapper); List<SetmealVO>vo=new A ...
神经网络之卷积篇：详解计算机视觉（Computer vision）
详解计算机视觉计算机视觉是一个飞速发展的一个领域,这多亏了深度学习.深度学习与计算机视觉可以帮助汽车,查明周围的行人和汽车,并帮助汽车避开它们.还使得人脸识别技术变得更加效率和精准,即将能够体验到或 ...
【MongoDB】Re03 索引
MongoDB的索引种类单属性索引 MongoDB支持在文档的单个字段上创建用户定义的升序/降序索引,称为单字段索引(Single Field Index). 对于单个字段索引和排序操作,索引键的排 ...
【Vue】03 Slot 插槽 & 自定义事件
顾名思义就是一个槽,可以嵌入各种各样的东西 Vue的插槽就是一个slot标签,可以在这个定义了插槽的组件中插入其他的组件但是有一点很重要:使用插槽的组件必须要用div标签一个根标签包裹,否则无效 & ...
jmeter 使用非 GUI 模式运行测试脚本
使用非 GUI 模式运行测试脚本时可以使用的一些命令:-h 帮助 -> 打印出有用的信息并退出-n 非 GUI 模式 -> 在非 GUI 模式下运行 JMeter-t 测试文件 -> ...

spark 怎么读写 elasticsearch

参考文章：

Pre-requisite:

Step-by-Step guide

1. 先在ES创建3个document

2. Spark 里面去读，这里是pyspark 代码

3. 接下来尝试update 一个记录，先得到一个要改的id

4. 先来加一列

5. 又来update已经存在的信息

END

spark 怎么读写 elasticsearch的更多相关文章

随机推荐

热门专题