spark 集成elasticsearch

pyspark读写elasticsearch依赖elasticsearch-hadoop包，需要首先在这里下载，版本号可以通过自行修改url解决。

"""

write data to elastic search

https://starsift.com/2018/01/18/integrating-pyspark-and-elasticsearch/

"""

from __future__ import print_function

import os

import json

from pyspark import SparkContext

from pyspark import SparkConf

os.environ["PYSPARK_PYTHON"] = "/usr/bin/python3"

os.environ["PYSPARK_DRIVER_PYTHON"] = "/usr/bin/python3"

# pay attention here, jars could be added at here

os.environ['PYSPARK_SUBMIT_ARGS'] = \

    '--jars /home/buxizhizhoum/2-Learning/pyspark_tutorial/jars/elasticsearch-hadoop-6.4.2/dist/elasticsearch-spark-20_2.11-6.4.2.jar ' \

    '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.3.1 ' \

    'pyspark-shell'

conf = SparkConf().setAppName("write_es").setMaster("local[2]")

sc = SparkContext(conf=conf)

# config refer: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

es_write_conf = {

    # specify the node that we are sending data to (this should be the master)

    "es.nodes": 'localhost',

    # specify the port in case it is not the default port

    "es.port": '',

    # specify a resource in the form 'index/doc-type'

    "es.resource": 'testindex/testdoc',

    # is the input JSON?

    "es.input.json": "yes",

    # is there a field in the mapping that should be used to specify the ES document ID

    "es.mapping.id": "doc_id"

}

if __name__ == "__main__":

    data = [

        {'': '', 'doc_id': 1},

        {'': '', 'doc_id': 2},

        {'': '', 'doc_id': 3},

        {'': '', 'doc_id': 4},

        {'': '', 'doc_id': 5},

        {'': '', 'doc_id': 6},

        {'': '', 'doc_id': 7},

        {'': '', 'doc_id': 8},

        {'': '', 'doc_id': 9},

        {'': '', 'doc_id': 10}

    ]

    rdd = sc.parallelize(data)

    rdd = rdd.map(lambda x: (x["doc_id"], json.dumps(x)))

    rdd.saveAsNewAPIHadoopFile(

        path='-',

        outputFormatClass="org.elasticsearch.hadoop.mr.EsOutputFormat",

        keyClass="org.apache.hadoop.io.NullWritable",

        valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable",

        # critically, we must specify our `es_write_conf`

        conf=es_write_conf)

refer: https://starsift.com/2018/01/18/integrating-pyspark-and-elasticsearch/

spark 集成elasticsearch的更多相关文章

Spark：利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...
使用spark访问elasticsearch的数据
使用spark访问elasticsearch的数据,前提是spark能访问hive,hive能访问es http://blog.csdn.net/ggz631047367/article/detail ...
spark集成hive遭遇mysql check失败的问题
问题: spark集成hive,启动spark-shell或者spark-sql的时候,报错: INFO MetaStoreDirectSql: MySQL check failed, assumin ...
springboot集成elasticsearch
在基础阶段学习ES一般是首先是安装ES后借助 Kibana 来进行CURD 了解ES的使用: 在进阶阶段可以需要学习ES的底层原理,如何通过Version来实现乐观锁保证ES不出问题等核心原理: 第 ...
Spark 整合ElasticSearch
Spark 整合ElasticSearch 因为做资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例. ...
使用Logstash同步数据至Elasticsearch，Spring Boot中集成Elasticsearch实现搜索
安装logstash.同步数据至ElasticSearch 为什么使用logstash来同步,CSDN上有一篇文章简要的分析了以下几种同步工具的优缺点:https://blog.csdn.net/la ...
Spark搭档Elasticsearch
Spark与elasticsearch结合使用是一种常用的场景,小编在这里整理了一些Spark与ES结合使用的方法.一. write data to elasticsearch利用elasticsea ...
SpringBoot 集成 Elasticsearch
前面在 ubuntu 完成安装 elasticsearch,现在我们SpringBoot将集成elasticsearch. 1.创建SpringBoot项目我们这边直接引入NoSql中Spring ...
数据湖应用解析：Spark on Elasticsearch一致性问题
摘要:脏数据对数据计算的正确性带来了很严重的影响.因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性. 概述 Spark与Elasticsearch(es ...

随机推荐

C语言强化——学生管理系统
系统模块设计 a.预处理模块系统在启动时会根据配置文件里的内容去相应文件里去加载账户信息和学生信息. b.登陆模块输入用户名和密码,输密码的时候用"*" 代表用户当前输入的内容 ...
[UE4]声音系统概述
一.只能使用wav格式的声音二.wav声音可以直接播放到打开的UE4编辑器内打开的Content文件夹.也可以直接导入三.在Content中的文件夹的声音资源可以直接拖放到场景中,会以3D场景声音 ...
at android.view.LayoutInflater.createViewFromTag的错误原因
创建对话框时出现下面的错误: Caused by: java.lang.NullPointerException: Attempt to invoke virtual method 'boolean ...
mac一些设置
Mac自带了的JDK6,安装在目录:/System/Library/Java/JavaVirtualMachines/1.6.0.jdk/下. JDK8则需要自己到Oracle官网下载安装对应的版本. ...
Install Greenplum OSS on Ubuntu
About Greenplum Database Greenplum Database is an MPP SQL Database based on PostgreSQL. Its used in ...
CS229 6.6 Neurons Networks PCA主成分分析
主成分分析(PCA)是一种经典的降维算法,基于基变换,数据原来位于标准坐标基下,将其投影到前k个最大特征值对应的特征向量所组成的基上,使得数据在新基各个维度有最大的方差,且在新基的各个维度上数据是不相 ...
SP1812 LCS2 - Longest Common Substring II
能匹配上子串的节点对它的所有parent都有贡献在树上转移即可 #include<cstdio> #include<algorithm> #include<cstrin ...
让MySql支持表情符号（MySQL中4字节utf8字符保存方法）
UTF-8编码有可能是两个.三个.四个字节.Emoji表情是4个字节,而MySQL的utf8编码最多3个字节,所以数据插不进去. 解决方案:将编码从utf8转换成utf8mb4. 1. 修改my.in ...
redis管道技术
1.redis管道pipeline解决的问题: 由于redis通信是通过tcp协议基础,并且是堵塞的处理方式,在第一个请求没有执行并返回前,无法处理第二个请求.所以事件浪费在了网络传输和堵塞请求中. ...
phalcon7开发环境搭建
1.安装apahce服务器 2.安装mysql 3.安装php7 4.编译和安装phalcon7 git clone --depth=1 git://github.com/dreamsxin/cpha ...

spark 集成elasticsearch

spark 集成elasticsearch的更多相关文章

随机推荐

热门专题