Spark SQL大数据处理并写入Elasticsearch

SparkSQL(Spark用于处理结构化数据的模块)

通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等，通过load这些数据可以对其做一系列计算

下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中：

数据集：北京市PM2.5数据

Spark版本：2.3.2

Python版本：3.5.2

mysql-connector-java-8.0.11 下载

ElasticSearch：6.4.1

Kibana：6.4.1

elasticsearch-spark-20_2.11-6.4.1.jar 下载

具体代码：

 # coding: utf-8

 import sys

 import os

 pre_current_dir = os.path.dirname(os.getcwd())

 sys.path.append(pre_current_dir)

 from pyspark.sql import SparkSession

 from pyspark.sql.types import *

 from pyspark.sql.functions import udf

 from settings import ES_CONF

 current_dir = os.path.dirname(os.path.realpath(__file__))

 spark = SparkSession.builder.appName("weather_result").getOrCreate()

 def get_health_level(value):

     """

     PM2.5对应健康级别

     :param value:

     :return:

     """

     if 0 <= value <= 50:

         return "Very Good"

     elif 50 < value <= 100:

         return "Good"

     elif 100 < value <= 150:

         return "Unhealthy for Sensi"

     elif value <= 200:

         return "Unhealthy"

     elif 200 < value <= 300:

         return "Very Unhealthy"

     elif 300 < value <= 500:

         return "Hazardous"

     elif value > 500:

         return "Extreme danger"

     else:

         return None

 def get_weather_result():

     """

     获取Spark SQL分析后的数据

     :return:

     """

     # load所需字段的数据到DF

     df_2017 = spark.read.format("csv") \

         .option("header", "true") \

         .option("inferSchema", "true") \

         .load("file://{}/data/Beijing2017_PM25.csv".format(current_dir)) \

         .select("Year", "Month", "Day", "Hour", "Value", "QC Name")

     # 查看Schema

     df_2017.printSchema()

     # 通过udf将字符型health_level转换为column

     level_function_udf = udf(get_health_level, StringType())

     # 新建列healthy_level 并healthy_level分组

     group_2017 = df_2017.withColumn(

         "healthy_level", level_function_udf(df_2017['Value'])

     ).groupBy("healthy_level").count()

     # 新建列days和percentage 并计算它们对应的值

     result_2017 = group_2017.select("healthy_level", "count") \

         .withColumn("days", group_2017['count'] / 24) \

         .withColumn("percentage", group_2017['count'] / df_2017.count())

     result_2017.show()

     return result_2017

 def write_result_es():

     """

     将SparkSQL计算结果写入到ES

     :return:

     """

     result_2017 = get_weather_result()

     # ES_CONF配置 ES的node和index

     result_2017.write.format("org.elasticsearch.spark.sql") \

         .option("es.nodes", "{}".format(ES_CONF['ELASTIC_HOST'])) \

         .mode("overwrite") \

         .save("{}/pm_value".format(ES_CONF['WEATHER_INDEX_NAME']))

 write_result_es()

 spark.stop()

将mysql-connector-java-8.0.11和elasticsearch-spark-20_2.11-6.4.1.jar放到Spark的jars目录下，提交spark任务即可。

注意:

(1) 如果提示：ClassNotFoundException Failed to find data source: org.elasticsearch.spark.sql.，则表示spark没有发现jar包，此时需重新编译pyspark：

cd /opt/spark-2.3.2-bin-hadoop2.7/python

python3 setup.py sdist

pip install dist/*.tar.gz

(2) 如果提示：Multiple ES-Hadoop versions detected in the classpath; please use only one ，

　　则表示ES-Hadoop jar包有多余的,可能既有elasticsearch-hadoop，又有elasticsearch-spark，此时删除多余的jar包，重新编译pyspark 即可

执行效果：

更多源码请关注我的github， https://github.com/a342058040/Spark-for-Python ，Spark相关技术全程用python实现，持续更新

Spark SQL大数据处理并写入Elasticsearch的更多相关文章

Spark SQL JSON数据处理
背景这一篇可以说是“Hive JSON数据处理的一点探索”的兄弟篇. 平台为了加速即席查询的分析效率,在我们的Hadoop集群上安装部署了Spark Server,并且与我们的Hive数据仓 ...
大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...
Spark官方1 ---------Spark SQL和DataFrame指南（1.5.0）
概述 Spark SQL是用于结构化数据处理的Spark模块.它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎. Spark SQL也可用于从现有的Hive安装中读取数据 ...
[转] Spark sql 内置配置（V2.2）
[From] https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配.加粗配置项是对sparkSQL ...
第五章大数据平台与技术第12讲大数据处理平台Spark
Spark支持多种的编程语言对比scala和Java编程上节课的计数程序.相比之下,scala简洁明了. Hadoop的IO开销大导致了延迟高,也就是说任务和任务之间涉及到I/O操作.前一个任务完成 ...
流式大数据处理的三种框架：Storm，Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的 ...
[转载]流式大数据处理的三种框架：Storm，Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的 ...
《Spark大数据处理：技术、应用与性能优化》
基本信息作者: 高彦杰丛书名:大数据技术丛书出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月开本:16开页码:255 ...
Spark大数据处理技术
全球首部全面介绍Spark及Spark生态圈相关技术的技术书籍俯览未来大局,不失精细剖析,呈现一个现代大数据框架的架构原理和实现细节透彻讲解Spark原理和架构,以及部署模式.调度框架.存储管理及 ...

随机推荐

Java基础 -- final关键字
在java的关键字中,static和final是两个我们必须掌握的关键字.不同于其他关键字,他们都有多种用法,而且在一定环境下使用,可以提高程序的运行性能,优化程序的结构.下面我们来了解一下final ...
数据库导出excel，前后端分离
主要参考了这篇博文:https://www.cnblogs.com/jerehedu/p/4343509.html 2.3和2.4 采用xssf,依赖:compile group: 'org.apa ...
Docker：dockerfile镜像的分层 [九]
一.docker镜像的分层 1.图像呈现 2.命令呈现 [root@oldboy kod]# docker image history kod:v1 IMAGE CREATED CREATED BY ...
HDU 1584(蜘蛛牌 DFS)
题意是在蜘蛛纸牌的背景下求 10 个数的最小移动距离. 在数组中存储 10 个数字各自的位置,用深搜回溯的方法求解. 代码如下: #include <bits/stdc++.h> usin ...
闭包创建自己的 plugin 示例加载 loading
plugin 插件什么是 plugin? 实现一个功能,与主应用程序分离,减少主应用程序的大小,高复用,可维护制作过程中,一定要避免依赖其他的元素,减少 id 等的使用,避免与页面中其他内容冲突 ...
ElasticSearch评分分析 explian 解释和一些查询理解
ElasticSearch评分分析 explian 解释和一些查询理解按照es-ik分析器安装了ik分词器.创建索引:PUT /index_ik_test.索引包含2个字段:content和nick ...
SSH框架之hibernate《四》
hibernate第四天一.JPA相关概念 1.1JPA概述全称是:Java Persistence API.是sun公司推出的一套基于ORM的规范 ...
java(9)类和对象
一.理解什么是类和对象万事万物皆对象 1.1.属性——对象具有的特征(特点) 1.2.方法——对象可执行的操作(能干什么事) 1.3.对象的定义: 是一个客观存在的,看的见或摸得着的实体,由属性和方 ...
JAVA进阶10
间歇性混吃等死,持续性踌躇满志系列-------------第10天 1.Random package cn.intcast.day08.demo01; import java.util.Random ...
更改 Ubuntu默认Python版本的问题
一般Ubuntu默认版本为2.x,之前运行一些程序,将默认版本修改为3.5,现在想修改为2.7. 之前的方法有些忘记,现在重新记录一下: 1.查看你系统中有哪些Python的二进制文件可供使用, ls ...

Spark SQL大数据处理并写入Elasticsearch

Spark SQL大数据处理并写入Elasticsearch的更多相关文章

随机推荐

热门专题