Spark 加载数据库mysql表中数据进行分析

1.工程maven依赖包

 <properties>

     <spark_version>2.3.1</spark_version>

     <!-- elasticsearch-->

     <elasticsearch.version>5.5.2</elasticsearch.version>

     <fastjson.version>1.2.28</fastjson.version>

     <elasticsearch-hadoop.version>6.3.2</elasticsearch-hadoop.version>

     <elasticsearch-spark.version>5.5.2</elasticsearch-spark.version>

 </properties>

 <dependencies>

     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-core_2.11</artifactId>

         <version>${spark_version}</version>

     </dependency>

     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-sql_2.11</artifactId>

         <version>${spark_version}</version>

     </dependency>

     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-yarn -->

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-yarn_2.11</artifactId>

         <version>${spark_version}</version>

     </dependency>

     <dependency>

         <groupId>org.elasticsearch</groupId>

         <artifactId>elasticsearch-spark-20_2.11</artifactId>

         <version>${elasticsearch-spark.version}</version>

     </dependency>

     <dependency>

         <groupId>mysql</groupId>

         <artifactId>mysql-connector-java</artifactId>

         <version>5.1.46</version>

     </dependency>

 </dependencies>

2.spark加载数据库中数据

 public class GoodsFromMySQL {

     /**

      * 加载数据库数据

      *

      * @param sc           spark context

      * @param sparkSession spark session

      */

     public static void loadGoodsInfo(SparkContext sc, SparkSession sparkSession) {

         String url = "jdbc:mysql://x.x.x.x:3306/db-test";

         String sql = "(SELECT item_name as itemName, goods_category as goodsCategory FROM goods where dict_type='100203' and item_name " +

                 "is not null) as my-goods";

         SQLContext sqlContext = SQLContext.getOrCreate(sc);

         DataFrameReader reader = sqlContext.read().format("jdbc").

                 option("url", url).option("dbtable", sql).

                 option("driver", "com.mysql.jdbc.Driver").

                 option("user", "root").

                 option("password", "xxxxx");

         Dataset<Row> goodsDataSet = reader.load();

         // Looks the schema of this DataFrame.

         goodsDataSet.printSchema();

         goodsDataSet.write().mode(SaveMode.Overwrite).json("/data/app/source_new.json");

     }

     public static void main(String[] args) {

         SparkConf conf = new SparkConf().setAppName("my-app");

         SparkContext sc = new SparkContext(conf);

         SparkSession sparkSession = new SparkSession(sc);

         loadGoodsInfo(sc, sparkSession);

     }

 }

3.spark支持加载多种数据库，仅需要用户依赖不同的数据库驱动包，并且代码进行微调即可

　　根据以上java代码，仅需调整18行，更改驱动加载类即可。

Spark 加载数据库mysql表中数据进行分析的更多相关文章

EF如何操作内存中的数据以及加载相关联表的数据：延迟加载、贪婪加载、显示加载
之前的EF Code First系列讲了那么多如何配置实体和数据库表的关系,显然配置只是辅助,使用EF操作数据库才是每天开发中都需要用的,这个系列讲讲如何使用EF操作数据库.老版本的EF主要是通过Ob ...
JavaScript之加载表格、表单行数据[插件]
/*** * name:加载表格或表单数据[通用] * name:load-table-or-form-data-common.js * * author:zengtai * date:2017-07 ...
清除mysql表中数据
delete from 表名; truncate table 表名; 不带where参数的delete语句可以删除mysql表中所有内容,使用truncate table也可以清空mysql表中所有内 ...
mysql 表中数据不存在则插入，否则更新数据
在很多时候我们会操作数据库表,但是在向表中插入数据时,会遇到表中已经存在该id的数据或者没有该id的数据的情况,没有该id的数据的情况时直接插入就OK,遇到已经存在该id的数据的情况则更新该id的数据 ...
MySQL表中数据的迁移
INSERT INTO `crm_attachment`(OPERATOR_ID,ATTACHMENT_ID,TYPE ) SELECT APPLICATION_ID ,ATTACHMENT_ID,' ...
使用Spark加载数据到SQL Server列存储表
原文地址https://devblogs.microsoft.com/azure-sql/partitioning-on-spark-fast-loading-clustered-columnstor ...
ajax验证表单元素规范正确与否 ajax展示加载数据库数据 ajax三级联动
一.ajax验证表单元素规范正确与否以用ajax来验证用户名是否被占用为例 1创建表单元素<input type="text" id="t"> 2 ...
Android之数据存储----使用LoaderManager异步加载数据库
一.各种概念: 1.Loaders: 适用于Android3.0以及更高的版本,它提供了一套在UI的主线程中异步加载数据的框架.使用Loaders可以非常简单的在Activity或者Fragment中 ...
InnoDB缓冲池预加载在MySQL 5.7中的正确打开方式
InnoDB缓冲池预加载在MySQL 5.7中的正确打开方式 https://mp.weixin.qq.com/s/HGa_90XvC22anabiBF8AbQ 在这篇文章里,我将讨论在MySQL 5 ...

随机推荐

Hadoop High Availability高可用
HDFS HA Namenode HA 详解 hadoop2.x 之后,Clouera 提出了 QJM/Qurom Journal Manager,这是一个基于 Paxos 算法(分布式一致性算法) ...
SVN升级到1.8后 Upgrade working copy
SVN升级到1.8后没法用了,不能提交,提示说要SVN Upgrade working copy, 但是半天在根目录和.svn所在文件夹上面右键都没有找到这个菜单. 坑爹的…… 最后找到解决办法是:重 ...
angular2 遗留问题
1.angular build [2017-07-26] a.改写js/css的引用目录的前缀(比如统一增加 /abc/xxx/*.js) b.build时,可以控制index/js/css的生成 ...
Docker_3 数据卷
数据卷数据卷容器参考连接在Docker容器管理数据有两种方式数据卷(Data Volumes) 数据卷容器(Data Volume Containers) 数据卷这种方式在创建容器的时候将本 ...
sql执行计划变更和删除缓存中执行计划的方法
将指定SQL的执行计划从共享池删除的方法 http://www.2cto.com/database/201204/126388.html Oracle SQL执行计划变更的问题 http://www. ...
simotion连接 V90 1FL6 增量型电机,报警20025 编码器细分设置
V90 1FL6 增量型电机 The configured fine resolution for Gx_XIST1 (Encoder_N.absEncoder.absResolutionMultip ...
January 27 2017 Week 4 Friday
Procrastination is the thief of time. 拖延是时光之贼. Procrastination is the thief of time, besides, it is ...
Java程序员从笨鸟到菜鸟之（九十六）深入java虚拟机（五）——java本地接口JNI详解
http://blog.csdn.net/csh624366188/article/details/8063144 对于Java程序员来说,java语言的好处和优点,我想不用我说了,大家自然会说出很多 ...
thinkphp5.0查询到的数据表中的路径是反斜杠导致无法正常显示图片怎么办？
添加到数据表中图片的路径有时会是反斜杠,这就导致了在url后面写路径的时候会识别不出来(不过src后面写路径就可以识别),所以就需要把路径中的反斜杠替换成正斜杠,代码如下: $datu = Db::q ...
3.spring：自动装配/Bean之间的关系/作用域/外部文件/spel/
1.自动装配/手动装配 xml配置文件里的bean自动装配 Spring IOC 容器里可以自动的装配Bean,需要做的仅仅是在<bean>的autowire属性里面指定自动装配模式 -& ...

Spark 加载数据库mysql表中数据进行分析

Spark 加载数据库mysql表中数据进行分析的更多相关文章

随机推荐

热门专题