大数据学习——sparkSql对接mysql

1上传jar

2 加载驱动包

[root@mini1 bin]#  ./spark-shell --master spark://mini1:7077 --jars mysql-connector-java-5.1.32.jar --driver-class-path mysql-connector-java-5.1.32.jar

create table dept(

    deptno int ,

    dname varchar(14) ,

    loc varchar(13)

) ;

create table emp(

    eno int ,

    ename varchar(10),

    job varchar(9),

    mgr int,

    hirdate date,

    sal int,

    comm int,

    deptno int not null

);

INSERT INTO dept VALUES(10,'ACCOUNTING','NEW YORK');

INSERT INTO dept VALUES(20,'RESEARCH','DALLAS');

INSERT INTO dept VALUES(30,'SALES','CHICAGO');

INSERT INTO dept VALUES(40,'OPERATIONS','BOSTON');

INSERT INTO emp VALUES(7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20);

INSERT INTO emp VALUES(7499,'ALLEN','SALESMAN',7698,'1981-02-20',1600,300,30);

INSERT INTO emp VALUES(7521,'WARD','SALESMAN',7698,'1981-02-22',1250,500,30);

INSERT INTO emp VALUES(7566,'JONES','MANAGER',7839,'1981-04-02',2975,NULL,20);

INSERT INTO emp VALUES(7654,'MARTIN','SALESMAN',7698,'1981-09-28',1250,1400,30);

INSERT INTO emp VALUES(7698,'BLAKE','MANAGER',7839,'1981-05-01',2850,NULL,30);

INSERT INTO emp VALUES(7782,'CLARK','MANAGER',7839,'1981-06-09',2450,NULL,10);

INSERT INTO emp VALUES(7788,'SCOTT','ANALYST',7566,'1987-06-13',3000,NULL,20);

INSERT INTO emp VALUES(7839,'KING','PRESIDENT',NULL,'1981-11-17',5000,NULL,10);

INSERT INTO emp VALUES(7844,'TURNER','SALESMAN',7698,'1981-09-08',1500,0,30);

INSERT INTO emp VALUES(7876,'ADAMS','CLERK',7788,'1987-06-13',1100,NULL,20);

INSERT INTO emp VALUES(7900,'JAMES','CLERK',7698,'1981-12-03',950,NULL,30);

INSERT INTO emp VALUES(7902,'FORD','ANALYST',7566,'1981-12-03',3000,NULL,20);

INSERT INTO emp VALUES(7934,'MILLER','CLERK',7782,'1983-01-23',1300,NULL,10);

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val empDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://192.168.74.100:3306/test", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "emp", "user" -> "root", "password" -> "123456")).load()

val deptDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://192.168.74.100:3306/test", "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "dept", "user" -> "root", "password" -> "123456")).load()

4 读取数据（注意mysql要启动）

empDF.show()

deptDF.show()

empDF.registerTempTable("emp")

deptDF.registerTempTable("dept")

1．列出至少有一个员工的所有部门。

分析：每个部门有多少员工  ------ 根据部门编号进行分组

select deptno,count(*) from emp group by deptno having count(*) >= 1;

2．列出薪金比“SMITH”多的所有员工。(是否支持子查询)

分析：先查询出SMITH工资  ： select sal from emp where ename='SMITH';

select * from emp where sal > (select sal from emp where ename='SMITH');

3．***** 列出所有员工的姓名及其直接上级的姓名。

分析：表自映射，为表起别名，进行关联  t1 表模拟员工表 t2 表保存直接上级信息

select t1.ename 员工姓名, t2.ename 直接上级 from emp t1,emp t2 where t1.MGR = t2.empno;

4．列出受雇日期早于其直接上级的所有员工。

分析：原理和上题类似

select t1.*,t2.hirdate from emp t1,emp t2 where t1.MGR = t2.eno and t1.hirdate < t2.hirdate

5．列出部门名称和这些部门的员工信息，同时列出那些没有员工的部门。

分析：部门没员工也要显示 --- 外连接。无论怎样部门信息一定要显示，通过部门去关联员工

select * from dept left outer join emp on dept.deptno = emp.deptno ;

6．列出所有“CLERK”（办事员）的姓名及其部门名称。

分析：查找job为CLERK 员工姓名和部门名称

员工姓名 emp表

部门名称 dept表

select emp.ename,dept.dname,emp.job from emp,dept where emp.deptno = dept.deptno and emp.job='CLERK'; 

7．列出最低薪金大于1500的各种工作。

分析：工作的最低薪金 ---- 按工作分组，求最低薪金

select min(sal) from emp group by job;

大于1500 是一个分组条件 --- having

select job,min(sal) from emp group by job having min(sal) > 1500;

8．列出在部门“SALES”（销售部）工作的员工的姓名，假定不知道销售部的部门编号。

分析：员工姓名位于 emp  部门名称 dept

select emp.ename from emp,dept where emp.deptno = dept.deptno and dept.dname = 'SALES';

9．列出薪金高于公司平均薪金的所有员工。

分析：先求公司平均薪金 select avg(sal) from emp;

select * from emp where sal > (select avg(sal) from emp);

10．列出与“SCOTT”从事相同工作的所有员工。

分析：先查询SCOTT : select job from emp where ename ='SCOTT';

select * from emp where ename <> 'SCOTT' and job = (select job from emp where ename ='SCOTT');

13．列出在每个部门工作的员工数量、平均工资。

分析：按部门分组

select deptno, count(*),avg(sal)  from emp group by deptno;

14．列出所有员工的姓名、部门名称和工资。

分析：

select emp.ename,dept.dname,emp.sal from emp,dept where emp.deptno = dept.deptno;

15．列出所有部门的详细信息和部门人数。

分析：

select dept.deptno,count(1) from emp,dept where emp.deptno=dept.deptno group by dept.deptno ; 

16．列出各种工作的最低工资。

分析：各个工作 分组 ， 最低工资 min

select job,min(sal) from emp group by job;

17．列出各个部门的MANAGER（经理）的最低薪金。

分析：where job='MANAGER' 过滤所有不是经理数据

select deptno,min(sal) from emp where job ='MANAGER' group by deptno;

18．列出所有员工的年工资,按年薪从低到高排序。

分析： select ename, sal*12 from emp order by sal*12 asc;

19.查出emp表中薪水在3000以上（包括3000）的所有员工的员工号、姓名、薪水。

分析： select * from emp where sal >= 3000;

22.查询出emp表中所有的工作种类（无重复）

分析： select distinct job from emp;

23.查询出所有奖金（comm）字段不为空的人员的所有信息。

分析：不为空 is not null

select * from emp where comm is not null;

24.查询出薪水在800到2500之间（闭区间）所有员工的信息。（注：使用两种方式实现and以及between and）

分析：select * from emp where sal >= 800 and sal <= 2500;

select * from emp where sal between 800 and 2500;

25.查询出员工号为7521，7900，7782的所有员工的信息。（注：使用两种方式实现，or以及in）

分析：select * from emp where eno in(7521,7900,7782);

select * from emp where eno=7521 or eno = 7900 or eno = 7782;

26.查询出名字中有“A”字符，并且薪水在1000以上（不包括1000）的所有员工信息。

分析： 模糊查询

select * from emp where ename like '%A%' and sal > 1000;

27.查询出名字第三个字母是“M”的所有员工信息。

分析：第三个字母 __M%

select * from emp where ename like '__M%';

28.将所有员工按薪水升序排序，薪水相同的按照入职时间降序排序。

分析：select * from emp order by sal asc,hiredate desc;

29.将所有员工按照名字首字母升序排序，首字母相同的按照薪水降序排序。

分析：SUBSTRING('字符串',第几个字符,长度);  ---- 首字母 substring(ename,1,1)

select * from emp order by substring(ename,1,1) asc,sal desc;

5 往mysql数据库写数据

package org.apache.spark

import java.util.Properties

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, DataFrameHolder, SQLContext}

/**

  * Created by Administrator on 2019/6/13.

  */

object JDBCsparksql {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("spark-joindemo").setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val file = sc.textFile("hdfs://mini1:9000/person.json")

    val personRDD: RDD[Person] = file.map(_.split(" ")).map(x => Person(x(0).toLong, x(1), x(2).toInt))

    import sqlContext.implicits._

    val personDF: DataFrame = personRDD.toDF()

    personDF.registerTempTable("person")

    val p: Properties = new Properties()

    p.put("user", "root")

    p.put("password", "123456")

    sqlContext.sql("select * from person").write.mode("overwrite").jdbc("jdbc:mysql://192.168.74.100:3306/test", "person", p)

    sc.stop()

  }

}

case class Person(id: Long, name: String, age: Int)

大数据学习——sparkSql对接mysql的更多相关文章

大数据学习——sparkSql对接hive
1. 安装mysql 2. 上传.解压.重命名 2.1. 上传在随便一台有hadoop环境的机器上上传安装文件 su - hadoop rz –y 2.2. 解压解压缩:apache- ...
大数据学习之路——MySQL基础（一）——MySQL的基础知识与常见操作
一.存储引擎 1.含义存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建.查询.更新和删除数据.不同的存储引擎提供不同的存储机制.索引技巧.锁定水平等功能,使用不同的存储引 ...
大数据学习——sparkSql
官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.html val sc: SparkContext // An existing ...
大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习（一） | 初识 Hadoop
作者: seriouszyx 首发地址:https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目 ...
大数据学习笔记——Linux完整部署篇(实操部分)
Linux环境搭建完整操作流程(包含mysql的安装步骤) 从现在开始,就正式进入到大数据学习的前置工作了,即Linux的学习以及安装,作为运行大数据框架的基础环境,Linux操作系统的重要性自然不言 ...
大数据学习day38----数据仓库01-----区域字典的生成
更多内容见文档 1. 区域字典的生成 mysql中有如下表格数据现要将这类数据转换成(GEOHASH码, 省,市,区)如下所示 (1)第一步:在mysql中使用sql语句对表格数据进行整理(此处使用 ...

随机推荐

从typeof()说起
本文也同步发表在我的公众号“我的天空” 首先我们先思考一下,执行下列语句分别会显示什么? alert(typeof(Array)); alert(typeof(Array())); 我们进入正题! 在 ...
洛谷 CF1148A Another One Bites The Dust
Another One Bites The Dust CF的题目在你谷上难度虚高似乎已成常态不过这道题相比于愚人节的那几道相对好得多,没有被评成紫题. 这道题题面意思比较清楚,就是对于给定数量的'a ...
AtCoderBeginnerContest109题解
第一次AK,真爽qwq A 很zz啊,,直接判断三种情况就行 /* */ #include<iostream> #include<cstdio> #include<cst ...
MUI获取文本框的值
MUI事件绑定注意父节点.子节点(也可以是标签选择器) js部分 html部分
网络文件系统（NFS）的使用
一.简介 NFS--Network FileSystem,即网络文件系统,主要功能是让网络上的不同操作系统之间共享数据. 远程服务器端共享出文件或目录,然后远羰共享出来的文件或目录就可通过挂载的方式 ...
Java 反射机制（二）
<Core Java Volume I --- Fundamentals>介绍了三种创建Class对象的方法.本文将举例说明这三种创建Class对象---创建类的方法. 一.public ...
用Python完成根据日期计算是星期几
import datetime def week(year,month,day): someday=dayetime.date(year,month,day) result={ "0&quo ...
sshd_config配置注释
# $OpenBSD: sshd_config,v 1.80 2008/07/02 02:24:18 djm Exp $ # This is the sshd server system-wide c ...
JSON 序列化格式
一.C#处理简单json数据json数据: 复制代码代码如下: {"result":"0","res_info":"ok" ...
java入门第一章——java开发入门
习题解答一.填空题 (p2)1.java的三个技术平台分别是(java SE.java EE.java ME)(标准.企业.小型) (p3)2.java程序的运行环境简称为(JRE)(开发环境-JD ...

大数据学习——sparkSql对接mysql

大数据学习——sparkSql对接mysql的更多相关文章

随机推荐

热门专题