关于sparksql

1.读取json文件，并且进行查询等操作

所使用的jar包为

json文件内容

{ "id":1 ,"name":" Ella","age":36 } { "id":2,"name":"Bob","age":29 } { "id":3 ,"name":"Jack","age":29 } { "id":4 ,"name":"Jim","age":28 } { "id":5 ,"name":"Damon" } { "id":5 ,"name":"Damon" }

　　val conf = new SparkConf().setAppName("DataFrameTest").setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val df = sqlContext.jsonFile("H:\\文件\\数据集\\test1\\1.json");
　　

    df.show()  　　　　　　//查询所有

    df.distinct.show()   //去重

    df.filter(df.col("age")>).show()  //age>20的行

    df.groupBy("name").count().show()   //根据name分组

    df.sort(df("name").asc).show()      //将数据按 name 升序排列

    df.head().foreach(print)           //取出前 3 行数据

    df.select(df("name").as("username")).show()  //查询所有记录的 name 列，并为其取别名为 username

    df.agg("age"->"avg").foreach(print)   //查询年龄 age 的平均值

    df.agg("age"->"min").foreach(print)   //) 查询年龄 age 的最小值

2.编程实现将 RDD 转换为 DataFrame

文件内容

1,Ella,36

2,Bob,29

3,Jack,29

 val conf = new SparkConf()

       conf.setMaster("local")

           .setAppName("Testsql")

       val sc = new SparkContext(conf)

       val sqlContext = new SQLContext(sc)

       //hdfs://192.168.6.134:9000/wys/1.txt

       //H:\文件\数据集

       val aRDD = sc.textFile("H:\\文件\\数据集\\test1\\2.txt", )

      .map { line => Row(line.split(",")(), line.split(",")(),line.split(",")() )} 

      // 第二步，编程方式动态构造元数据

      val structType = StructType(Array(

          StructField("id", StringType, true),

          StructField("name", StringType, true),

          StructField("age", StringType, true)))  

      // 第三步，进行RDD到DataFrame的转换

      val aDF = sqlContext.createDataFrame(aRDD, structType)  

      // 继续正常使用

      aDF.registerTempTable("A")

      val teenagerDF4 = sqlContext.sql("select id,name,age from A")

      teenagerDF4.map(t => "id:"+t()+","+"name:"+t()+","+"age:"+t()).foreach(println)

3.编程实现利用 DataFrame 读写 MySQL 的数据

 val conf = new SparkConf()

       conf.setMaster("local")

             .setAppName("Testsql")

      val sc = new SparkContext(conf)

      val sqlContext = new SQLContext(sc)

      val employeeRDD = sc.parallelize(Array("3 Mary F 26","4 Tom M 23")).map(_.split(" "))

      val schema = StructType(List(StructField("id", IntegerType,true),StructField("name", StringType, true),StructField("gender", StringType,true),StructField("age", IntegerType, true)))

      val rowRDD = employeeRDD.map(p => Row(p().toInt,p().trim,p().trim,p().toInt))

      val employeeDF = sqlContext.createDataFrame(rowRDD, schema)

      val prop = new Properties()

      prop.put("user", "root")

      prop.put("password", "root")

      prop.put("driver","com.mysql.jdbc.Driver")

      employeeDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/sparktest","sparktest.spark", prop)

      val jdbcDF = sqlContext.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/sparktest").option("driver","com.mysql.jdbc.Driver").option("dbtable","spark").option("user","root").option("password", "root").load()

      jdbcDF.agg("age" -> "max", "age" -> "sum")

关于sparksql的更多相关文章

踩坑事件：windows操作系统下的eclipse中编写SparkSQL不能从本地读取或者保存parquet文件
这个大坑... .... 如题,在Windows的eclipse中编写SparkSQL代码时,编写如下代码时,一运行就抛出一堆空指针异常: // 首先还是创建SparkConf SparkConf c ...
sparksql udf的运用----scala及python版（2016年7月17日前完成）
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义: 第二个问题udf是怎么实现的呢? regi ...
spark-sql性能测试
一,测试环境 1) 硬件环境完全相同: 包括:cpu/内存/网络/磁盘Io/机器数量等 2)软件环境: 相同数据 ...
SparkSQL读取Hive中的数据
由于我Spark采用的是Cloudera公司的CDH,并且安装的时候是在线自动安装和部署的集群.最近在学习SparkSQL,看到SparkSQL on HIVE.下面主要是介绍一下如何通过SparkS ...
SparkSQL（源码阅读三）
额,没忍住,想完全了解sparksql,毕竟一直在用嘛,想一次性搞清楚它,所以今天再多看点好了~ 曾几何时,有一个叫做shark的东西,它改了hive的源码...突然有一天,spark Sql突然出现 ...
Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是 ...
Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软 ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...
大数据——sparksql
sparksql:http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool spark on yarn :http:// ...
SparkSql 不支持Date Format （支持Timestamp）
最近项目中需要用到sparksql ,需要查询sql Date类型, 无奈,官方现阶段 1.6.0 还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了. 1.解析 SimpleD ...

随机推荐

NativeContainer
安全系统复制数据的过程的缺点是它还隔离了每个副本中作业的结果.要克服此限制,您需要将结果存储在一种名为NativeContainer的共享内存中. 什么是NativeContainer? A Nati ...
python基础之元祖tuple
元祖是只读列表,不可哈希,可循环查询,可切片*儿子不能改,孙子可更改--元祖里面单个元素不能更改---元祖内列表可更改增:tu1+tu2查:tu1[index] tu1[start_index:end ...
JAVA -数据类型与表达式---数据类型转换
数据类型转换技术 Java中,数据转换的方式有三种:*赋值类型转换*提升类型转换*强制类型转换 1.赋值类型转换当需要将一个类型的值赋给另一种类型的变量时,该值将被转换为新类型的值,此时就发生了赋值 ...
关于虚拟机docker 启动mysql 启动成功但未挂载到端口
首先排查了防火墙和其他权限相关问题然后检查了mysql 用户权限问题 docker logs 查看日志正常应该是到3306 问题是我的mysql my.cnf 文件是挂在在本地.当第二次启动容器时 ...
aws和ufile挂载数据盘EBS
aws的话挂载的ebs需要格式化,参考:https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/ebs-using-volumes.html ...
mysql下的sqlmode详解
转自:https://www.cnblogs.com/Zender/p/8270833.html 阅读目录一,sql_mode值的含义二,ANSI模式三,STRICT_TRANS_TABLES模 ...
（4.16）mysql备份还原——物理备份之XtraBackup实践
关键词:XtraBackup实践,物理备份,xtrabackup备份,innobackupex备份 [1]如何使用? [3]系列:innobackupex --help |more [4]系列:xtr ...
SpringBoot 启动失败 Failed to determine a suitable driver class 问题解决方案
Description: Failed to auto-configure a DataSource: 'spring.datasource.url' is not specified and no ...
spring依赖注入三种方式
一.构造器注入构造器注入是在程序中实现构造器,可以注入任意类型,如自定义类,集合,String等,注:构造器所有有final修饰的变量都必须在构造方法中注入. 二.设值注入(setter方式注入) ...
Centos8 重启网卡方法
问题情况: 1.虚机centos8 修改为静态ip后,由于网卡网段变更,无法上网 2.最小化安装,没有ifconfig 3.firewalld,selinux关闭 4.ping 不通物理机根本原因: ...

关于sparksql

关于sparksql的更多相关文章

随机推荐

热门专题