关于sparksql

1.读取json文件，并且进行查询等操作

所使用的jar包为

json文件内容

{ "id":1 ,"name":" Ella","age":36 } { "id":2,"name":"Bob","age":29 } { "id":3 ,"name":"Jack","age":29 } { "id":4 ,"name":"Jim","age":28 } { "id":5 ,"name":"Damon" } { "id":5 ,"name":"Damon" }

　　val conf = new SparkConf().setAppName("DataFrameTest").setMaster("local")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val df = sqlContext.jsonFile("H:\\文件\\数据集\\test1\\1.json");
　　

    df.show()  　　　　　　//查询所有

    df.distinct.show()   //去重

    df.filter(df.col("age")>).show()  //age>20的行

    df.groupBy("name").count().show()   //根据name分组

    df.sort(df("name").asc).show()      //将数据按 name 升序排列

    df.head().foreach(print)           //取出前 3 行数据

    df.select(df("name").as("username")).show()  //查询所有记录的 name 列，并为其取别名为 username

    df.agg("age"->"avg").foreach(print)   //查询年龄 age 的平均值

    df.agg("age"->"min").foreach(print)   //) 查询年龄 age 的最小值

2.编程实现将 RDD 转换为 DataFrame

文件内容

1,Ella,36

2,Bob,29

3,Jack,29

 val conf = new SparkConf()

       conf.setMaster("local")

           .setAppName("Testsql")

       val sc = new SparkContext(conf)

       val sqlContext = new SQLContext(sc)

       //hdfs://192.168.6.134:9000/wys/1.txt

       //H:\文件\数据集

       val aRDD = sc.textFile("H:\\文件\\数据集\\test1\\2.txt", )

      .map { line => Row(line.split(",")(), line.split(",")(),line.split(",")() )} 

      // 第二步，编程方式动态构造元数据

      val structType = StructType(Array(

          StructField("id", StringType, true),

          StructField("name", StringType, true),

          StructField("age", StringType, true)))  

      // 第三步，进行RDD到DataFrame的转换

      val aDF = sqlContext.createDataFrame(aRDD, structType)  

      // 继续正常使用

      aDF.registerTempTable("A")

      val teenagerDF4 = sqlContext.sql("select id,name,age from A")

      teenagerDF4.map(t => "id:"+t()+","+"name:"+t()+","+"age:"+t()).foreach(println)

3.编程实现利用 DataFrame 读写 MySQL 的数据

 val conf = new SparkConf()

       conf.setMaster("local")

             .setAppName("Testsql")

      val sc = new SparkContext(conf)

      val sqlContext = new SQLContext(sc)

      val employeeRDD = sc.parallelize(Array("3 Mary F 26","4 Tom M 23")).map(_.split(" "))

      val schema = StructType(List(StructField("id", IntegerType,true),StructField("name", StringType, true),StructField("gender", StringType,true),StructField("age", IntegerType, true)))

      val rowRDD = employeeRDD.map(p => Row(p().toInt,p().trim,p().trim,p().toInt))

      val employeeDF = sqlContext.createDataFrame(rowRDD, schema)

      val prop = new Properties()

      prop.put("user", "root")

      prop.put("password", "root")

      prop.put("driver","com.mysql.jdbc.Driver")

      employeeDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/sparktest","sparktest.spark", prop)

      val jdbcDF = sqlContext.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/sparktest").option("driver","com.mysql.jdbc.Driver").option("dbtable","spark").option("user","root").option("password", "root").load()

      jdbcDF.agg("age" -> "max", "age" -> "sum")

关于sparksql的更多相关文章

踩坑事件：windows操作系统下的eclipse中编写SparkSQL不能从本地读取或者保存parquet文件
这个大坑... .... 如题,在Windows的eclipse中编写SparkSQL代码时,编写如下代码时,一运行就抛出一堆空指针异常: // 首先还是创建SparkConf SparkConf c ...
sparksql udf的运用----scala及python版（2016年7月17日前完成）
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义: 第二个问题udf是怎么实现的呢? regi ...
spark-sql性能测试
一,测试环境 1) 硬件环境完全相同: 包括:cpu/内存/网络/磁盘Io/机器数量等 2)软件环境: 相同数据 ...
SparkSQL读取Hive中的数据
由于我Spark采用的是Cloudera公司的CDH,并且安装的时候是在线自动安装和部署的集群.最近在学习SparkSQL,看到SparkSQL on HIVE.下面主要是介绍一下如何通过SparkS ...
SparkSQL（源码阅读三）
额,没忍住,想完全了解sparksql,毕竟一直在用嘛,想一次性搞清楚它,所以今天再多看点好了~ 曾几何时,有一个叫做shark的东西,它改了hive的源码...突然有一天,spark Sql突然出现 ...
Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是 ...
Spark入门实战系列--6.SparkSQL（中）--深入了解SparkSQL运行计划及调优
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.1 运行环境说明 1.1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软 ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...
大数据——sparksql
sparksql:http://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool spark on yarn :http:// ...
SparkSql 不支持Date Format （支持Timestamp）
最近项目中需要用到sparksql ,需要查询sql Date类型, 无奈,官方现阶段 1.6.0 还不支持Date类型,不过支持Timestamp类型,所以问题可以解决了. 1.解析 SimpleD ...

随机推荐

Nginx实现负载均衡的方式有哪几种呢？
什么是负载均衡当一台服务器的单位时间内的访问量越大时,服务器压力就越大,大到超过自身承受能力时,服务器就会崩溃.为了避免服务器崩溃,让用户有更好的体验,我们通过负载均衡的方式来分担服务器压力. 我们 ...
DARTS代码分析（Pytorch）
最近在看DARTS的代码,有一个operations.py的文件,里面是对各类点与点之间操作的方法. OPS = { 'none': lambda C, stride, affine: Zero(st ...
ssh隧道详解与案例利用讲解
原文阅读:https://www.52stu.org/?p=206 你是否有过自己身处内网,却想整个远控上线?你是否有过身处目标内网,却想把目标的内网的Linux的ssh转发出来?你是否想过穿透多层网 ...
HDWIKI6.0后台任意文件删除/下载
Duilib的多级菜单实现（网易云信版本）
完整代码见:https://github.com/netease-im/NIM_Duilib_Framework/tree/master/ui_components/menu 核心代码: ui_men ...
多标签分类(multi-label classification)综述
意义网络新闻往往含有丰富的语义,一篇文章既可以属于“经济”也可以属于“文化”.给网络新闻打多标签可以更好地反应文章的真实意义,方便日后的分类和使用. 难点 (1)类标数量不确定,有些样本可能只有一个 ...
Oracle数据块
最小单位的输入\输出数据块由操作系统中的一个或多个块组成数据库是表空间的基本单位 DB_BLOCK_SIZE 查看 Oracle 块的大小语句: SQL> show parameter db ...
MYSQL join 优化 --JOIN优化实践之快速匹配
MySQL的JOIN(四):JOIN优化实践之快速匹配优化原则:小表驱动大表,被驱动表建立索引有效,驱动表建立索引基本无效果.A left join B :A是驱动表,B是被驱动表:A right ...
2019.07.05 纪中_B
今日膜拜:czj大佬orz%%% 2019.07.05[NOIP提高组]模拟 B 组今天做题的时候大概能判断出题人的考点,可是就是没学过...特别痛苦 T0:栈的定义,模拟就好了T1:感觉像是找规律 ...
Charlie's Change POJ - 1787
Time limit 1000 ms Memory limit 30000 kB description Charlie is a driver of Advanced Cargo Movement, ...

关于sparksql

关于sparksql的更多相关文章

随机推荐

热门专题