sparksql dataset

java

 /**

  *2.0之后使用sparksession即可,不需要再去创建sqlcontext

  *@author Tele

  *

  */

 public class Demo {

     private static SparkConf conf = new SparkConf().setAppName("dataframedemo").setMaster("local");

     private static JavaSparkContext jsc = new JavaSparkContext(conf);

     private static SparkSession session = new SparkSession(jsc.sc());

     //创建sparksession(可以不创建jsc)

 //    private static SparkSession session = SparkSession.builder().appName("asd").master("local").getOrCreate();

 //    private static SQLContext sqlContext = new SQLContext(session);

     public static void main(String[] args) {

         //在java中返回是dataset,在scala中返回的是dataframe

     //    sqlContext.read().json("xx")

         Dataset<Row> dataset = session.read().json("./src/main/java/cn/tele/spark_sql/dataframe/students.json");

         //输出全部数据

         dataset.show();

         //输出某一列

         dataset.select("id").show();

         dataset.select(dataset.col("id")).show();

         //判断id>2

         dataset.select(dataset.col("id").gt(2)).show();

         //判断id>=2

         dataset.select(dataset.col("id").geq(2)).show();

         //将age += 100

         dataset.select(dataset.col("age").plus(100)).show();

         //输出元数据

         dataset.printSchema();

         jsc.close();

     }

 }

scala

 object Demo {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf().setAppName("demo").setMaster("local")

     val sc = new SparkContext(conf)

     val sqlcontext = new SQLContext(sc)

     val dataframe = sqlcontext.read.json("./src/main/scala/cn/tele/spark_sql/dataframe/students.json")

     dataframe.select(dataframe.col("id")).show()

     dataframe.select(dataframe.col("id").plus(1)).show()

     dataframe.select(dataframe.col("id") + 1).show()

     dataframe.select("id","name").show()

     dataframe.select(dataframe.col("id").geq("2")).show()

     dataframe.printSchema()

   }

 }

sparksql dataset的更多相关文章

Spark之 SparkSql、DataFrame、DataSet介绍
SparkSql SparkSql是专门为spark设计的一个大数据仓库工具,就好比hive是专门为hadoop设计的一个大数据仓库工具一样. 特性: .易整合可以将sql查询与spark应用程序进 ...
SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系
一.SparkSQL发展: Shark是一个为spark设计的大规模数据仓库系统,它与Hive兼容 Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by s ...
Update(Stage4)：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset ...
sparkSQL中RDD——DataFrame——DataSet的区别
spark中RDD.DataFrame.DataSet都是spark的数据集合抽象,RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全编译时就能检查出类型 ...
sparksql 动态设置schema将rdd转换成dataset/dataframe
java public class DynamicDemo { private static SparkConf conf = new SparkConf().setAppName("dyn ...
sparksql 用反射的方式将rdd转换成dataset/dataframe
java public class ReflectionDemo { private static SparkConf conf = new SparkConf().setAppName(" ...
SparkSql官方文档中文翻译(java版本)
1 概述(Overview) 2 DataFrames 2.1 入口:SQLContext(Starting Point: SQLContext) 2.2 创建DataFrames(Creating ...
谈谈RDD、DataFrame、Dataset的区别和各自的优势
在spark中,RDD.DataFrame.Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势共性: 1.RDD.DataFrame.Dataset全都是spar ...
java使用spark/spark-sql处理schema数据(spark1.6)
1.spark是什么? Spark是基于内存计算的大数据并行计算框架. 1.1 Spark基于内存计算相比于MapReduce基于IO计算,提高了在大数据环境下数据处理的实时性. 1.2 高容错性和 ...

随机推荐

"C:\Program Files\Internet Explorer\iexplore.exe" -extoff 无加载项启动IE 浏览器打开时全屏模式
"C:\Program Files\Internet Explorer\iexplore.exe" -extoff 无加载项启动IE浏览器打开时全屏模式
【习题 6-4 UVA-439】Knight Moves
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] bfs模板题 [代码] /* 1.Shoud it use long long ? 2.Have you ever test sev ...
分治法（divide & conquer）与动态规划（dynamic programming）应用举例
动态规划三大重要概念:最优子结构,边界,状态转移公式(问题规模降低,如问题由 n 的规模降低为 n−1 或 n−2 及二者之间的关系): 0. 爬台阶 F(n)⇒F(n−1)+F(n−2) F(n−1 ...
Python 极简教程（二）编码工具
Python 的编码工具很多.目前最流行的是 pycharm,关于 pycharm 的安装使用请参考 PyCharm安装使用教程. 而学习过程中,我觉得最好用的,还是 Python 自带的练习工具 I ...
SpringMVC整合Shiro，Shiro是一个强大易用的Java安全框架,提供了认证、授权、加密和会话管理等功能
SpringMVC整合Shiro,Shiro是一个强大易用的Java安全框架,提供了认证.授权.加密和会话管理等功能. 第一步:配置web.xml <!-- 配置Shiro过滤器,先让Shiro ...
screenX, clientX, pageX
screenX:鼠标相对屏幕左上角的水平偏移量. clientX:鼠标相对于浏览器左上角的水平偏移量,会随着滚动条的移动而移动. pageX:鼠标相对浏览器左上角的水平偏移量.不会随着滚动条的移动而移 ...
每日技术总结：filter(),Bscroll
前言: 这是一个vue的电商项目,使用express后端提供数据. 1.filter()函数. 事情是这样的.我从数据库拿到了所有分类数据. 分类有三个等级.父类,子类,孙类这样.但它们都在同一张表里 ...
spark安装与调试
I---- 1---jdk and scala install ****zyp@ubuntu:~/Desktop/software$ tar xvf jdk-7u67-linux-i586.tar.g ...
hdu 3306 Another kind of Fibonacci（矩阵高速幂）
Another kind of Fibonacci Time Limit: 3000/10 ...
从Set里面取出有序的记录
Set里面的记录是无序的.假设想使用Set,然后又想里面的记录是有序的,就能够使用TreeSet.而不是HashSet.在使用TreeSet的时候,里面的元素必须是实现了Comparable接口的,T ...

sparksql dataset

sparksql dataset的更多相关文章

随机推荐

热门专题