spark sql 基本用法

一、通过结构化数据创建DataFrame：

publicstaticvoid main(String[] args) {

  	SparkConf conf = new SparkConf()		.setAppName("DataFrameCreate").setMaster("local");          JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        

        DataFrame df = sqlContext.read().json("hdfs://spark1:9000/students.json");  //结构化数据直接加载为DataFrame

        

        df.show();  

    }

二、通过RDD创建DataFrame的两种创建方式

（数据源students.txt的数据截图）

2.1通过已知类型的schema创建DataFrame，代码如下：

public static void main(String[] args) {

        SparkConf conf = new SparkConf()

            .setMaster("local")

            .setAppName("RDD2DataFrameReflection");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        JavaRDD<String> lines = sc.textFile("D://students.txt");

        

        //将lines转换成 JavaRDD<Student>

        JavaRDD<Student> students = lines.map(new Function<String, Student>() {

            private static final long serialVersionUID = 1L;

            @Override

            public Student call(String line) throws Exception {

                // TODO Auto-generated method stub

                String[] strPlits = line.split(",");

                Student stu = new Student();

                

                stu.setId(Integer.valueOf(strPlits[]));

                stu.setName(strPlits[]);

                stu.setAge(Integer.valueOf(strPlits[]));

                

                return stu;

            }

            

        });

                

        // 使用反射方式，将RDD转换为DataFrame

        // 这里要求，JavaBean必须实现Serializable接口，是可序列化的

        //根据student的schema 和 RDD创建DataFrame

        DataFrame studentsDF = sqlContext.createDataFrame(students, Student.class);

        studentsDF.show();

    }

2.2手动创建schema的方式创建DataFrame

public static void main(String[] args) {

        //...  省略创建sqlContext的过程

      	JavaRDD<String> lines = sc.textFile("D://students.txt");

        

        //将普通RDD装换成JavaRDD<Row>

        JavaRDD<Row> rowRDD = lines.map(new Function<String, Row>() {

            private static final long serialVersionUID = 1L;

            @Override

            public Row call(String line) throws Exception {

                String[] strArray = line.split(",");

                Row row= RowFactory.create(

                        Integer.valueOf(strArray[]),    //id

                        strArray[],    //name

                        Integer.valueOf(strArray[]));    //age

            

                return row;

            }

        });

        

        //第二步 创建元类型， 即创建schema

        List<StructField> structFields = new ArrayList<StructField>();

        structFields.add(DataTypes.createStructField("id", DataTypes.IntegerType, true));  

        structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));  

        structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true));  

        StructType structType = DataTypes.createStructType(structFields);

        //根据元数据类型将JavaRDD<Row>转化成DataFrame

        DataFrame studentDF = sqlCotnext.createDataFrame(rowRDD, structType);

        studentDF.show();

    }

-》DataFrame、RDD、List互转

JavaRDD<Row> rows = studentDF.javaRDD();List<Row> studentList = rows.collect();

三、DataFrame基本用法

        // 打印DataFrame中所有的数据（select * from ...）	df.show();

        // 打印DataFrame的元数据（Schema）

        df.printSchema();

        // 查询某列所有的数据

        df.select("name").show();  

        // 查询某几列所有的数据，并对列进行计算

        df.select(df.col("name"), df.col("age").plus()).show();

        // 根据某一列的值进行过滤

        df.filter(df.col("age").gt()).show();

        // 根据某一列进行分组，然后进行聚合

        df.groupBy(df.col("age")).count().show();

 	DataFrame studentDF = sqlCotnext.createDataFrame(rowRDD, structType);

        studentDF.show();

        studentDF.registerTempTable("students");	//将DataFrame注册为零时表，取名students

        

        //对students零时表做sql查询

        DataFrame oldStudentDF = sqlCotnext.sql("select * from students where age>18");

        

        oldStudentDF.show();

spark sql 基本用法的更多相关文章

Spark SQL入门用法与原理分析
Spark SQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁注 ...
Spark SQL基本概念与基本用法
1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为 ...
Spark SQL中列转行（UNPIVOT）的两种方法
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https: ...
Spark SQL历险记
现在的spark sql编程通常使用scala api 以及 java api的方式,相比于直接使用 spark sql语句,spark api灵活很多,毕竟可以基于dataset以及rdd两种方式进 ...
【慕课网实战】七、以慕课网日志分析为例进入大数据 Spark SQL 的世界
用户: 方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet), 再将处理结果以特定的格式(json.parquet)写回到 ...
Spark SQL 函数全集
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数. 大部分函数与Hive的差不多. 除UDF函数,均可在spark-sql中直接使用. 经过impo ...
org.apache.spark.sql.functions汇总
测试数据: id,name,age,comment,date 1,lyy,28,"aaa bbb",20180102020325 scala> var data = spar ...
DataFrame编程模型初谈与Spark SQL
Spark SQL在Spark内核基础上提供了对结构化数据的处理,在Spark1.3版本中,Spark SQL不仅可以作为分布式的SQL查询引擎,还引入了新的DataFrame编程模型. 在Spark ...
理解Spark SQL(二）—— SQLContext和HiveContext
使用Spark SQL,除了使用之前介绍的方法,实际上还可以使用SQLContext或者HiveContext通过编程的方式实现.前者支持SQL语法解析器(SQL-92语法),后者支持SQL语法解析器 ...

随机推荐

Session会话跟踪
用encodeURL重写URL public class SessionA extends HttpServlet { @Override protected void doGet(HttpServl ...
textwrap——文本包裹和填充模块解析
textwrap模块提供了两个函数wrap()和fill(),以及TextWrapper类,以及另外一个工具函数dedent(). wrap()以及fill()都可以用来格式化一大段文 ...
PHP PDO select语句结果行数计算
PDO有一个函数PDOStatement::rowCount返回上一个SQL语句影响的行数. rowCount函数对于DELETE, INSERT, 或者UPDATE语句的结果是正确的,但对于sele ...
二、Python-----用户交互
1.用户交互 Python 3.0的写法 name = input("Please input your name:") Python 2.0的写法 name = raw_inpu ...
jQuery File Upload 插件 php代码分析
jquery file upload php代码分析首先进入构造方法 __construct() 再进入 initialize()因为我是post方式传的数据在进入initialize()中的po ...
求1+2+...+n
题目:求1+2+…+n,要求不能使用乘除法.for.while.if.else.switch.case等关键字以及条件判断语句(A?B:C). 程序很简单,就看想到想不到了.悲剧,我属于后者... 算 ...
Delphi 类型转换函数（有几个函数没见过，FloatToStrF，FloatToText等等）
Chr 将一个有序数据转换为一个ANSI字符 Ord 将一个有序类型值转换为它的序号 Round 转换一个实型值为四舍五入后的整型值 Trunc 转换一个实型值为小数截断后的整型值 Int 返回浮点数 ...
<Win32_16>来看看标准菜单和右键菜单的玩法
日常应用中,菜单主要分为两种:(1) 标准菜单(处于应用程序菜单栏处的菜单) (2)右键快捷菜单几乎你所见过或使用过的软件中,都有它俩儿为应用程序添加它们的基本步骤: (1)用代码或者IDE ...
javascript 定义类(转载)
Javascript本身并不支持面向对象,它没有访问控制符,它没有定义类的关键字class,它没有支持继承的extend或冒号,它也没有用来支持虚函数的virtual,不过,Javascript是一门 ...
Flex4 设置combobox选项不可编辑
近日做数据的增删改查,使用的flex4的ComboBox控件---> flex4中ComboBox其实就是TextInput的叠加 flex3中ComboBox其实就是Label的叠加开始是使 ...

spark sql 基本用法

spark sql 基本用法的更多相关文章

随机推荐

热门专题