spark 读取hive 计算后写入hive

package com.grady

import org.apache.spark.SparkConf

import org.apache.spark.sql.{DataFrame, Row, SparkSession}

object HiveTableToTable {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("StuToStu2")

    val spark: SparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()

    //tableToTable1(spark)

    tableToTable2(spark)

  }

  /**

   * spark sql 方式

   * @param spark

   */

  def tableToTable1(spark: SparkSession): Unit = {

    spark.sql("select * from jiang.student").show()

    spark.sql("create table if not exists jiang.student_male like jiang.student;")

    spark.sql("insert overwrite table jiang.student_male select * from jiang.student where sex = 'male'")

  }

  /**

   * 编程方式

   * @param spark

   */

  def tableToTable2(spark: SparkSession):Unit = {

    spark.sql("create table if not exists jiang.student_female like jiang.student")

    val dataFrame = spark.sql("select * from jiang.student")

    val femaleDataSet = dataFrame.where("sex = 'female'")

    // 有它和 case class Student 才能toDF，直接定义写成类文件不行

    import spark.implicits._

    val studentsDF = femaleDataSet.rdd.map( r =>

      Student(r(0).toString.toInt, r(1).toString, r(2).toString, r(3).toString.toInt, r(4).toString)

    ).map(s => {

      Student(s.id, s.name, s.sex, 18, "FemaleFt")

    }).toDF()

    studentsDF.write.mode("overwrite").insertInto("jiang.student_female")

// 方法二

//    val schema = SchemaType.getStudentSchema()

//    这里studentsRDD 需要转换成RDD[Row] 才可以使用

//    val femaleStudentDF = spark.createDataFrame(studentsRDD, schema)

  }

}

case class Student(id: Int, name: String, sex: String, age: Int, department: String)

执行：

spark-submit --master local[2] --num-executors 10 --class com.grady.HiveTableToTable /app/data/appdeploy/usehive1-1.0-SNAPSHOT.jar

日志：

hive> select * from student_female;

2       xiaochen        female  18      FemaleFt

Time taken: 2.838 seconds, Fetched: 1 row(s)

spark 读取hive 计算后写入hive的更多相关文章

c#读取文本文档实践4-读入到list泛型集合计算后写入新文档
商品数量单价英语 66 100语文 66 80数学 66 100化学 66 40物理 66 60 上面截图是要处理的文本文档内容,目的是计算出总价并加在最后一列. 这一篇与上一篇比较类似,目的相同 ...
大数据学习day25------spark08-----1. 读取数据库的形式创建DataFrame 2. Parquet格式的数据源 3. Orc格式的数据源 4.spark_sql整合hive 5.在IDEA中编写spark程序（用来操作hive） 6. SQL风格和DSL风格以及RDD的形式计算连续登陆三天的用户
1. 读取数据库的形式创建DataFrame DataFrameFromJDBC object DataFrameFromJDBC { def main(args: Array[String]): U ...
spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
Spark 读取HDFS csv文件并写入hive
package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SaveMode, Spar ...
解决Spark读取Hive分区表出现Input path does not exist的问题
假设这里出错的表为test表. 现象 Hive读取正常,不会报错,Spark读取就会出现: org.apache.hadoop.mapred.InvalidInputException: Input ...
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
spark sql 查询hive表并写入到PG中
import java.sql.DriverManager import java.util.Properties import com.zhaopin.tools.{DateUtils, TextU ...

随机推荐

Spring IOC 为什么能降低耦合
有同学在学习 Spring 框架中可能会问这样的问题,为什么通过依赖注入就可以降低代码间的耦合呢?我通过 new 生产对象不也可以吗,不就是一行代码的不同,一个是 @Resource 注入,一个是 n ...
Nginx防御CC攻击
CC攻击可以归为DDoS攻击的一种.他们之间都原理都是一样的,即发送大量的请求数据来导致服务器拒绝服务,是一种连接攻击.CC攻击又可分为代理CC攻击,和肉鸡CC攻击.代理CC攻击是黑客借助代理服务器生 ...
TCP和UDP协议的区别以及原理
参考文章https://blog.csdn.net/weixin_38483133/article/details/123864253
docker容器内修改文件
1.找到容器对应的ID 使用docker ps命令找到对应的镜像id 2.根据容器id进入到对应文件夹执行命令:docker exec -it 镜像id /bin/bash 3.进入对应目录(以My ...
springboot中的任务处理
springboot中的任务处理一.异步任务在开发中有时用户提交的数据,后台需要一定时间才能做出响应,此时用户在前台也不能在等待中,此时就应该先开启异步请求处理,利用多线程,先给前台反馈,后台另一 ...
selenium环境配置和八大元素定位
一.环境配置 1.selenium下载安装安装一:pip install selenium(多数会超时安装失败) 安装二:pip install -i https://pypi.tuna.tsing ...
Calendar类介绍_获取对象的方式和Calendar类的常用成员方式
java.util.Calendar是日历类,在Date后出现,替换掉了许多Date方法.该类将所有可能用到的时间信息封装为静态成员变量,方便获取.日历类就是方便获取各个时间属性的. Calendar ...
vscode 个人配置 settings.json
{ "workbench.colorTheme": "Default Dark+", "workbench.iconTheme&quo ...
linux 文件存放目录
Linux不靠文件扩展名区分文件类型(windous病毒和木马不能在linux里面运行) 所有的存储设备都必须挂载之后才能使用(包括硬盘,U盘和光盘),例如给它手工给它分配盘符 Linux所有内容以文 ...
Odoo14 ir.rule 中的domain查询语句
# ir.rule 中的domain查询语句 # 当你的字段是many2one.many2many.one2many的时候domain都会强制加上过滤域 # tree显示的时候也会过滤 # m.mod ...

spark 读取hive 计算后写入hive

spark 读取hive 计算后写入hive的更多相关文章

随机推荐

热门专题