sparksql hive作为数据源

根据官方文档的说法,要把hive-site.xml,core-site.xml,hdfs-site.xml拷贝到spark的conf目录下,保证mysql已经启动

java

 public class Demo {

     private static SparkSession session = SparkSession.builder().appName("demo").enableHiveSupport()

             .config("spark.sql.warehouse.dir", "/user/hive/warehouse").getOrCreate();

     public static void main(String[] args) {

         session.sql("drop table if exists students_info");

         session.sql("create table if not exists students_info(name string,age int) "

                 + "row format delimited fields terminated by '\t' \r\n");

         // 将数据导入学生信息表

         session.sql(

                 "load data local inpath '/opt/module/spark-test/data/student_infos.txt' into table default.students_info");

         session.sql("drop table if exists students_score");

         session.sql("create table if not exists students_score(name string,score int)  \r\n"

                 + "row format delimited fields terminated by '\t' \r\n");

         // 将数据导入学生成绩表

         session.sql(

                 "load data local inpath '/opt/module/spark-test/data/student_scores.txt' into table default.students_score");

         // 查询

         Dataset<Row> dataset = session.sql(

                 "select s1.name,s1.age,s2.score from students_info s1 join students_score s2 on s1.name=s2.name where s2.score>80");

         // 将dataset中的数据保存到hive中

         session.sql("drop table if exists students_result");

         dataset.write().saveAsTable("students_result");

         // 将hive中的表转成dataset,查看数据是否成功保存

         Dataset<Row> table = session.table("students_result");

         table.show();

         session.stop();

     }

 }

scala

 object Demo {

   def main(args: Array[String]): Unit = {

     val session = SparkSession.builder().appName("demo").enableHiveSupport().config("spark.sql.warehouse.dir", "/user/hive/warehouse").getOrCreate()

     session.sql("drop table if exists students_info")

     session.sql("create table if not exists students_info(name string,age int) \r\n row format delimited fields terminated by '\t'")

     session.sql("load data local inpath '/opt/module/spark-test/data/student_infos.txt' into table default.students_info")

     session.sql("drop table if exists students_score")

     session.sql("create table if not exists students_score(name string,score int) \r\n row format delimited fields terminated by '\t'")

     session.sql("load data local inpath '/opt/module/spark-test/data/student_scores.txt' into table default.students_score")

     //保存到hive中

     session.sql("drop table if exists students_result")

     session.sql("select s1.name,s1.age,s2.score from students_info s1 join students_score s2 on s1.name=s2.name where s2.score >90").write.saveAsTable("students_result")

     //检查数据是否保存

     val df = session.table("students_result")

     df.show()

     session.stop()

   }

 }

sparksql hive作为数据源的更多相关文章

SparkSQL读写外部数据源--数据分区
import com.twq.dataset.Utils._ import org.apache.spark.sql.{SaveMode, SparkSession} object FileParti ...
SparkSQL读写外部数据源-基本操作load和save
数据源-基本操作load和save object BasicTest { def main(args: Array[String]): Unit = { val spark = SparkSessio ...
SparkSQL读写外部数据源-jext文件和table数据源的读写
object ParquetFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() ...
SparkSQL读写外部数据源-通过jdbc读写mysql数据库
object JdbcDatasourceTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builde ...
SparkSQL读写外部数据源--csv文件的读写
object CSVFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .ap ...
SparkSQL读写外部数据源-json文件的读写
object JsonFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .m ...
报表使用hive数据源报java.net.SocketTimeoutException: Read timed out
数据库表的数据量大概50W左右,在报表设计器下创建了hive的数据源,连接正常,由于数据量比较大,就用了润乾报表的大数据报表功能,报表设置好后,发布到页面中报错: 数据集ds1中,SQL语句SELEC ...
Sparksql 取代 Hive？
sparksql hive https://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-o ...
SparkSQL程序设计
1.创建Spark Session val spark = SparkSession.builder . master("local") .appName("spark ...

随机推荐

SQL_wm_concat函数实验：实现字段合并
原创作品,出自 "深蓝的blog" 博客.欢迎转载.转载时请务必注明下面出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlo ...
知无涯者（The Man Who Knew Infinity）
1913年的1月16号在剑桥大学的三一学院那里,著名的数学家哈代教授收到了一封信,信的开头是这种: "尊敬的先生.仅自我介绍例如以下,我是马德拉斯港务信托处的一个职员,年薪唯独20英镑.23 ...
(win7/8/10)鼠标右键添加按下SHIFT键时弹出带管理员权限的“在此处打开命令窗口”
Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\Directory\Background\shell\runas]@="@sh ...
vue项目在其他电脑运行报错
解决方法1.先删除node_modules文件夹2.$ cnpm cache clean 命令清除掉cache缓存3.cnpm install4.npm run dev
安装filezilla client报错libgnutls版本旧
http://blog.csdn.net/mofabang/article/details/9212217
x264代码剖析（十五）：核心算法之宏块编码中的变换编码
x264代码剖析(十五):核心算法之宏块编码中的变换编码为了进一步节省图像的传输码率.须要对图像进行压缩,通常採用变换编码及量化来消除图像中的相关性以降低图像编码的动态范围.本文主要介绍变换编码的相 ...
simple-word-Highlighter 支持网址正则表达式匹配
【BZOJ 2119】股市的预测
[链接]h在这里写链接 [题意] 给你一个长度为n的数组a[] 设b[i] = a[i+1]-a[i]; 然后让你在b[i]里面找ABA的形式. 这里B的长度要求为m; ...
PBOC
http://blog.sina.com.cn/s/blog_64cc82620100rcgu.html 最近在做一个基于PBOC电子现金卡的终端应用, 项目还没有完成, 但电子现金部分的处理模块已完 ...
键盘钩子监测按键后，获取键码及按键名称(MFC)
LRESULT CALLBACK LowLevelKeyboardProc(int nCode,WPARAM wParam,LPARAM lParam){ if(nCode ==HC_ACTION & ...

sparksql hive作为数据源

sparksql hive作为数据源的更多相关文章

随机推荐

热门专题