sparksql hive作为数据源

根据官方文档的说法,要把hive-site.xml,core-site.xml,hdfs-site.xml拷贝到spark的conf目录下,保证mysql已经启动

java

 public class Demo {

     private static SparkSession session = SparkSession.builder().appName("demo").enableHiveSupport()

             .config("spark.sql.warehouse.dir", "/user/hive/warehouse").getOrCreate();

     public static void main(String[] args) {

         session.sql("drop table if exists students_info");

         session.sql("create table if not exists students_info(name string,age int) "

                 + "row format delimited fields terminated by '\t' \r\n");

         // 将数据导入学生信息表

         session.sql(

                 "load data local inpath '/opt/module/spark-test/data/student_infos.txt' into table default.students_info");

         session.sql("drop table if exists students_score");

         session.sql("create table if not exists students_score(name string,score int)  \r\n"

                 + "row format delimited fields terminated by '\t' \r\n");

         // 将数据导入学生成绩表

         session.sql(

                 "load data local inpath '/opt/module/spark-test/data/student_scores.txt' into table default.students_score");

         // 查询

         Dataset<Row> dataset = session.sql(

                 "select s1.name,s1.age,s2.score from students_info s1 join students_score s2 on s1.name=s2.name where s2.score>80");

         // 将dataset中的数据保存到hive中

         session.sql("drop table if exists students_result");

         dataset.write().saveAsTable("students_result");

         // 将hive中的表转成dataset,查看数据是否成功保存

         Dataset<Row> table = session.table("students_result");

         table.show();

         session.stop();

     }

 }

scala

 object Demo {

   def main(args: Array[String]): Unit = {

     val session = SparkSession.builder().appName("demo").enableHiveSupport().config("spark.sql.warehouse.dir", "/user/hive/warehouse").getOrCreate()

     session.sql("drop table if exists students_info")

     session.sql("create table if not exists students_info(name string,age int) \r\n row format delimited fields terminated by '\t'")

     session.sql("load data local inpath '/opt/module/spark-test/data/student_infos.txt' into table default.students_info")

     session.sql("drop table if exists students_score")

     session.sql("create table if not exists students_score(name string,score int) \r\n row format delimited fields terminated by '\t'")

     session.sql("load data local inpath '/opt/module/spark-test/data/student_scores.txt' into table default.students_score")

     //保存到hive中

     session.sql("drop table if exists students_result")

     session.sql("select s1.name,s1.age,s2.score from students_info s1 join students_score s2 on s1.name=s2.name where s2.score >90").write.saveAsTable("students_result")

     //检查数据是否保存

     val df = session.table("students_result")

     df.show()

     session.stop()

   }

 }

sparksql hive作为数据源的更多相关文章

SparkSQL读写外部数据源--数据分区
import com.twq.dataset.Utils._ import org.apache.spark.sql.{SaveMode, SparkSession} object FileParti ...
SparkSQL读写外部数据源-基本操作load和save
数据源-基本操作load和save object BasicTest { def main(args: Array[String]): Unit = { val spark = SparkSessio ...
SparkSQL读写外部数据源-jext文件和table数据源的读写
object ParquetFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() ...
SparkSQL读写外部数据源-通过jdbc读写mysql数据库
object JdbcDatasourceTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builde ...
SparkSQL读写外部数据源--csv文件的读写
object CSVFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .ap ...
SparkSQL读写外部数据源-json文件的读写
object JsonFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .m ...
报表使用hive数据源报java.net.SocketTimeoutException: Read timed out
数据库表的数据量大概50W左右,在报表设计器下创建了hive的数据源,连接正常,由于数据量比较大,就用了润乾报表的大数据报表功能,报表设置好后,发布到页面中报错: 数据集ds1中,SQL语句SELEC ...
Sparksql 取代 Hive？
sparksql hive https://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-o ...
SparkSQL程序设计
1.创建Spark Session val spark = SparkSession.builder . master("local") .appName("spark ...

随机推荐

jQuery快速入门知识重点
1.jquery中attr与prop的区别 attr:是通过setAttribute 和 getAttribute来设置的使用的是DOM属性节点 prop:是通过document.getEle ...
sass和less，优秀的前端样式预处理器
身为切图界的一员,或者说在前端界打滚了一段日子的你.会慢慢地发现.如今的css编写已经不能满足自己的效率. 假设有更强大的框架,让你的css更灵活和更easy复用和维护,那该多好啊.非常明显,这个早已 ...
oracle_经常使用分组函数
oracle_经常使用分组函数 ①分组函数 1.max(column):求最大值,对数据类型没有要求,随意数据类型都能够 2.min(column):求最小值,对数据类型没有要求,随意数据类型都 ...
关于jsonp跨域的问题以及解决方法(跨域、同源与非同源)
什么是跨域? 想要了解跨域,首先需要了解下浏览器的同源机制: JSONP和AJAX相同,都是客户端向服务器端发送请求:给服务器端传递数据或者从服务器端获取数据的方式 JSONP属于非同源策略(跨 ...
ElasticSearch 2.4
ES是一个基于Lucene的分布式全文搜索服务器,和SQL Server的全文索引(Fulltext Index)有点类似,都是基于分词和分段的全文搜索引擎,具有分词,同义词,词干查询的功能,但是ES ...
UITextField用法
.创建 .UITextField* textField = [[UITextField alloc]initWithFrame:CGRectMake(, , , )]; .设置委托 //委托类需要遵守 ...
程序猿必备软件转载自 www.uhdesk.com
XMLSpy 2012 企业版中文破解版软件描写叙述: XMLSpy是XML(标准通用标记语言的子集)编辑器,支持WYSWYG.支持Unicode.多字符集,支持Well-formed和Valida ...
7、linux之定时器
(1) 一个timer_list 结构体的实例对应一个定时器,其定义如下: struct timer_list { struct list_head entry, /*定时器列表*/ unsigned ...
8、摄像头驱动_Linux的V4L2架构分析
V4L2架构可以参考 linux-3.4.2\Documentation\video4linux\v4l2-framework.txt V4L2全名为Video For Linux 2,它是针对Li ...
SetForegroundWindow
SetForegroundWindow 函数功能:该函数将创建指定窗口的线程设置到前台,并且激活该窗口.键盘输入转向该窗口,并为用户改各种可视的记号.系统给创建前台窗口的线程分配的权限稍高于其他线程. ...

sparksql hive作为数据源

sparksql hive作为数据源的更多相关文章

随机推荐

热门专题