scala spark 调用hivecontext

import org.apache.spark.rdd.RDD

def save(data: RDD[ModelReplay], modelKey: String, dt: String): Unit = {

  val tableName = s"tmp.model_replay_${modelKey}_di"

  val hiveContext = new org.apache.spark.sql.hive.HiveContext(data.sparkContext)

  import hiveContext.implicits._
  data.toDF().registerTempTable("result_table")

  val sql_create_table = s"create table if not exists ${tableName}( " +
    s"order_id bigint ," +
    s"pctr double " +
    s" )partitioned by (dt string comment '') stored as orc"

  val sql_insert = s"insert into ${tableName} partition(dt='${dt}') select order_id,pre from result_table"

  println("sql_create_table="+sql_create_table)
  // 创建表
  hiveContext.sql(sql_create_table)

  println("sql_insert="+sql_insert)
  // 插入数据
  hiveContext.sql(sql_insert)

}

scala spark 调用hivecontext的更多相关文章

spark调用hdfsAPI
spark 调用 hdfs API 查询文件名字.删除文件: 获取HDFS上面某个路径下的所有文件的名字 import org.apache.hadoop.conf.Configuration imp ...
Eclipse+maven+scala+spark环境搭建
准备条件我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse ...
在scala中调用java代码
详细代码请见https://github.com/lujinhong/scalademo 在scala中调用java代替非常非常简单,直接调用即可 (一)一个简单示例 1.创建一个java类 pa ...
brdd 惰性执行 mapreduce 提取指定类型值 WebUi 作业信息全局临时视图 pyspark scala spark 安装
[rdd 惰性执行] 为了提高计算效率 spark 采用了哪些机制 1-rdd 基于分布式内存数据集进行运算 2-lazy evaluation :惰性执行,即rdd的变换操作并不是在运行该代码时立 ...
在IntelliJ IDEA中创建和运行java/scala/spark程序
本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍在IntelliJ IDEA中创建和运行java/scala/spark程序基本概念介 ...
idea在本地调试，spark创建hiveContext的时候报错
spark版本:1.6.1 scala版本:2.10 问题呢场景: 在idea调试本地程序的时候创建hiveContext报错,上午的时候是没有这个问题的,下午在项目中写了一个小deamon,出现了而 ...
scala spark 机器学习初探
Transformer: 是一个抽象类包含特征转换器, 和最终的学习模型, 需要实现transformer方法通常transformer为一个RDD增加若干列, 最终转化成另一个RDD, 1. 特征 ...
scala,spark练习题提高
1.求每家公司有哪些产品 val arr3 = List("Apache" -> "Spark", "Apache" -> &q ...
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...

随机推荐

C# 爬取网页上的数据
最近工作中需求定时爬取不同城市每天的温度.其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程..NET提供了很多类去访问并获得远程网页的数据,比如WebClient类和HttpWebReque ...
asp.net 网站发布时去掉.cs文件
VS2013在WIN8下扁平的UI和我今天锈垢的大脑,让找这个设置找了好半天!!! OK,言归正传. 在要发布的网站上右键,选择"发布网站". 在发布窗口中,会让你选择 ...
【Spring学习笔记-MVC-15.1】Spring MVC之异常处理=404界面
作者:ssslinppp 异常处理请参考前篇博客:<[Spring学习笔记-MVC-15]Spring MVC之异常处理>http://www.cnblogs.com/sssl ...
python + docker, 实现天气数据从FTP获取以及持久化（五）-- 利用 Docker 容器化 Python 程序
背景不知不觉中,我们已经完成了所有的编程工作.接下来,我们需要把 Python 程序做容器化 (Docker)部署. 思考考虑到项目的实际情况,“持久化天气”的功能将会是一个独立的功能模块发布 ...
ie下 iframe在页面中显示白色背景如何去掉的问题
ie下:
第15章高并发服务器编程（1）_非阻塞I/O模型
1. 高性能I/O (1)通常,recv函数没有数据可用时会阻塞等待.同样,当socket发送缓冲区没有足够多空间来发送消息时,函数send会阻塞. (2)当socket在非阻塞模式下,这些函数不会阻 ...
Spark分析之DAGScheduler
DAGScheduler概述:是一个面向Stage层面的调度器: 主要入参有: dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, ...
洛谷：：P1972 [SDOI2009]HH的项链
题目背景无题目描述 HH 有一串由各种漂亮的贝壳组成的项链.HH 相信不同的贝壳会带来好运,所以每次散步完后,他都会随意取出一段贝壳,思考它们所表达的含义.HH 不断地收集新的贝壳,因此,他的项链 ...
代码生成器 CodeSmith 的使用（六）
在上一篇的版本中,我们生成了数据库所有表中的字段,如果要使数据库中的单个表生成 PetaPoco 构架下的 ORM 映射,使那怎么办.这是这篇博客的主要内容. 首先来看完整的 Camel 规则模板: ...
python-log-env
logging.basicConfig(format="[%(asctime)s] %(filename)s[line:%(lineno)d] %(levelname)s: %(messag ...

scala spark 调用hivecontext

scala spark 调用hivecontext的更多相关文章

随机推荐

热门专题