导入HDFS的数据到Hive

1. 通过Hive view

CREATE EXTERNAL TABLE if not exists finance.json_serde_optd_table (

  retCode string,

  retMsg string,

  data array<struct< secid:string,="" tradedate:date,="" optid:string,="" ticker:string,="" secshortname:string,="" exchangecd:string,="" presettleprice:double,="" precloseprice:double,="" openprice:double,="" highestprice:double,="" lowestprice:double,="" closeprice:double,="" settlprice:double,="" turnovervol:double,="" turnovervalue:double,="" openint:int="">>)

ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'

LOCATION 'hdfs://wdp.xxxxx.cn:8020/nifi/finance1/optd/';

create table if not exists finance.tb_optd

as

SELECT b.data.secID,

		b.data.tradeDate,

		b.data.optID,

		b.data.ticker,

		b.data.secShortName,

		b.data.exchangeCD,

		b.data.preSettlePrice,

		b.data.preClosePrice,

		b.data.openPrice,

		b.data.highestPrice,

		b.data.lowestPrice,

		b.data.closePrice,

		b.data.settlPrice,

		b.data.turnoverVol,

		b.data.turnoverValue,

		b.data.openInt

FROM finance.json_serde_optd_table LATERAL VIEW explode(json_serde_optd_table.data) b AS data;

2. 通过Zeppelin

%dep

z.load("/usr/hdp/2.4.2.0-258/hive-hcatalog/share/hcatalog/hive-hcatalog-core.jar");

// 定义导入的hive对象集合

case class HiveConfig(database: String, modelName: String, hdfsPath: String, schema: String, schema_tb: String);

var hiveConfigList = List[HiveConfig]();

// 创建equd数据结构

// 定义json结构

val schema_json_equd_serde ="""  retCode string,

                              retMsg string,

                              data array<struct< secid="" :="" string,="" tradedate="" date,="" ticker="" secshortname="" exchangecd="" precloseprice="" double,="" actprecloseprice:="" openprice="" highestprice="" lowestprice="" closeprice="" turnovervol="" turnovervalue="" dealamount="" int,="" turnoverrate="" accumadjfactor="" negmarketvalue="" marketvalue="" pe="" pe1="" pb="" isopen="" int="">>""";

var schema_equd ="""b.data.secID,

            		b.data.ticker,

            		b.data.secShortName,

            		b.data.exchangeCD,

            		b.data.tradeDate,

            		b.data.preClosePrice,

            		b.data.actPreClosePrice,

            		b.data.openPrice,

            		b.data.highestPrice,

            		b.data.lowestPrice,

            		b.data.closePrice,

            		b.data.turnoverVol,

            		b.data.turnoverValue,

            		b.data.dealAmount,

            		b.data.turnoverRate,

            		b.data.accumAdjFactor,

            		b.data.negMarketValue,

            		b.data.marketValue,

            		b.data.PE,

            		b.data.PE1,

            		b.data.PB,

            		b.data.isOpen""";

hiveConfigList  = hiveConfigList :+ HiveConfig("finance", "equd", "hdfs://wdp.xxxxx.cn:8020/nifi/finance1/", schema_json_equd_serde, schema_equd);

// 创建idxd数据结构

// 定义json结构

val schema_json_idxd_serde ="""  retCode string,

                              retMsg string,

                              data array<struct< indexid:string,="" tradedate:date,="" ticker:string,="" porgfullname:string,="" secshortname:string,="" exchangecd:string,="" precloseindex:double,="" openindex:double,="" lowestindex:double,="" highestindex:double,="" closeindex:double,="" turnovervol:double,="" turnovervalue:double,="" chg:double,="" chgpct:double="">>""";

var schema_idxd ="""b.data.indexID,

            		b.data.tradeDate,

            		b.data.ticker,

            		b.data.porgFullName,

            		b.data.secShortName,

            		b.data.exchangeCD,

            		b.data.preCloseIndex,

            		b.data.openIndex,

            		b.data.lowestIndex,

            		b.data.highestIndex,

            		b.data.closeIndex,

            		b.data.turnoverVol,

            		b.data.turnoverValue,

            		b.data.CHG,

            		b.data.CHGPct""";

hiveConfigList = hiveConfigList :+ HiveConfig("finance", "idxd", "hdfs://wdp.xxxxx.cn:8020/nifi/finance1/", schema_json_idxd_serde, schema_idxd);

// 循环加载数据中

  def loadDataToHive(args:HiveConfig){

    val loadPath = args.hdfsPath + args.modelName;

    val tb_json_serde = "json_serde_" + args.modelName +"_table";

    val tb= "tb_" + args.modelName;

    val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

    if(args.database != "" && args.schema != "") {

        print("正在创建项目..." + args.modelName)

        hiveContext.sql("CREATE DATABASE IF NOT EXISTS " + args.database);

        print("正在构造扩展模型...");

        hiveContext.sql("CREATE TABLE IF NOT EXISTS " + args.database + "." + tb_json_serde + "(" + args.schema + ") row format serde 'org.apache.hive.hcatalog.data.JsonSerDe' LOCATION " + "'" + loadPath + "/'");

        println("CREATE TABLE IF NOT EXISTS " + args.database + "." + tb + " as select " + args.schema_tb + " from " + args.database + "." + tb_json_serde + " LATERAL VIEW explode(" + tb_json_serde + ".data) b AS data");

        hiveContext.sql("CREATE TABLE IF NOT EXISTS " + args.database + "." + tb + " as select " + args.schema_tb + " from " + args.database + "." + tb_json_serde + " LATERAL VIEW explode(" + tb_json_serde + ".data) b AS data");

        println(args.modelName + " 扩展模型加载已完成!");

    }

  }

  hiveConfigList.size;

  hiveConfigList.foreach { x => loadDataToHive(x) };

3. 第二种取法

由于data是json数据里的一个数组，所以上面的转换复杂了一点。下面这种方法是先把json里data数组取出来放到hdfs，然后直接用下面的语句放到hive：

用splitjson 来提取、分隔 data 数组

CREATE EXTERNAL TABLE if not exists finance.awen_optd (

  secid string,

  tradedate date,

  optid string,

  ticker string,

  secshortname string,

  exchangecd string,

  presettleprice double,

  precloseprice double,

  openprice double,

  highestprice double,

  lowestprice double,

  closeprice double,

  settlprice double,

  turnovervol double,

  turnovervalue double,

  openint int)

ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'

LOCATION 'hdfs://wdp.xxxx.cn:8020/nifi/finance2/optd/';

NIFI 中国社区 QQ群：595034369

导入HDFS的数据到Hive的更多相关文章

Hive导入HDFS/本地数据
#创建表人信息表 person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DE ...
第3节 sqoop：4、sqoop的数据导入之导入数据到hdfs和导入数据到hive表
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上一些空格和 “ \ ”,换行继续写余下的命令: bi ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境 ...
将数据导入hive，将数据从hive导出
一:将数据导入hive(六种方式) 1.从本地导入 load data local inpath 'file_path' into table tbname; 用于一般的场景. 2.从hdfs上导入数 ...
sqoop导入数据到hive
1.1hive-import参数使用--hive-import就可以将数据导入到hive中,但是下面这个命令执行后会报错,报错信息如下: sqoop import --connect jdbc:my ...
Hive 导入 parquet 格式数据
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式构造建表语句倒入数据一.查看 parquet 内容和结构下载地址社区工具 GitHub 地址命令查看结构: ...
hdfs数据到hive中，以及hdfs数据隐身理解
hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_ ...
042 将数据导入hive，将数据从hive导出
一:将数据导入hive(六种方式) 1.从本地导入 load data local inpath 'file_path' into table tbname; 用于一般的场景. 2.从hdfs上导入数 ...

随机推荐

第五百八十三天 how can I 坚持
今天去看了个电影,日本动漫,第一次在电影院看日本动漫,<你的名字>,挺经典的.存在爱情吗?什么是爱情,哎.什么是人. 好像有点感冒了呢,说过自己很久没感冒后,往往就会感冒,这到底是怎么回事 ...
第一零三天上课 PHP TP框架下控制器的方法分离
(1)配置信息修改配置文件->Config.php (配置后,原先的控制方法无效) 'ACTION_BIND_CLASS' => TRUE, // 控制器方法分离 (2)在Control ...
XidianOJ 1112 Too stupid
题目描述某天 light由于太富而且太帅遭到了歹徒的袭击,现在他遇到了n个歹徒,准备对light施行不法行为,虽然light身体强壮,但是毕竟只有一个人肯定打不过那么多歹徒,但是高智商的light觉 ...
file access , argc, argv[ ]
_____main函数含有两个参数 ,argc ,argv[] 这两个参数用以指示命令行输入的参数信息. argc 的值是输入的参数的数量.argv是一个数组,每个数组元素指向一个string字符串 ...
MS sql server 基础知识回顾（二）-表连接和子查询
五.表连接当数据表中存在许多重复的冗余信息时,就要考虑将这些信息建在另一张新表中,在新表中为原表设置好外键,在进行数据查询的时候,就要使用到连接了,表连接就好像两根线,线的两端分别连接两张表的不同字 ...
Java设计模式——组合模式
JAVA 设计模式组合模式用途组合模式 (Component) 将对象组合成树形结构以表示“部分-整体”的层次结构.组合模式使得用户对单个对象和组合对象的使用具有唯一性. 组合模式是一种结构型模 ...
Win7 64位系统 VS2010连接Oracle报错的问题
1,异常现象: TNS无法识别 2,异常分析:VS2010启动调试的时候,出现异常.但是使用IIS作为服务器的时候,是不会出现异常,也就是可以正常访问到数据库,后来分析是由于VS自带服务器ASP.NE ...
js中==与===的区别
asp.net GDI+绘制折线
using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.We ...
webstorm下搭建编译less环境
webstorm自带less,不过要编译的话需要nodejs环境. 首先去node的主页下载对应版本的nodejs然后安装,下载地址:http://nodejs.org/ 安装完之后打开命令提示符(w ...

导入HDFS的数据到Hive

1. 通过Hive view

2. 通过Zeppelin

3. 第二种取法

导入HDFS的数据到Hive的更多相关文章

随机推荐

热门专题