hive常用操作

创建数据库

CREATE DATABASE [IF NOT EXISTS] userdb;

建表

普通建表：

create table user_summary_with_tel (

bill_time string comment '订单时间',

tel string  comment '订购号码',

bill_addr string comment '配送地址',

county string comment '区县',

street string  comment '街道',

community string  comment '社区',

campus string  comment '校园',

company string  comment '公司',

building string  comment '大厦',

residential_district string  comment '住宅小区',

industrial_district string  comment '工业区',

city_village string  comment '城中村',

address string  comment '地址名称',

attribute string  comment '属性',

return_address string  comment '返回地址',

ordermonth string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

分区表

create table tb_class_info

(id int,

createtime timestamp ,

modifytime timestamp)

PARTITIONED BY (day string, class_name string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '|'

STORED AS TEXTFILE;

临时表

CREATE TABLE use_resident(

tel string,

bill_addr string,

address string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

STORED AS TEXTFILE;

本地数据写入hive表

load data local inpath '/data/use_resident.csv' overwrite into table use_resident;

load data local inpath '/home/hadoop/tbclass.txt' overwrite into table tb_class_info partition(day='2017-06-01', class_name=val2);

查询结果存储

查询结果写入普通表

insert overwrite table tel_imsi_9551 select distinct(tel, imsi) from sgs_data_partition where tac='9551';

查询结果写入分区表

INSERT INTO TABLE sgs_data_part

PARTITION (day, tac)

SELECT tel, imsi, time, tac_cid day, tac

FROM sgs_data_src;

查询结果写入本地文件

hive -e "user sgs;select a.imsi, b.tel_num, a.summary from user_summary a left outer join imsi_tel_9551 b on a.imsi=b.imsi;" >> user_summary.txt

hive调用python的udf

udf文件

# encoding: utf-8

'''

@author: zcc

@license: (C) Copyright 2013-2017, Node Supply Chain Manager Corporation Limited.

@contact: ********@163.com

@software: pycharm

@file: hive_udf.py

@time: 8/25/17 9:00 AM

@desc:自定义hive函数处理合并后的用户信息

'''

import sys

from collections import Counter

for line in sys.stdin:

    imsi, tac_cids = line.strip().split('\t')

    tac_cids = tac_cids.split('|')

    #   单个用户16天内累计SGSIMSIAatach和SGSIMSIDetach次数小于10则剔除该用户

    if len(tac_cids) < 8: continue

    tac_cid_count = Counter(tac_cids)

    tac_cid_elements = list()

    for key, value in tac_cid_count.iteritems():

        if value <= 1: continue

        tac_cid_elements.append("{0}:{1}".format(key, value))

    print '%s\t%s' % (imsi, ','.join(tac_cid_elements))

add file /home/hadoop/hive_udf.py;

insert overwrite table user_summary select transform(*) using 'python hive_udf.py' as (imsi, tac_cids) from user_info_merge_9551;

清空表

truncate table tel_imsi_9551;

删除表

DROP TABLE [IF EXISTS] table_name;

删除数据库

 DROP DATABASE IF EXISTS userdb;

更改表的字段属性

ALTER TABLE table_one CHANGE old_name new_name net_type_name;

删除表的一个指定分区

alter table table_name drop partition (day=partition_name);

查询结果写入一张新表

CREATE TABLE table_name STORED AS SEQUENCEFILE SELECT * FROM src_table_name;

hive常用操作的更多相关文章

hive 常用操作
参考:https://www.cnblogs.com/jonban/p/10779938.html Hive 启动:hive 退出:hive>quit; show databases; use ...
Hive常用操作之数据导入导出
一.Hive数据导入导出 1.hive数据导出很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词 ...
入门大数据---Hive常用DML操作
Hive 常用DML操作一.加载文件数据到表 1.1 语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename ...
Hive 常用命令和语句
示例数据库为 db_hive 1. 创建表 create-table.sql create table if not exists db_hive.tb_user ( id int, username ...
Hive 时间操作
Hive 时间转换 UNIX时间戳概念:因为UNIX时间戳只是一个秒数,一个UNIX时间戳在不同时区看来,时间是不同的.如UNIX时间戳0,在0时区看来是1970-01-01 00:00:00,在东八 ...
【三】用Markdown写blog的常用操作
本系列有五篇:分别是 [一]Ubuntu14.04+Jekyll+Github Pages搭建静态博客:主要是安装方面 [二]jekyll 的使用 :主要是jekyll的配置 [三]Markdown+ ...
php模拟数据库常用操作效果
test.php <?php header("Content-type:text/html;charset='utf8'"); error_reporting(E_ALL); ...
Mac OS X常用操作入门指南
前两天入手一个Macbook air,在装软件过程中摸索了一些基本操作,现就常用操作进行总结, 1关于触控板: 按下(不区分左右) ＝鼠标左键 control+按下 ...
mysql常用操作语句
mysql常用操作语句 1.mysql -u root -p 2.mysql -h localhost -u root -p database_name 2.列出数据库: 1.show datab ...

随机推荐

HDFS配置参数及优化之实战经验（Linux hdfs）
HDFS优化之实战经验 Linux系统优化一.禁止文件系统记录时间 Linux文件系统会记录文件创建.修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失.在挂载文件系统时设置no ...
elasticsearch-mapping字段重要属性
https://blog.csdn.net/gongpulin/article/details/78705205
HTML与CSS的一些知识（一）
一般写代码的时候,总会有些小错误.为了便于修改以及查找,所以代码格式要写规范,而且一定一定要写注释.因为有时候代码写得多了,真的连自己都找不到自己要找的东西在哪里.还有命名也要见名知意. 再说一些HT ...
IDEA调用其它模块module的类方法
IDEA支持调用本project中其他模块的包里面的方法(需要配置该模块和src同级的.iml文件,配置完需要等一会才生效,尝试切换到桌面以...) 这样会使IDEA的project的模块间有依赖,该 ...
java 反射的简介
https://blog.csdn.net/sinat_38259539/article/details/71799078
论文阅读： Siam FC
一.研究动机一方面传统算法设计的跟踪模型过于简单,另一方面深度学习方法很难达到实时效果然而现实场景中的应用对速度要求较高. "shallow method"(HCFT)没有很好地 ...
Sonar 配置及部署（Linux系统）
之前在windows系统上部署了sonar代码审查,由于工作需要,需要在Linux环境再部署一套. 其实,部署的大体都是大同小异的,这里罗列下各个配置,与windows部署不同的地方会重点说一下. 数 ...
Python简单实现决策树
__author__ = '糖衣豆豆' #决策树 import pandas as pda fname="~/coding/python/data/lesson.csv" data ...
c#数据库事务锁类型
一.脏读.不可重复读.幻象读的区别 1.脏读:包含未提交数据的读取.例如,事务 a 更改了某行(数据库已发生更改,但尚未提交,有可能发生回滚),事务 b 在事务 a 提交更改之前读取已更改的行.如 ...
P2685 [TJOI2012]桥
P2685 [TJOI2012]桥思路: 先求出最短路: d1[u] : u 到 1 的最短路, d2[u] : u 到 n 的最短路再求出一条从 1 到 n 的最短路链,然后从链上的每一个点出发 ...

hive常用操作

相关显示参数设置

创建数据库

建表

本地数据写入hive表

查询结果存储

hive调用python的udf

清空表

删除表

删除数据库

更改表的字段属性

删除表的一个指定分区

查询结果写入一张新表

hive常用操作的更多相关文章

随机推荐

热门专题