Hive-1.2.1_05_案例操作

1. 建库建表 # 建库 create database exercise; # 建表 create table student(Sno int,Sname string,Sex string,Sage int,Sdept string) row format delimited fields terminated by ','; create table course(Cno int,Cname string) row format delimited fields terminated by…

Arcgis案例操作教程——去掉Z值和M值

Arcgis案例操作教程--去掉Z值和M值商务合作,科技咨询,版权转让:向日葵,135-4855__4328,xiexiaokui#qq.com 处理前处理后: 处理方法商务合作,科技咨询,版权转让:向日葵,135-4855__4328,xiexiaokui#qq.com…

Hive的基本知识与操作

Hive的基本知识与操作目录 Hive的基本知识与操作 Hive的基本概念为什么使用Hive? Hive的特点: Hive的优缺点: Hive应用场景 Hive架构 Client Metastore(元数据) sql语句是如何转化成MR任务的? 数据处理 Hive的三种交互方式第一种交互方式第二种交互方式第三种交互方式 Hive元数据 Hive的基本操作创建数据库修改数据库查看数据库详细信息删除数据库 Hive的数据类型基础数据类型复杂的数据类型 Hive的文件格式 Hiv…

41、Hive数据源复杂综合案例

一.Hive数据源案例 1.概述 Spark SQL支持对Hive中存储的数据进行读写.操作Hive中的数据时,必须创建HiveContext,而不是SQLContext.HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表, 以及用HiveQL语法编写SQL的功能.除了sql()方法,HiveContext还提供了hql()方法,从而用Hive语法来编译sql. 使用HiveContext,可以执行Hive的大部分功能,包括创建表.往表里导入数据以及用SQL语…

Hive、Spark优化案例

一.Join原则将条目少的表/子查询放在Join的左边.原因:在Join的reduce阶段,位于Join左边的表的内容会被加载进内存,条目少的表放在左边,可以减少发生内存溢出的几率. 小表关联大表:用MapJoin把小表全部加载到内存在map端Join,避免reducer处理.如: select /*+ MapJoin(user)*/ l.session_id,u.username from user u join page_views l on u.id = l.user_id 二.控制ma…

Hive常用的SQL命令操作

Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过describe function functionName 查看函数使用方法. hive支持的数据类型很简单就INT(4 byte integer),BIGINT(8 byte integer),FLOAT(single precision),DOUBLE(double precision),BOOLEAN,STRING等原子类型,连日期时间类型…

Playmaker 基础使用与案例操作

首先是把下载好的插件导入Unity工程中. ▼导入完成后第一个动作就是检查下拉菜单里面是否已经增加了Playmaker的功能,如果在安装后没看到Playmaker的菜单,一般情况下直接点击菜单上的空白处即可出现. <ignore_js_op> ▼那么要如何打开Playmaker的编辑器呢?很简单,执行 Playmaker > Playmaker Editor即可弹出Playmaker的专用编辑器,如图所示: <ignore_js_op> ▼为了提升Playmaker的操作效率…

hive数据库的哪些函数操作是否走MR

平时我们用的HIVE 我们都知道 select * from table_name 不走MR 直接走HTTP hive 0.10.0为了执行效率考虑,简单的查询,就是只是select,不带count,sum,group by这样的,都不走map/reduce,直接读取hdfs文件进行filter过滤.这样做的好处就是不新开mr任务,执行效率要提高不少,但是不好的地方就是用户界面不友好,有时候数据量大还是要等很长时间,但是又没有任何返回. 改这个很简单,在hive-site.xml里面有个配置参数…

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

方案一:请参考<数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])>,该方案是sqlserver,oracle,mysql,hive均适用的. 在hive中的方案分为以下两种方案: 创建测试表,并插入测试数据: --hive 测试行转列 collect_set collect_list create table tommyduan_test( gridid string, height int, cell st…

hive元数据库表分析及操作

在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息.与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库.表.分区等都可以在HDFS找到对应的文件.这里说到的元数据可以理解成hive中用于保存数据库.表.分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射. 这些映射关系比较常见的一个场景是保存在mysql数据库中.接下来会分析hive安装时的一些配置信息,以及元数据库中主要表的用途. 一.hive配置有关hi…

大数据【五】Hive（部署；表操作；分区）

一概述就像我们所了解的sql一样,Hive也是一种数据仓库,不同的是hive是在hadoop大数据生态圈中所用.这篇博客我主要介绍Hive的简单表运用. Hive是Hadoop 大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据.以类SQL的方式来操作表格里的数据. Hive的设计目的是能够以类SQL的方式查询存放在HDFS上的大规模数据集,不必开发专门的MapReduce应用. Hive本质上相当于一个MapReduce和HDFS的翻译终端,用户提交Hive脚本后,H…

HIVE中的order by操作

hive中常见的高级查询包括:group by.Order by.join.distribute by.sort by.cluster by.Union all.今天我们来看看order by操作,Order by表示按照某些字段排序,语法如下: select col,col2... from tableName where condition order by col1,col2 [asc|desc] 注意: (1):order by后面可以有多列进行排序,默认按字典排序. (2):order…

Hive命令行经常使用操作（数据库操作，表操作）

数据库操作查看全部的数据库 hive> show databases ; 使用数据库default hive> use default; 查看数据库信息 hive > describe database default; OK db_name comment location owner_name owner_type parameters default Default Hive database hdfs://hadoop1:8020/user/hive/warehouse pub…

Hadoop Hive概念学习系列之hive的索引及案例（八）

hive里的索引是什么? 索引是标准的数据库技术,hive 0.7版本之后支持索引.Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中. Hive的索引功能现在还相对较晚,提供的选项还较少.但是,索引被设计为可使用内置的可插拔的java代码来定制,用户可以扩展这个功能来满足自己的需求. 当然不是说有的查询都会受惠于Hive索引.用户可以使用EXPLAIN语法来分析HiveQL语句是否…

hive导入导出数据案例

查询数据: use ods;set /user.password=ODS-SH;select * from base_cdma_all limit 10; use tag_bonc;select * from dpi_http_userapp_statistics limit 100000; #设置显示当前使用的数据库 set hive.cli.print.current.db=true; #设置不优先使用MapReduce set hive.exec.mode.local.auto=true…

Hive数据类型和DDL操作

hive命令在Linux下的命令行中直接输入如下命令,可以查看帮助信息: # hive -help 常用的如-e.-f参数. 使用-e参数,可以直接在命令行传递SQL语句进行hive表数据的查询: # hive -e "select * from testhive.testtable" 使用-f参数,可以在命令行中传递文件进行进行hive表数据的查询,首先使用如下命令创建一个名为test.hql的文件: # vim test.hql 在该文件中写入SQL语句: select * fr…

Spark+Hadoop+Hive集群上数据操作记录

[rc@vq18ptkh01 ~]$ hadoop fs -ls / drwxr-xr-x+ - jc_rc supergroup 0 2016-11-03 11:46 /dt [rc@vq18ptkh01 ~]$ hadoop fs -copyFromLocal wifi_phone_list_1030.csv /dt [rc@vq18ptkh01 ~]$ hadoop fs -copyFromLocal wifi_phone_list_1031.csv /dt [rc@vq18ptkh01…

hive数据导出和常用操作

导出到本地文件 insert overwrite local directory '/home/hadoop'select * from test1; 导出到hdfs insert overwrite directory '/data/input'select * from test1; 导出到本地文件 hive -e "select * from test1" >> /home/hadoop/d.txt hive -f a.sql >> local/e.txt…

Centos中hive/hbase/hadoop/mysql实际操作及问题总结

目录 Hive中文乱码问题 hive和hbase的版本不一致 Ambari hive插入Hbase出错 Hive0.12和Hbase0.96不兼容,重新编译hive0.12.0 hiveserver不能正常启动 hive连接eclipse不能复杂查询,不能加where Hive中文乱码问题众所周知,我们都是使用mysql存储hive的元数据,可以执行带有中文注释的建表文件,解决中文乱码的问题: 要把元数据库设定为latin1而把存储中文的数据表的编码设定为utf-8格式,即存储在hive里的表…

[Hive_add_10] Hive 的 serde (序列化 & 反序列化) 操作

0. 说明 serde 是序列化和反序列化 serialize & deserialize 是将文件中的字段映射成 Hive 中的列 1. 验证 1.1 openCSVSerde CSV 为逗号分隔的文件 create table serde_csv (id int, name string , age int) row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde' stored as textfile; create tab…

Hive的union和join操作

建表语句: create table tb_in_base ( id bigint, devid bigint, devname string ) partitioned by (job_time bigint) row format delimited fields terminated by ','; create table tb_in_up ( id bigint, devid bigint, devname string ) par…

Hive 修改表结构常用操作

添加列 add columns alter table table_name add columns (id int comment '主键ID' ) ; 默认在表所有字段之后,分区字段之前. 替换列 replace columns ,会替换所有列,慎用! alter table table_name replace columns (id int comment '主键ID' ) ; 修改字段名称.类型.注释 change 1. 修改字段注释 alter table table_name c…

sqoop导入数据到hive表中的相关操作

1.使用sqoop创建表并且指定对应的hive表中的字段的数据类型,同时指定该表的分区字段名称 sqoop create-hive-table --connect "jdbc:oracle:thin:@192.168.13.1:1521/test" --username root --password 12345 --table test --hive-table myhive5 --hive-partition-key partition_time --map-column-hive…

hive学习(五) 应用案例

1.实现struct数据结构例子 1.1创建student表 create table student( id int, info struct<name:string,age:int> ) row format delimited fields terminated by ',' collection items terminated by ':'; 1.2向这个student表中插入数…

hive执行更新和删除操作

Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置.要想支持行级insert.update.delete,需要配置Hive支持事务. 一.Hive具有ACID语义事务的使用场景1. 流式接收数据.许多用户使用诸如Apache Flume.Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群.当这些工具以每秒数百行的频率写入时,Hive也许只能每15分钟到1小时添加一个分区,因为过于频繁地添加分区很快就会使一个表中的分区数量难以维…

hive 用户订单行为基础操作

今天用hive查询用户日志表.这是日志表的格式: user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province 328862,323294,833,2882,2661,8,29,0,0,1,内蒙古 328862,844400,1271,2882,2661,8,29,0,1,1,山西 328862,575153,1271,2882,2661,8,29,0,2,1,山西 328862,99…

hive支持事务及单行操作 update delete

测试环境 Hive 1.2.1000.2.6.0.3-8 set hive.support.concurrency=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager; set hive.compactor.initiator.on=true; ; drop table tmp_ccc_20180716;…

Hive进阶_Hive的客户端操作

启动远程客户端 # hive --service hiveserver2获取连接-〉创建运行环境-〉执行HQL-〉处理结果-〉释放资源工具类 package demo.utils; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JD…

Hive扩展功能(九)--Hive的行级更新操作(Update)

软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这三部机, 每部主机的用户名都为centos 192.168.179.201: m1 192.168.179.202: m2 192.168.179.203: m3 m1: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Master, Worker m2: Zooke…

Hive窗口函数最全案例详解

语法: 分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置) 常用分析函数: 聚合类 avg().sum().max().min() 排名类 row_number() 按照值排序时产生一个自增编号,不会重复 rank() 按照值排序时产生一个自增编号,值相等时会重复,会产生空位 dense_rank() 按照值排序时产生一个自增编号,值相等时会重复,不会产生空位其他类 lag(列名,往前的行数,[行数为null时的默…

【Hive-1.2.1_05_案例操作】的更多相关文章