Hive进阶(上)】的更多相关文章

Hive进阶(上) Hive进阶(上) 执行数据导入 使用Load语句 语法: 1.LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)] 说明: [LOCAL]:从操作系统中的一个目录中进行导入,如果不写LOCAL则为hdfs的数据导入 INPATH:为导入的路径,后面指明文件目录路径,如不指明文件名,则将目录下的所有文件…
Hive进阶(下) Hive进阶(下) Hive的表连接 等值连接 查询员工信息:员工号.姓名.月薪.部门名称 1.select e.empno,e.ename,e.sal,d.dname2.from emp e,dept d3.where e.deptno=d.deptno; 不等值连接 查询员工信息:员工号.姓名.月薪.工资级别 1.select e.empno,e.ename,e.sal,s.grade2.from emp e,salgrade s3.where e.sal between…
Docker入门与进阶(上) 作者 刘畅 时间 2020-10-17 目录 1 Docker核心概述与安装 1 1.1 为什么要用容器 1 1.2 docker是什么 1 1.3 docker设计目标 1 1.4 docker基本组成 1 1.5 容器vs虚拟机 2 1.6 docker应用场景 2 1.7 安装docker 2 2 Docker镜像管理 3 2.1 什么是镜像 3 2.2 镜像从哪里来 4 2.3 镜像与容器联系 4 2.4 镜像常用管理命令 4 2.5 镜像存储核心技术(联合…
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍 月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: l  优点: 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线: 2.使用JDBC 接口/ODBC接口,开发人员更易开发应用: 3.以MR 作为计算引擎.HDFS 作为存储系统,为超大数据集设计的计…
接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量 修改/etc/profile vi /etc/profile PATH=$PATH:/usr/java/jdk1..0_31/bin:/opt/litong/bin source /etc/profile 立即起效 二.配置文件开发 Hive_sql Mysql_table=rpt_sale_daily mys…
hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数. 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一.Java通过正则表达式,截取标题名称. 以链接,截取标红的字符串. http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffwdz-10-35RcM&ti=ZX8H 为例. 核心代码如下, imp…
两种情况下不走map-reduce: 1. where ds >' ' //ds 是partition 2. select * from table //后面没有查询条件,什么都没有 1.建表 CREATE TABLE sal( id INT, name STRING, salary INT ) partitioned by (city string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; 1.1 修…
1.日期格式转换(将yyyymmdd转换为yyyy-mm-dd) select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd') 2..hive去掉字段中除字母和数字外的其它字符 select regexp_replace(a, '[^0-9a-zA-Z]', '') from tbl_name 3.hive解析json字段 content字段存储json {"score":"100"…
前面提到了Hive的知识点非常零散,我不知道该怎么把这些知识点分类,跟SQL关系没那么大的就放在这一篇吧. Hive Serde 参考Hive Serde Serde是啥 Serde是序列化和反序列化的简称.为啥这么说?序列化是Serializer,反序列化是Deserializer,各取前几个字母一拼就成了.Hive里的序列化和反序列化干嘛用的?简单的说,就是在HDFS文件和表数据之间做转换. Hive使用Serde(还有文件格式化)来读写表记录. 读数据:HDFS文件->输入文件格式->键…
concat_ws() 在hive中,被连接对象必须为string或者array<string>,否则报错如下: hive> select concat_ws(',',unix_timestamp('2012-12-07 13:01:03'),unix_timestamp('2012-12-07 15:01:03')); FAILED: SemanticException [Error 10016]: Line 1:21 Argument type mismatch ''2012-12-…
-- mysql方式 create table account_channel(account_ String,channel_ String) as select a.account,b.channel from register a join `install` b on a.device = b.device -- hive方式 create table account_channel ROW FORMAT DELIMITED FIELDS TERMINATED BY '^' STORED…
=========================================================================== 第2章 Hive数据的导入 使用Load语句执行数据的导入: LOAD 导入语句到数据仓库的表当中. load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcoll=val1, partcal2=val2...)] explain:…
Hive中的自定义函数简介 (1) 在类中创建自定义函数.自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现evaluate函数,evaluate函数支持重载. (2) 将该类所在的包导出成jar包,放入linux目录下. (3) 进入hive客户端,删除旧的jar包 hive> delete jar /dir/.jar; (4) 添加新的jar包 hive> add jar /dir/.jar (5) 创建临时函数,指向jar包中的类 hive…
启动远程客户端 # hive --service hiveserver2获取连接-〉创建运行环境-〉执行HQL-〉处理结果-〉释放资源 工具类 package demo.utils; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JD…
- 集合中如果含null数据,不可使用not in, 可以使用in- hive只支持where和from子句中的子查询- 主查询和自查询可以不是同一张表 select e.ename from emp e where e.deptno in ( select d.deptno from dept d where d.dname='SALES' or d.dname='ACCOUNTING' ); select * from emp e where e.deptno not in ( select…
Hive数学函数 round : 四舍五入 ceil : 向下取整 floor : 向上取整 ),),),),); Hive字符函数 select lower('Hello World'), upper('Hello World'); select length('Hello World'),length('你好'); select concat('Hello','World'); ); ,); ,,'*'); Hive收集函数和转换函数 size cast ,,'Mary')); as big…
简单查询和fetch task 简单查询:   简单查询的 fetch task 功能,从HDFS拉取,不用map reduce. 前两种配置,当前session有效.修改hive-site.xml永久有效. 查询中使用过滤 在查询中使用排序 排序使用别名时要开启使用别名模式:set hive.groupby.orderby.position.alias=true;…
在/etc/passwd中看到hive账号是登录的终端是/bin/false,而正常的用户配置的都是/bin/bash,因此在root账号su到hive也是没有用的 hive:x:111:111:Hive:/var/lib/hive:/bin/false 在su时指定登录的终端为/bin/bash即可登录上去 su - hive -s /bin/bash…
等值连接 select e.empno, d.deptno from emp e, dept d where e.deptno=d.deptno; 不等值连接 select e.empno, e.ename, e.sal, s.grade from emp e, salgrade s where e.sal between s.losal and s.hisal; 外连接(取交集) select d.deptno, d.dname, count(e.empno) from emp e, dept…
使用Load语句执行数据的导入 语法: load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcoll=val1, partcal2=val2...)] explain: local是从本地导入,无local则默认从HDFS导入,overwrite是否覆盖表中存在的数据. 本地:导入本地一个文件 load data local inpath 'localFilePath' into…
Hive 快速入门(全面) 2018-07-30 16:11:56 琅琊山二当家 阅读数 4343更多 分类专栏: hadoop 大数据   转载: https://www.codercto.com/a/5110.html 前言 我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同. Hive是对数据仓库进行管理和分析数据的工具.但是大家不要被“数据仓库”这…
Linux环境Hive安装配置及使用 一.Hive Hive环境前提 二.Hive架构原理解析 三.Hive-1.2.2单机安装流程 (1) 解压apache-hive-1.2.2-bin.tar.gz安装包到目标目录下: (2) 为后续方便,重命名Hive文件夹: (3) 修改配置文件: (4) 配置环境变量: (5) 启动 (6) 退出 (7) 配置MySQL元数据库 四.Hive数据类型 五.Hive-DDL(Data Definition Language) (1) 查看数据库 (2)…
6.  insert 语句 1) 因为目标表有partition, 所以刚开始我使用的语句是 insert overwrite table sa_r_item_sales_day_week_month partition(part=FROM_UNIXTIME(UNIX_TIMESTAMP(),'yyyy-MM-dd'))select ... 然而报错: Error while compiling statement: FAILED: ParseException cannot recognize…
一.HIVE概览小结 二.HIVE安装 Hive只在一个节点上安装即可 .上传tar包 .解压 tar -zxvf hive-.tar.gz -C /cloud/ .配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs--.el6_3.i686 --nodeps rpm -ivh MySQL-server--.glibc23.i386.rpm rpm -ivh MySQL-clien…
hive是大数据技术簇中进行数据仓库应用的基础组件,是其它类似数据仓库应用的对比基准.基础的数据操作我们可以通过脚本方式以hive-client进行处理.若需要开发应用程序,则需要使用hive的jdbc驱动进行连接.本文以hive wiki上示例为基础,详细讲解了如何使用jdbc连接hive数据库.hive wiki原文地址: https://cwiki.apache.org/confluence/display/Hive/HiveClient https://cwiki.apache.org/…
1.     前言 本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译.安装和简单的使用. 2.     Hadoop家族 截止2009-8-19日,整个Hadoop家族由以下几个子项目组成: 成员名 用途 Hadoop Common Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等. Avro Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift.avr…
1.  Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large da…
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似. 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型.今天本文介绍hive的数据类型,数据模型以及文件存储格式.这些知识大家可以类比关系数据库的相关知识. 首先我要讲讲hive的数据类型. Hive支持两种数据类型,一类叫原子数据类…
想了解Hadoop整体结构及各框架角色建议飞入这篇文章,写的很好:http://www.open-open.com/lib/view/open1385685943484.html .以下文章是本人参考各牛人文章总结出,主要是Hive的使用.参考自:http://www.blogjava.net/hengheng123456789/archive/2011/01/05/342354.html 1. Hive是什么 Hive是一个基于hadoop的数据仓库.Hive 是建立在 Hadoop 上的数据…
hive依赖hadoop 需要的软件包:hive-0.13.1-cdh5.3.6.tar.gz .hadoop-2.5.0-cdh5.3.6.tar.gz 1.hadoop的安装步骤请访问: http://www.cnblogs.com/xningge/articles/8433297.html 2.将hive软件包上传到Linux系统指定的目录:/opt/softwares/cdh 3.解压hive-0.13.1-cdh5.3.6.tar.gz到指定的目录:/opt/modules/cdh/…