Hive进阶(上)

Hive进阶(上) Hive进阶(上) 执行数据导入使用Load语句语法: 1.LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)] 说明: [LOCAL]:从操作系统中的一个目录中进行导入,如果不写LOCAL则为hdfs的数据导入 INPATH:为导入的路径,后面指明文件目录路径,如不指明文件名,则将目录下的所有文件…

Hive进阶(下)

Hive进阶(下) Hive进阶(下) Hive的表连接等值连接查询员工信息:员工号.姓名.月薪.部门名称 1.select e.empno,e.ename,e.sal,d.dname2.from emp e,dept d3.where e.deptno=d.deptno; 不等值连接查询员工信息:员工号.姓名.月薪.工资级别 1.select e.empno,e.ename,e.sal,s.grade2.from emp e,salgrade s3.where e.sal between…

Docker入门与进阶(上)

Docker入门与进阶(上) 作者刘畅时间 2020-10-17 目录 1 Docker核心概述与安装 1 1.1 为什么要用容器 1 1.2 docker是什么 1 1.3 docker设计目标 1 1.4 docker基本组成 1 1.5 容器vs虚拟机 2 1.6 docker应用场景 2 1.7 安装docker 2 2 Docker镜像管理 3 2.1 什么是镜像 3 2.2 镜像从哪里来 4 2.3 镜像与容器联系 4 2.4 镜像常用管理命令 4 2.5 镜像存储核心技术(联合…

Spark入门实战系列--5.Hive（上）--Hive介绍及部署

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: l 优点: 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线: 2.使用JDBC 接口/ODBC接口,开发人员更易开发应用: 3.以MR 作为计算引擎.HDFS 作为存储系统,为超大数据集设计的计…

Hive学习之六《Hive进阶— —hive jdbc》详解

接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量修改/etc/profile vi /etc/profile PATH=$PATH:/usr/java/jdk1..0_31/bin:/opt/litong/bin source /etc/profile 立即起效二.配置文件开发 Hive_sql Mysql_table=rpt_sale_daily mys…

Hive学习之五《Hive进阶—UDF操作案例》详解

hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数. 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一.Java通过正则表达式,截取标题名称. 以链接,截取标红的字符串. http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffwdz-10-35RcM&ti=ZX8H 为例. 核心代码如下, imp…

Hive 进阶

两种情况下不走map-reduce: 1. where ds >' ' //ds 是partition 2. select * from table //后面没有查询条件,什么都没有 1.建表 CREATE TABLE sal( id INT, name STRING, salary INT ) partitioned by (city string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; 1.1 修…

hive进阶技巧

1.日期格式转换(将yyyymmdd转换为yyyy-mm-dd) select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd') 2..hive去掉字段中除字母和数字外的其它字符 select regexp_replace(a, '[^0-9a-zA-Z]', '') from tbl_name 3.hive解析json字段 content字段存储json {"score":"100"…

大数据学习（10）—— Hive进阶

前面提到了Hive的知识点非常零散,我不知道该怎么把这些知识点分类,跟SQL关系没那么大的就放在这一篇吧. Hive Serde 参考Hive Serde Serde是啥 Serde是序列化和反序列化的简称.为啥这么说?序列化是Serializer,反序列化是Deserializer,各取前几个字母一拼就成了.Hive里的序列化和反序列化干嘛用的?简单的说,就是在HDFS文件和表数据之间做转换. Hive使用Serde(还有文件格式化)来读写表记录. 读数据:HDFS文件->输入文件格式->键…

concat_ws 使用在hive spark-sql上的区别

concat_ws() 在hive中,被连接对象必须为string或者array<string>,否则报错如下: hive> select concat_ws(',',unix_timestamp('2012-12-07 13:01:03'),unix_timestamp('2012-12-07 15:01:03')); FAILED: SemanticException [Error 10016]: Line 1:21 Argument type mismatch ''2012-12-…

hive 进阶笔记

-- mysql方式 create table account_channel(account_ String,channel_ String) as select a.account,b.channel from register a join `install` b on a.device = b.device -- hive方式 create table account_channel ROW FORMAT DELIMITED FIELDS TERMINATED BY '^' STORED…

Hive进阶_汇总

=========================================================================== 第2章 Hive数据的导入使用Load语句执行数据的导入: LOAD 导入语句到数据仓库的表当中. load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcoll=val1, partcal2=val2...)] explain:…

Hive进阶_开发Hive的自定义函数

Hive中的自定义函数简介 (1) 在类中创建自定义函数.自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现evaluate函数,evaluate函数支持重载. (2) 将该类所在的包导出成jar包,放入linux目录下. (3) 进入hive客户端,删除旧的jar包 hive> delete jar /dir/.jar; (4) 添加新的jar包 hive> add jar /dir/.jar (5) 创建临时函数,指向jar包中的类 hive…

Hive进阶_Hive的客户端操作

启动远程客户端 # hive --service hiveserver2获取连接-〉创建运行环境-〉执行HQL-〉处理结果-〉释放资源工具类 package demo.utils; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JD…

Hive进阶_Hive的子查询

- 集合中如果含null数据,不可使用not in, 可以使用in- hive只支持where和from子句中的子查询- 主查询和自查询可以不是同一张表 select e.ename from emp e where e.deptno in ( select d.deptno from dept d where d.dname='SALES' or d.dname='ACCOUNTING' ); select * from emp e where e.deptno not in ( select…

Hive进阶_内置函数

Hive数学函数 round : 四舍五入 ceil : 向下取整 floor : 向上取整 ),),),),); Hive字符函数 select lower('Hello World'), upper('Hello World'); select length('Hello World'),length('你好'); select concat('Hello','World'); ); ,); ,,'*'); Hive收集函数和转换函数 size cast ,,'Mary')); as big…

Hive进阶_Hive数据查询

简单查询和fetch task 简单查询: 简单查询的 fetch task 功能,从HDFS拉取,不用map reduce. 前两种配置,当前session有效.修改hive-site.xml永久有效. 查询中使用过滤在查询中使用排序排序使用别名时要开启使用别名模式:set hive.groupby.orderby.position.alias=true;…

root用户无法切换到cdh的hive账号上

在/etc/passwd中看到hive账号是登录的终端是/bin/false,而正常的用户配置的都是/bin/bash,因此在root账号su到hive也是没有用的 hive:x:111:111:Hive:/var/lib/hive:/bin/false 在su时指定登录的终端为/bin/bash即可登录上去 su - hive -s /bin/bash…

Hive进阶_Hive的表连接

等值连接 select e.empno, d.deptno from emp e, dept d where e.deptno=d.deptno; 不等值连接 select e.empno, e.ename, e.sal, s.grade from emp e, salgrade s where e.sal between s.losal and s.hisal; 外连接(取交集) select d.deptno, d.dname, count(e.empno) from emp e, dept…

Hive进阶_Hive数据的导入

使用Load语句执行数据的导入语法: load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcoll=val1, partcal2=val2...)] explain: local是从本地导入,无local则默认从HDFS导入,overwrite是否覆盖表中存在的数据. 本地:导入本地一个文件 load data local inpath 'localFilePath' into…

[转帖]Hive 快速入门(全面)

Hive 快速入门(全面) 2018-07-30 16:11:56 琅琊山二当家阅读数 4343更多分类专栏: hadoop 大数据转载: https://www.codercto.com/a/5110.html 前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同. Hive是对数据仓库进行管理和分析数据的工具.但是大家不要被“数据仓库”这…

Linux环境Hive安装配置及使用

Linux环境Hive安装配置及使用一.Hive Hive环境前提二.Hive架构原理解析三.Hive-1.2.2单机安装流程 (1) 解压apache-hive-1.2.2-bin.tar.gz安装包到目标目录下: (2) 为后续方便,重命名Hive文件夹: (3) 修改配置文件: (4) 配置环境变量: (5) 启动 (6) 退出 (7) 配置MySQL元数据库四.Hive数据类型五.Hive-DDL(Data Definition Language) (1) 查看数据库 (2)…

hive 使用笔记（partition; HDFS乱码）

6. insert 语句 1) 因为目标表有partition, 所以刚开始我使用的语句是 insert overwrite table sa_r_item_sales_day_week_month partition(part=FROM_UNIXTIME(UNIX_TIMESTAMP(),'yyyy-MM-dd'))select ... 然而报错: Error while compiling statement: FAILED: ParseException cannot recognize…

【Hadoop】HIVE 小结概览

一.HIVE概览小结二.HIVE安装 Hive只在一个节点上安装即可 .上传tar包 .解压 tar -zxvf hive-.tar.gz -C /cloud/ .配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 rpm -qa | grep mysql rpm -e mysql-libs--.el6_3.i686 --nodeps rpm -ivh MySQL-server--.glibc23.i386.rpm rpm -ivh MySQL-clien…

通过JDBC连接hive

hive是大数据技术簇中进行数据仓库应用的基础组件,是其它类似数据仓库应用的对比基准.基础的数据操作我们可以通过脚本方式以hive-client进行处理.若需要开发应用程序,则需要使用hive的jdbc驱动进行连接.本文以hive wiki上示例为基础,详细讲解了如何使用jdbc连接hive数据库.hive wiki原文地址: https://cwiki.apache.org/confluence/display/Hive/HiveClient https://cwiki.apache.org/…

HDFS+MapReduce+Hive+HBase十分钟快速入门

1. 前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译.安装和简单的使用. 2. Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成: 成员名用途 Hadoop Common Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等. Avro Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift.avr…

Hive深入浅出

1. Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large da…

大数据时代的技术hive：hive的数据类型和数据模型

在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似. 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型.今天本文介绍hive的数据类型,数据模型以及文件存储格式.这些知识大家可以类比关系数据库的相关知识. 首先我要讲讲hive的数据类型. Hive支持两种数据类型,一类叫原子数据类…

Hadoop之Hive篇

想了解Hadoop整体结构及各框架角色建议飞入这篇文章,写的很好:http://www.open-open.com/lib/view/open1385685943484.html .以下文章是本人参考各牛人文章总结出,主要是Hive的使用.参考自:http://www.blogjava.net/hengheng123456789/archive/2011/01/05/342354.html 1. Hive是什么 Hive是一个基于hadoop的数据仓库.Hive 是建立在 Hadoop 上的数据…

cdh版本的hive安装以及配置

hive依赖hadoop 需要的软件包:hive-0.13.1-cdh5.3.6.tar.gz .hadoop-2.5.0-cdh5.3.6.tar.gz 1.hadoop的安装步骤请访问: http://www.cnblogs.com/xningge/articles/8433297.html 2.将hive软件包上传到Linux系统指定的目录:/opt/softwares/cdh 3.解压hive-0.13.1-cdh5.3.6.tar.gz到指定的目录:/opt/modules/cdh/…

【Hive进阶(上)】的更多相关文章