Hive进阶(下)

Hive的表连接

等值连接

查询员工信息：员工号、姓名、月薪、部门名称

1.select e.empno,e.ename,e.sal,d.dname
2.from emp e,dept d
3.where e.deptno=d.deptno;

不等值连接

查询员工信息：员工号、姓名、月薪、工资级别

1.select e.empno,e.ename,e.sal,s.grade
2.from emp e,salgrade s
3.where e.sal between s.losal and s.hisal;

外连接

通过外连接可以将对于连接条件不成立的记录仍然包含在最后的结果中

左外连接(当连接条件不成立的时候，连接条件左边的表仍然包含在最后结果中)
右外连接(类似上面)

按部门统计员工人数：部门号、部门名称、人数

1.select  d.deptno,d.dname,count(e.empno)
2.from emp e right join dept d
3.on (e.deptno=d.deptno)
4.group by d.deptno,d.dname;

自连接

自连接的核心：通过表的别名将同一张表视为多张表

查询员工的姓名和员工的老板姓名

1.select e.ename,b.ename
2.from emp e,emp b
3.where e.mgr=b.empno;

Hive的子查询

hive只支持from和where子句中的子查询

主查询和子查询可以不是同一张表

1.select e.ename from emp e where e.deptno in (select d.deptno from dept d where d.dname='SALES' or d.dname='ACCOUNTING');

注意空值问题

1.select * from emp e where e.empno not in (select e1.mgr from emp e1 where e1.mgr is not null);

Hive的JAVA客户端操作

要使用Java的客户端操作，之前我们必须启动Hive的远程服务

1.#hive --service hiveserver

当出现Starting Hive Thrift Server，就证明Hive服务器端已经启动

我们有两种方式进行hive的java客户端操作：

JDBC
Thrift Client

Hive的JDBC客户端操作

步骤：

获取连接
创建运行环境
执行HQL
处理结果
释放资源

进入hive的lib目录下有hive所有需要依赖的jar包，有一个hive-jdbc.jar文件，这个文件就是hive的JDBC的驱动。我们需要将其拷贝到工程里面

我们还需要将这个jar包加入到系统的路径里面

创建一个类，以帮助我们获取连接和释放资源

1.package demo.utils;
2.
3.public class JDBCUtils{
4.
5.    private static String driver="org.apache.hadoop.hive.jdbc.HiveDriver";
6.    private static String url="jdbc:hive://192.168.56.31:10000/default";//192.168.56.31是ip地址，default是所要连接的数据库名称
7.
8.    //注册驱动
9.    static{
10.        try{
11.            Class.forName(driver);
12.        }catch(ClassNotFoundException e){
13.            throw new ExceptionInInitializerError(e);
14.        }
15.    }
16.
17.    //获取连接
18.    public static Connection getConnection(){
19.        try{
20.            return DriverManager.getConnection(url);
21.        }catch (SQLException e){
22.            //TODO Auto-generated catch block
23.            e.printStackTrace();
24.        }
25.        return null;
26.    }
27.
28.    //释放资源
29.    public static void release(Connection conn,Statement st,ResultSet rs){
30.        if(rs !=null){
31.            try{
32.                rs.close();
33.            }catch (SQLException e){
34.                e.printStackTrace();
35.            }finally{
36.            rs=null;
37.            }
38.        }
39.        if(st !=null){
40.            try{
41.                st.close();
42.            }catch (SQLException e){
43.            //TODO Auto-generated catch block
44.            e.printStackTrace();
45.            }finally{
46.                st=null;
47.            }
48.        }
49.        if(conn !=null){
50.            try{
51.                conn.close();
52.            }catch (SQLException e){
53.                //TODO Auto-generated catch block
54.                e.printStackTrace();
55.            }finally{
56.                conn=null;
57.            }
58.        }
59.    }
60.}

创建一个类来查询hive中的数据

1.package demo.hive
2.
3.public class HiveJDBCDemo{
4.
5.    /**
6.     * @param args
7.     */
8.     public static void main(String[] args){
9.        Connection conn=null;
10.        Statement st=null;
11.        ResultSet rs=null;
12.
13.        String sql="select * from emp";
14.        try{
15.            //获取连接
16.            conn=DBCUtils.getConnection();
17.            //创建运行环境
18.            st=conn.createStatement();
19.            //运行HQL
20.            rs=st.executeQuery(sql);
21.            //处理数据
22.            while(rs.next()){
23.                //取出员工的姓名和薪水
24.                String name=rs.getString(2);
25.                double sal=rs.getDouble(6);
26.                System.out.println(name+"\t"+sal);
27.            }
28.        }catch (Exception e){
29.            e.printStackTrace();
30.        }finally{
31.            JDBCUtils.release(conn,st,rs);
32.        }
33.     }
34.}

运行上面的代码出错，显示jar找不到，因此还需要将其他的jar加到环境中

Hive的Thrift Java客户端操作

同样创建一个新的文件

1.package demo.hive;
2.
3.import org.apache.thrift.transport.TSocket;
4.
5.public class HiveThriftClient{
6.
7.    public static void main(String[] args) throws Exception{
8.        //创建Socket:连接
9.        final TSocket tSocket=new TSocket("192.168.56.31",10000);
10.
11.        //创建一个协议
12.        final TProtocol tProtcal=new TBinaryProtocol(tSocket);
13.
14.        //创建Hive Client
15.        final HiveClient client=new HiveClient(tProtcal);
16.
17.        //打开Socket
18.        tSocket.open();
19.
20.        //执行HQL
21.        client.execute("desc emp");
22.        //处理结果
23.        list<String> columns=client.fetchAll();
24.        for(String col:columns){
25.            System.out.println(col);
26.        }
27.
28.        //释放资源
29.        tSocket.close();
30.    }
31.}

开发Hive的自定义函数

Hive的自定义函数(UDF 即 User Defined Function)，可以直接应用程序于select语句，对查询结果做格式化处理后，再输出内容

Hive自定义函数的实现细节

自定义UDF需要继承org.apache.hadoop.hive.ql.UDF
需要实现evaluate函数，evaluate函数支持重载

Hive自定义函数的部署运行

把程序打包放到目标机器上去
进入hive客户端，添加jar包

1.hive> add jar /root/training/udfjar/udf_test.jar

创建临时函数

1.hive> CREATE TEMPORARY FUNCTION <函数名> AS 'Java类名';

Hive自定义函数的使用

1.select <函数名> from table;

销毁临时函数

1.hive> DROP TEMPORARY FUNCTION <函数名>;

UDF案例——拼加两个字符串

在文本工程下面新建一个类

1.package demo.udf;
2.
3.import org.apache.hadoop.hive.ql.exec.UDF;
4.
5.public class ConcatString extends UDF{
6.
7.    public evaluate(Text a,Text b){
8.        return new Text(a.toString()+"****"+b.toString());
9.    }
10.}

然后将其导出成一个jar文件

然后将其上传到hive服务器上

然后

1.hive> add jar /root/training/udfjar/concatstring.jar;

执行添加jar文件

然后创建一个临时函数

1.hive> create temporary function myconcat as 'demo.udf.ConcatString';

然后调用这个函数

1.hive> select myconcat('Hello','World');

得到结果

1.Hello **** World

Hive进阶(下)的更多相关文章

Hive进阶(上)
Hive进阶(上) Hive进阶(上) 执行数据导入使用Load语句语法: 1.LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE ...
python基础——面向对象进阶下
python基础--面向对象进阶下 1 __setitem__,__getitem,__delitem__ 把对象操作属性模拟成字典的格式想对比__getattr__(), __setattr__( ...
Docker入门与进阶(下)
Docker入门与进阶(下) 作者刘畅时间 2020-11-12 实验主机配置系统centos7.5 主机名 ip 配置应用 harbor-master 172.16.1.71 2核4G/60 ...
Spark入门实战系列--5.Hive（下）--Hive实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据第一步启动HDFS ...
Hive学习之六《Hive进阶— —hive jdbc》详解
接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量修改/etc ...
通过java api统计hive库下的所有表的文件个数、文件大小
更新hadoop fs 命令实现: [ss@db csv]$ hadoop fs -count /my_rc/my_hive_db/* 18/01/14 15:40:19 INFO hdfs.Peer ...
Hive 进阶
两种情况下不走map-reduce: 1. where ds >' ' //ds 是partition 2. select * from table //后面没有查询条件,什么都没有 1.建表 ...
Hive进阶_汇总
=========================================================================== 第2章 Hive数据的导入使用Load语句执行 ...
Hive进阶_开发Hive的自定义函数
Hive中的自定义函数简介 (1) 在类中创建自定义函数.自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现evaluate函数,evaluate函数支 ...

随机推荐

沃通tomcat jks 安装配置
废话不多说上代码: <Connector port="443" protocol="org.apache.coyote.http11.Http11NioProtoc ...
Android studio教程：[2]项目整体布局
上篇介绍了如何创建项目,这一次将介绍创建完的项目如何呈现在开发者的眼前,介绍android studio开发环境的整体布局,让大家知道各个模块的位置和功能. 工具/原料 Android studio ...
二维数组在text，image的应用
NSArray *imageArr = @[@[@"查看地图",@"map_hy.png"], @[@"联系号码",@"phone ...
Thinking In Java读书笔记--对象导论
Thinking In Java读书笔记--对象导论[对象]服务提供者==>将对象看做一个服务提供者[程序员分类][类创造者]/[客户端程序员] [访问控制存在的原因?][1]客户端程序员无法触 ...
ps 网页配图设计
网站配图设计蒙太奇品科软件---网页页面 1橡皮擦来画两图容合大橡皮擦擦出来自然 2图放到一个色块中用剪贴蒙版 3调色阶装饰下图片矩形工具形状填充画彩条超出本框的怎么去掉多 ...
F - The Circumference of the Circle
Description To calculate the circumference of a circle seems to be an easy task - provided you know ...
redis 未授权漏洞利用直接登录服务器
在没有查到杀手之前我是先把带宽&端口用iptables 做了限制这样能保证我能远程操作服务器才能查找原因 2 在各种netstat –ntlp 的查看下没有任何异常在top 下查到了有异常 ...
js中邦定事件与解绑支持匿名函数
和一个朋友讨论了一下,DOM2绑定方式都是有名的函数,匿名的处理起来有些麻烦,而且即使是有名的函数,在IE低版本的浏览器也是解除不掉的,this指向需要修改,着实费了一番功夫,这个是兼容ie低版本的, ...
Financial Management--hdu1064
Financial Management Problem Description Larry graduated this year and finally has a job. He’s makin ...
zabbix 模版其实就是主机
</pre><pre name="code" class="python">mysql> select hostid,host , ...

Hive进阶(下)

Hive进阶(下)

Hive的表连接

等值连接

不等值连接

外连接

自连接

Hive的子查询

Hive的JAVA客户端操作

Hive的JDBC客户端操作

Hive的Thrift Java客户端操作

开发Hive的自定义函数

Hive自定义函数的实现细节

Hive自定义函数的部署运行

UDF案例——拼加两个字符串

Hive进阶(下)的更多相关文章

随机推荐

热门专题