FusionInsight大数据开发---Hive应用开发

Hive应用开发

了解Hive的基本架构原理
掌握JDBC客户端开发流程
了解ODBC客户端的开发流程
了解python客户端的开发流程
了解Hcatalog/webHcat开发接口
掌握Hive开发规则

1. 了解Hive的基本架构原理
守护进程：

HiveServer（Thrift/Compiler）
webHcat
MetaStore

Hive的应用场景

数据挖掘
非实时分析
数据汇总
作为数据仓库

2. 掌握JDBC客户端开发流程
JDBC开发-参数初始化

设置ZooKeeper地址
krb5文件路径
设置JAAS配置
配置ZooKeeper Principal
执行登陆

JDBC开发-拼接URL

JDBC前缀设置
服务发现模式
安全配置：qop.auth.principal
非安全配置

JDBC开发-执行SQL

加载驱动类
建立连接
执行SQL
关闭连接

JDBC开发-SQL实现

创建preparedStatement
执行statement
关闭statement

规则建议：
开发调式：在开发程序时，可通过使用Hive的客户端Beeline先进行调试，检验语句与结果正确性，再部署基于JDBC等的应用程序。
获取数据库连接：Hive的数据库URL再拼接时已经经过安全认证，所以Hive数据库的用户名和密码为null或空。

JDBC超时限制:Hive提供的JDBC实现的超时限制，默认是5分钟。

执行HQL：再JAVA　JDBC应用开发中，拼装HQL语句，注意HQL语句不能以“;“结尾。

HQL语法规则之判空：判断字段为空使用：”is null“，判断不为空，即有值，使用："is not null"

UDF的管理：建议由管理员创建永久UDF，避免每次使用时都去add jar，和重新定义UDF。

UDF的注解：Hive的UDF会有一些默认属性。@UDFType(deterministic = false)

使用分区表：当数据量较大时，且经常需要按天统计时，建议使用分区表，按天存放数据。

动态分区表：为了避免插入动态分区数据过程中，产生过多的小文件，在执行插入时，在分区字段上加distribut by。

文件格式选择：Hive支持多种存储格式，比如TextFile,RCFile,ORC,Sequence,Parquet.

FusionInsight大数据开发---Hive应用开发的更多相关文章

FusionInsight大数据开发学习总结（1）
FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求扎实的编程基础 Java/Scala/python/SQL/sh ...
大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...
大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录
一.背景介绍最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务.而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的 ...
FusionInsight大数据开发---MapReduce与YARN应用开发
MapReduce MapReduce的基本定义及过程搭建开发环境代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处 ...
FusionInsight大数据开发---HDFS应用开发
HDFS应用开发 HDFS(Dadoop Distributed File System) HDFS概述高容错性高吞吐量大文件存储 HDFS架构包含三部分 Name Node DataNode ...
FusionInsight大数据开发---Redis应用开发
Redis应用开发要求: 了解Redis应用场景掌握Redis二次开发环境搭建掌握Redis业务开发 Redis简介 Redis是一个基于网络的,高性能key-value内存数据库 Redis根 ...
一文总结高并发大数据量下MySQL开发规范【军规】
在互联网公司中,MySQL是使用最多的数据库,那么在并发量大.数据量大的互联网业务中,如果高效的使用MySQL才能保证服务的稳定呢?根据本人多年运维管理经验的总结,梳理了一些核心的开发规范,希望能给大 ...
大数据利器Hive
序言:在大数据领域存在一个现象,那就是组件繁多,粗略估计一下轻松超过20种.如果你是初学者,瞬间就会蒙圈,不知道力往哪里使.那么,为什么会出现这种现象呢?在本文的开头笔者就简单的阐述一下这种现象出现的 ...

随机推荐

sqli-libs笔记Page-1(Basic Challenges)
0X00:前言 sqli-libs是一个学习SQL注入的开源平台,共有75中不同类型的注入.源码可到github上搜索sqli-libs找到 0X01:Page-1基础挑战 0X02:每一关的payl ...
HandBrake-QuickSync-Mac （内容：QuickSync encoder via VideoToolbox ）
来源:https://github.com/galad87/HandBrake-QuickSync-Mac/commit/2c1332958f7095c640cbcbcb45ffc955739d594 ...
JVM问题排查工具：Serviceability-Agent介绍
本文首发于微信公众号:javaadu 简单介绍构建高性能的Java应用过程中,必然会遇到各种各样的问题,像CPU飙高.内存泄漏.应用奔溃,以及其他疑难杂症,这时可以使用Serviceability ...
php超时时间说明【转】
一,http请求超时时间可能出现的场景: 1,curl进程运行了一个世纪还木结束,curl的时候设置了超时时间 --connect-timeout 1000 2,operation timed ou ...
微信小程序-获取当前位置和城市名
微信小程序-获取当前城市位置 1, 获取当前地理位置,首先要拿到用户的授权wx.openSetting: 2,微信的getLocation接口,获取当前用户的地理位置(微信返回的是经纬度,速度等参数) ...
CPU使用率与负载的爱恨情仇
今天有一个电话面试,面试官问我:CentOS怎么查看CPU负载?我说:看top的第一行有load average.面试官又问:为什么从这就判定是负载高呢?依据是什么呢?然后... 然后我就尴尬了,挂了 ...
python 的 encode 、decode、字节串、字符串
一.摆个图 DJ DJ DJ Decode. J 解码首先得知道字符串有哪些编码格式,至于为什么会有这么多的编码格式,以后再了解更新. 1.ASCII 占1个字节,只支持英文 2.GB231 ...
C# HttpClient Post 参数同时上传文件上传图片调用接口
// 调用接口上传文件 using (var client = new HttpClient()) { using (var multipartFormDataContent = new Multip ...
OpenSSL 下载和私钥证书、CERTIFICATE证书生成
openssl 是生成私钥和公钥证书的重要工具. Windows如何安装OpenSSL: 官网:https://www.openssl.org/community/mailinglists.html ...
一天撸完《 Learning Jupyter 5 2nd Edition》
因为工作需要了解这个应用的大概功能. 网上找不到下载的,CSDN没积分. 最后,在道客上找到了这个PDF.花了一天时间浏览了一下, 只留意了python功能,其它语言略去. widget和jupyte ...

FusionInsight大数据开发---Hive应用开发

Hive应用开发

FusionInsight大数据开发---Hive应用开发的更多相关文章

随机推荐

热门专题