Hive_初步见解,安装部署与测试
一、hive是什么东东
1. 个人理解
hive就是一个基于hdfs运行于MapReduce上的一个java项目,
这个项目封装了jdbc,根据hdfs编写了处理数据库的DDL/DML,自带的
二进制包内嵌Derby数据库,且默认使用Derby,简而言之,hive就是一个
帮助我们处理/分析数据的工具,不过这个工具却像namenode一样存储了
一份文件的元数据,这就有点像数据仓库的感觉
2. 架构
分为服务端、客户端,基于hadoop,运行在mapreduce,存储于hfds,
可与hbase结合使用,其中使用hql(hive sql)查询接口
3. 作用
将结构化得文件映射成表内容,并提供类sql查询功能
适合离线海量数据处理,简化mapreduce
二、hive的好处在哪,为什么要用它
简单易用,体现在类sql上,通常mapreduce的开发冗余繁琐,使用hive可以进行调优和提升开发效率,降低MapReduce学习成本,
另外hive的函数是可以自定义的,这样hive具备相应扩展型,存储在hadoop的文件系统上可以共享存储区域,
hdfs的集群扩展性也成为hive存储的扩展性,hive本身跑在mapreudce上,所以其优势在于离线处理海量数据,
对于小数据来讲并没有太大优势,因为处理数据时执行延迟较高,对于小数据量实时处理不推荐使用hive
hive本身跑在mapreudce上,所以其优势在于离线处理海量数据,对于小数据来讲并没有太大优势,
因为处理数据时执行延迟较高,对于小数据量实时处理不推荐使用hive
hive初始使用derby数据库,而derby数据库只能启动一个实例,但注意不同路径下启动hive是可以的
三、hive的处理类SQL做了什么操作
在client端下,类sql语句抽象化,从中判断是否有表,字段等信息,交于编译器转换成逻辑执行语句,
交于优化器进行优化,再交于执行器,形成可执行的物理计划,基于mapreduce底层实施mapreduce任务,
实际上hive就是实现mapreduce任务的一个模板
四、hive安装部署
1. 下载hive,选择合适的版本
地址:http://archive.apache.org/dist/hive/
2. 上传使用工具(filezilla.exe)或linux的rz命令
上传工具很多:filezilla,FlashFXP,Xftp,vmware-tools,notepad++...
可能会有文件夹权限问题,需要检查一下
3. 根据官网doc步骤
地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted
上传之后:
$ tar -xzvf hive-x.y.z.tar.gz
# 转到hadoop目录下
$ bin/hdfs dfs -mkdir /tmp
$ bin/hdfs dfs -mkdir -p /user/hive/warehouse
$ bin/hdfs dfs -chmod g+w /tmp
$ bin/hdfs dfs -chmod g+w /user/hive/warehouse
五、启动hive测试(注意hadoop架构要提前运行)
# 转到hive目录下
$ bin/hive
$ show databases;
$ show tables;
$ show partitions tbname;
$ show functions;
$ create database if not exists schooldb;
$ use schooldb;
$ create table if not exists student(
num int,
name string
)raw format delimited fields terminated by '\';
$ load data local inpath '/home/liuwl/opt/datas/studen.txt' into table student;
Hive_初步见解,安装部署与测试的更多相关文章
- Nginx安装部署与测试
场景:项目需要部署在生产环境中,这些新的工具都需要在生产环境中去实践练习.有时间再部署一套ELK的日志分析系统,这样的系统才算具有一定的应用价值. 1 Nginx安装 用root用户安装,采用源代码编 ...
- (三)Hyperledger Fabric 1.1安装部署-chaincode测试
环境搭建完毕,需要的工具和镜像安装完毕,就可以进行chaincode测试了,接下来参考官方教程运行first-network. 进入first-netwok: cd first-network fir ...
- 【大数据之数据仓库】安装部署GreenPlum集群
本篇将向大家介绍如何快捷的安装部署GreenPlum测试集群,大家可以跟着我一块儿实践一把^_^ 1.主机资源 申请2台网易云主机,操作系统必须是RedHat或者CentOS,配置尽量高一点.如果是s ...
- Kafka的安装和部署及测试
1.简介 大数据分析处理平台包括数据的接入,数据的存储,数据的处理,以及后面的展示或者应用.今天我们连说一下数据的接入,数据的接入目前比较普遍的是采用kafka将前面的数据通过消息的方式,以数据流的形 ...
- Flume NG安装部署及数据采集测试
转载请注明出处:http://www.cnblogs.com/xiaodf/ Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,采集新数据发送给消息队列等. 1 安装部署Fl ...
- qemu-kvm和openvswitch安装部署-qemu-kvm和openvswitch原型环境部署和基本测试 (1)
qemu-kvm和openvswitch安装部署 本文包含两个部分: qemu-kvm的安装部署 openvswitch的安装部署 参考文档: kvm官网:http://www.linux-kvm.o ...
- redis cluster安装部署(测试环境)
redis 应用于web前端,做缓存和数据存取的速度是挺可观的,最近看了一些资料,手痒了,就弄了一个测试环境,两台方案,试用一下. ##Redis 集群部署## 一,方案调研: 参考博客: http: ...
- LDAP-openldap服务部署和测试(YUM安装)
1. 概述2. 服务端部署过程2.1 软件包说明2.2 部署过程2.3 配置过程3. 测试4. 生成LDIF格式文件4.1 安装migrationtools工具4.2 用migrationtools生 ...
- 测试环境docker-swarm安装部署
测试环境swarm安装部署 部署前增加监听docker2375端口 centos 增加tcp监听端口 修改/lib/systemd/system/docker.service sed -i ‘s/Ex ...
随机推荐
- maven项目Tomcat controller 404
今天使用tomcat7.0.54启动现有的maven项目,可以正常启动,但是自己所写的所有的@controller注解的请求都报出了404的错误,在网上查了好久也很少找到这个问题,各种方法都尝试了也没 ...
- 内容分发网络CDN(互联网技术)
内容分发网络(互联网技术)CDN的全称是Content Delivery Network,即内容分发网络.其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快.更 ...
- NuGet学习笔记(1) 初识NuGet及快速安装使用
关于NuGet园子里已经有不少介绍及使用经验,本文仅作为自己研究学习NuGet一个记录. 初次认识NuGet是在去年把项目升级为MVC3的时候,当时看到工具菜单多一项Library Package M ...
- 标签q
标记短的引用,默认是中文符号:双引号 <p>文字<q>段落中的引用</q>文字</p> 如果是在html里直接敲出引号,是这样的: <p>文 ...
- centos7 卸载mysql
[root@zyf ~]# rpm -qa|grep -i mysql mysql-community-libs--.el7.x86_64 mysql-community-server--.el7.x ...
- HTTP协议开发应用-文件服务器
HTTP(超文本传输协议)协议是建立在TCP传输协议之上的应用层协议.HTTP是一个属于应用层的面向对象的协议,由于其简捷.快速的方式,适用于分布式超媒体信息系统. 本文将重点介绍如何基于Netty的 ...
- [BZOJ 2957]楼房重建(THU2013集训)(分块思想)
题目:http://www.lydsy.com/JudgeOnline/problem.php?id=2957 分析: 首先明确问题,对于每栋楼房的斜率K=H/X,问题就是问有多少个楼房的K比前面所有 ...
- 贪心+模拟 Codeforces Round #288 (Div. 2) C. Anya and Ghosts
题目传送门 /* 贪心 + 模拟:首先,如果蜡烛的燃烧时间小于最少需要点燃的蜡烛数一定是-1(蜡烛是1秒点一支), num[g[i]]记录每个鬼访问时已点燃的蜡烛数,若不够,tmp为还需要的蜡烛数, ...
- POJ1904 King's Quest(完备匹配可行边:强连通分量)
题目大概就是说给一张二分图以及它的一个完备匹配,现在问X部的各个点可以与Y部那些些点匹配,使得X部其余点都能找到完备匹配. 枚举然后匹配,当然不行,会超时. 这题的解法是,在二分图基础上建一个有向图: ...
- The 2015 China Collegiate Programming Contest K Game Rooms hdu 5550
Game Rooms Time Limit: 4000/4000 MS (Java/Others) Memory Limit: 65535/65535 K (Java/Others)Total ...