Hive(一)Hive初识】的更多相关文章

Hive的几种常见的数据导入方式这里介绍四种:(1).从本地文件系统中导入数据到Hive表:(2).从HDFS上导入数据到Hive表:(3).从别的表中查询出相应的数据并导入到Hive表中:(4).在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中. 一.从本地文件系统中导入数据到Hive表 先在Hive里面创建好表,如下: hive> create table wyp > (id int, name string, > age int, tel string) >…
Hive版本 0.12.0(独立模式) Hadoop版本 1.12.1 Ubuntu 版本 12.10 今天试着搭建了hive,差点迷失在了网上各种资料中,现在把我的经验分享给大家,亲手实践过,但未必每一步都是必须的,正确的,大家可以参考一下. 第一步:安装和测试mysql(已装好的可跳过) 见我总结的http://blog.csdn.net/unflynaomi/article/details/37811229 第二步.开始正式安装hive 1.在hdfs上建目录: $ hadoop fs -…
Hive Concurrency Model Hive Concurrency Model Use Cases Turn Off Concurrency Debugging Configuration Locking in Hive Transactions Use Cases Concurrency support (http://issues.apache.org/jira/browse/HIVE-1293) is a must in databases and their use case…
#!/bin/bash source /etc/profile; ################################################## # Author: ouyangyewei # # # # Content: Combineorder Algorithm # ################################################## # change workspace to here cd / cd /home/deploy/rec…
1.Hive是什么? Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行. 2.Hive数据结构-HDFS-Table-Partiton-Bucket Table:每个表存储在HDFS上的一个目录下 Partition(可选):每个Partition存储再Table的子目录下 Bucket(可选):某个Partition根据某个列的hash值散列到不同的Bucket中…
1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark.由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多. 默认情况下,Hive on Spark 在YARN模式下支持Spark. 2.前提条件:安装JDK-1.8/hadoop-2.7.2等,参考之前的博文 3.下载hi…
mysql安装,hive环境的搭建 ambari部署hadoop 博客大牛:董的博客 ambari使用 ambari官方文档 hadoop 2.0 详细配置教程 使用Ambari快速部署Hadoop大数据环境 hadoop相关shell命令 Ambari安装指南 Hadoop之hive学习 Hive 安装.配置.建表 hive内部表与外部表区别 Hadoop集群之Hive安装配置 基于Hadoop数据仓库Hive1.2部署及使用 hive元数据库配置.metadata Hadoop+Hive环境…
Hive有三种使用方式——CLI命令行,HWI(hie web interface)浏览器 以及 Thrift客户端连接方式. 1.hive  命令行模式 直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli       用于linux平台命令行查询,查询语句基本跟MySQL查询语句类似 2.hive  web界面的启动方式 hive –service hwi  用于通过浏览器来访问hive 如果lib目录下没有hive-hwi-{version}.war…
Hive架构图 主要分为以下几个部分: 用户接口,包括 命令行CLI,Client,Web界面WUI,JDBC/ODBC接口等 中间件:包括thrift接口和JDBC/ODBC的服务端,用于整合Hive和其他程序. 元数据metadata存储,通常是存储在关系数据库如 mysql, derby 中的系统参数 底层驱动:包括HiveQL解释器.编译器.优化器.执行器(引擎). Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算. 用户接口主要有三个:CLI,Client 和…
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语法结构:where 查询.all 和 distinct 选项.基于 Partition 的查询.基于 HAVING 的查询. LIMIT 限制查询. GROUP BY 分组查询. ORDER  BY 排序查询.SORT BY 查询.DISTRIBUTE BY 排序查询.CLUSTER BY 查询 H…
Hive 数据类型 + Hive sql 基本类型 整型 int tinyint (byte) smallint(short) bigint(long) 浮点型 float double 布尔 boolean 字符 string char(定长) varchar(变长) 时间类型 timestamp date 引用/复合类型 优点类似于容器(Container),便于我们操作数据 复合类型可以和复合类型相互嵌套 Array 存放相同类型的数据 数据按照索引进行查找,索引默认从0开始 user[0…
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析: 它可以使已经存储的数据结构化: 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件: Hive除了支持MapReduce计算引擎,还支持Spark和Tez这两种分布式计算引擎: 它提供类似sql的查询语句HiveQL对数据进行分析处理: 数据的存储格式有多种,比如数据源是二进制格式,普通文本格式等等: 1.2…
阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备) 创建表:hive> CREATE TABLE pokes (foo INT, bar STRING);         Creates a table called pokes with two columns, the first being an integer and the other a string 创建一个新表,结构与其他一样hive> create table new_table…
1.没有接触,不知道这个事物是什么,所以不会产生任何问题.2.接触了,但是不知道他是什么,反正我每天都在用.3.有一定的了解,不够透彻.那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系? Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的.那么,到底什么是Hive,我们先看看Hive官网Wiki是如何介绍Hive的(https://cwiki.apache.org/c…
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把 己写的mapper 和reducer 作为插件…
配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作,基本原理就是利用两者本身对外的API接口互相进行通信,两者通信主要是依靠hive_hbase-handler.jar工具类. 但请注意:使用Hive操作HBase中的表,只是提供了便捷性,前面章节已经介绍,hiveQL引擎使用的是MapReduce,对于性能上,表现比较糟糕,在实际应用过程中可针对不同的场景酌情使用. 注意:本文介绍的内容适用的版本见我前面章节,HDP2.4.2 ( HBase…
<property><name>hive.metastore.uris</name><value></value><description>Thrift uri for the remote metastore. Used by metastore client to connect to remote metastore.</description></property> <property>&l…
我最近研究了hive的相关技术,有点心得,这里和大家分享下. 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2.Hive是建立在 Hadoop…
Hive Operators and User-Defined Functions (UDFs) Hive Operators and User-Defined Functions (UDFs) Built-in Operators Relational Operators Arithmetic Operators Logical Operators Complex Type Constructors Operators on Complex Types Built-in Functions M…
Disclaimer Prerequisites Users, Groups, and Roles Names of Users and Roles Creating/Dropping/Using Roles Create/Drop Role Grant/Revoke Roles Viewing Granted Roles Privileges Grant/Revoke Privileges Viewing Granted Privileges Hive Operations and Requi…
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似. 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型.今天本文介绍hive的数据类型,数据模型以及文件存储格式.这些知识大家可以类比关系数据库的相关知识. 首先我要讲讲hive的数据类型. Hive支持两种数据类型,一类叫原子数据类…
接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量 修改/etc/profile vi /etc/profile PATH=$PATH:/usr/java/jdk1..0_31/bin:/opt/litong/bin source /etc/profile 立即起效 二.配置文件开发 Hive_sql Mysql_table=rpt_sale_daily mys…
一.什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作. Hive 没有专门的…
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是derby数据库 Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等 ○ HQL的执行过程 解释器.编译器.优化器完成HQL查询语句从词法分析.语法分析.编译.优化以及查询计划(Plan)的生成.生成的查询计划存储在HDFS中,并在随后有MapRed…
 一.前述 Hive会经常和Hbase结合使用,把Hbase作为Hive的存储路径,所以Hive整合Hbase尤其重要. 二.具体步骤 hive和hbase同步https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 1.把hive-hbase-handler-1.2.1.jar  cp到hbase/lib 下    同时把hbase中的所有的jar,cp到hive/lib 2.在hive的配置文件增加属性:  <prop…
一.前述 本节主要描述Hive的优化使用,Hive的优化着重强调一个 把Hive SQL 当做Mapreduce程序去优化 二.主要优化点 1.Hive运行方式:本地模式集群模式 本地模式开启本地模式:set hive.exec.mode.local.auto=true;注意:hive.exec.mode.local.auto.inputbytes.max默认值为128M表示加载文件的最大值,若大于该配置仍会以集群方式来运行! 对于小表可以直接从从hdfs直接拿到本地计算 2.并行计算通过设置以…
在shell命令行执行 hive -help 结果如下: -d,--define <key=value> Variable substitution to apply to Hive commands. e.g. -d A=B or --define A=B --database <databasename> Specify the database to use -e <quoted-query-string> SQL from command line -f <…
1.Join优化 a.map join b.reduce join 小表为驱动表,或直接将小表加载到内存,做map端join,它的关键字为/*+MAP JOIN(t1)*/ 如果想自动开启map端Join,可以通过hive.mapjoin.smalltable.filesize(默认为25000000)来定义小表的大小,一旦在这个范围之内,就会自动进行map端Join 2.Reducer的数量 Hive作业Reducer数量会直接影响作业效率,Hive的Reducer的是通过如下两个参数确定 参…
1.hive支持四种数据模型 • external table ---外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据:而如果你要删除表,该表对应的所有数据包括元数据都会被删除. • table ---表,存储在HDFS的一个目录中. • partition ---分区:在Hive中,表的每一个分区对应表下的相应目录,所有分区的数据都是存储在对应的目录中…
在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数,配置参数如下: <property> <name>hive.security.authorization.enabled</name> <value>true</value> </property> <property> <name>hive.security.authorization.createtable.owner.gr…