Hive 01 概述、安装配置】的更多相关文章

个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述. 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hi…
hive 是JAVA写的的一个数据仓库,依赖hadoop.没有安装hadoop的,请参考http://blog.csdn.net/lovemelovemycode/article/details/9154121(hadoop集群安装配置). 下面将一下hive集群的安装配置步骤: 1 下载  hive-0.10.0.tar.gz; 2 将 hive-0.10.0.tar.gz解压到 hadoop 目录(如/home/hadoop/hadoop-1.0.4/hive-0.10.0); 3 进入/h…
前言:由于只是在自己的虚拟机上进行学习,所以对hive只是进行最简单的配置,其他复杂的配置文件没有配置. 1.前提 1.1 安装配置jdk1.8 1.2 安装hadoop2.x hadoop单机模式安装见:centos7 hadoop 单机模式安装配置 1.3 安装mysql并配置myql允许远程访问,我的mysql版本5.7.18. mysql数据库安装过程请参考:Centos 7.2 安装 Mysql 5.7.13 2.下载hive 下载地址:http://mirror.bit.edu.cn…
概述 数据仓库:是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理. 数据仓库的结构和建立过程: 数据源 数据存储及管理 ETL Extract 提取 Transform 转换 Load 装载 数据仓库引擎 前端展示 数据查询 数据报表 数据分析 1)产生背景 MapReduce编程的不便性 HDFS上的文件缺少schema 2)是什么 The Apache Hive ™ data warehouse software facilitates rea…
原文来自:  http://blog.csdn.net/zhumin726/article/details/8027802 1 HIVE概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,HIVE的设计,可以轻松实现数据汇总,ad-hoc查询和分析大量的数据.它提供了一种称为HIVE QL的查询语言,基于sql的语法,使用户熟悉HIVE QL的语法容易做ad-hoc查询,汇总和数据分析,同时,HIVE QL也使传统的map / reduce的程序员能够插…
1.hive概述 Apache Hive数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集.可以将结构投影到已存储的数据中.提供了命令行工具和JDBC驱动以将用户连接到Hive. 2.hive优缺点 优点: (1)操作接口采用了sql,简化开发,减少学习成本. (2)避免手写mapreduce程序 (3)hive执行延迟较高,使用场景大多用在实时性要求不强的情景 (4)优点在于处理大数据 (5)支持自定义函数 缺点: (1)hive的sql表达能力有限(HSQL) (2)…
1.Hive介绍 数据库OLTP 在线事务处理 数据仓库OLAP 在线分析处理 延迟高 类sql方式(HQL) 使用sql方式,用来读写,管理位于分布式存储系统上的大型数据集的数据仓库技术 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分…
一.MySQL的安装 Hive的数据,是存在HDFS里的.此外,hive有哪些数据库,每个数据库有哪些表,这样的信息称之为hive的元数据信息. 元数据信息不存在HDFS,而是存在关系型数据库里,hive默认用的是derby数据库来存储.即hive工作时,除了要依赖Hadoop,还要依赖关系型数据库. 注意:虽然我们能通过HDFS查看到hive有哪些数据库,有哪些表,以及表里的数据,但是,这不是元数据信息.HDFS最主要的是存储hive的数据信息. 之前遇到的问题:当退出后,切换到不同的目录来进…
Windows版 提纲: 1.   安装Elasticsearch 1.1. 下载Elasticsearch: https://www.elastic.co/cn/downloads/elasticsearch,添加系统变量. 1.2.  运行es,切换到bin目录,运行elasticsearch.bat. 1.3   访问服务http://localhost:9200. Ps:es默认端口号为9200. 2.   安装可视化插件(非必要,看个人需要) 2.1. 下载head (elastics…
Hive的数据,是存在HDFS里的.此外,hive有哪些数据库,每个数据库有哪些表,这样的信息称之为hive的元数据信息. 元数据信息不存在HDFS里.而是存在关系型数据库里,hive默认用的是derby数据库来存储.即hive工作时,除了要依赖Hadoop,还要依赖关系型数据库. 注意:虽然我们能通过HDFS查看到hive有哪些数据库,有哪些表,以及表里的数据,但是,这不是元数据信息.HDFS最主要的是存储hive的数据信息. 之前遇到的问题是:当退出后,切换到不同的目录来进入hive,发现库…