外部表: 外部表说明: 外部表因为是指定其他的hdfs路径的数据加载到表当中来,所以hive表会认为自己不完全独占这份数据,所以删除hive表的时候,数据仍然存放在hdfs当中,不会删掉 管理表和外部表的使用场景: 每天将收集到的网站日志定期流入HDFS文本文件.在外部表(原始日志表)的基础上做大量的统计分析,用到的中间表.结果表使用内部表存储,数据通过SELECT+INSERT进入内部表. 操作案例 分别创建老师与学生表外部表,并向表中加载数据 创建老师表: create external t…
3.2. hive查询语法 3.2.1.SELECT https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 基本的Select操作 ü  语法结构 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list [HAVING condit…
分桶表 将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去 开启hive的桶表功能 set hive.enforce.bucketing=true; 设置reduce的个数 set mapreduce.job.reduces=3; 创建桶表 create table course (c_id string,c_name string,t_id string) clustered by(c_id) into 3 buckets row…
第1节 hive安装:6.hive的基本操作:7.创建数据库的语法:8.hive当中创建内部表的语法. hive的基本操作: 创建数据库与创建数据库表操作 创建数据库操作:create database if not exists xxx; 创建数据库表的操作: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 创建表的三个关键字段 [(col_name data_type [COMMENT col_comment], ...)] 定义我们的列…
hive基本操作 hive的数据类型 1)基本数据类型 TINYINT,SMALLINT,INT,BIGINT FLOAT/DOUBLE BOOLEAN STRING 2)复合类型 ARRAY:一组有序字段.字段的类型必须相同,例Array(1,2) MAP:一组无序的键/值对.键的类型必须是原子的,值可以是任何类型,同一个映射的键的类型必须相同,值得类型也必须相同.例Map('a',1,'b',2) STRUCT:一组命名的字段.字段类型可以不同.例Struct('a',1,1,0) hive…
hive的调优:第一个调优:fetch抓取,能够避免使用mr的,就尽量不要用mr,因为mr太慢了 set hive.fetch.task.conversion=more 表示我们的全局查找,字段查找,limit查找都不走mr 这个属性配置有三个取值 more minimal none 如果配置成none,所有的都要走mr程序 hive的本地模式: set hive.exec.mode.local.auto=true 开启本地模式,解决多个小文件输入的时候,分配资源时间超过数据的计算时间 set…
阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备) 创建表:hive> CREATE TABLE pokes (foo INT, bar STRING);         Creates a table called pokes with two columns, the first being an integer and the other a string 创建一个新表,结构与其他一样hive> create table new_table…
通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 以上的要求实现如下: start-all.sh hdfs dfs -put ~/wordcount.txt input/wordcount.txt hive > create database test02; > create table test02(…
一.基本命令和设置 1.命令 [root@hadoop-senior hive-0.13.1]# bin/hive Logging initialized using configuration in jar:file:/opt/modules/hive-0.13.1/lib/hive-common-0.13.1.jar!/hive-log4j.properties hive> show databases; OK default Time taken: 0.367 seconds, Fetch…
1 建表 create table student(id int,name string ,age int) row format delimitedfields terminated by ','; 2 创建一个student.txt 添加数据 ,zhangsan, ,lisi, ,wnagwu, 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加…