Hive：map字段存储和取用 ( str_to_map函数 )

str_to_map(字符串参数, 分隔符1, 分隔符2) 使用两个分隔符将文本拆分为键值对. 分隔符1将文本分成K-V对,分隔符2分割每个K-V对.对于分隔符1默认分隔符是 ',',对于分隔符2默认分隔符是 '='. 例子: 1. 创建map字段 DROP TABLE IF EXISTS tmp.tmp_str_to_map; CREATE TABLE IF NOT EXISTS tmp.tmp_str_to_map ( ocolumn string comment '原始字段', rcolu…

Hive表种map字段的查询取用

建表可以用 map<string,string> 查询时可以按照 aaa[bbb], aaa 是map字段名,bbb是其中的参数名,就可以取到这个参数的值了当参数名bbb是string时,需要加双引号.例: aaa: {"url":"http://Detail?activityId=7"} aaa[“url”] 就能获得 http://Detail?activityId=7 了…

hivesql之str_to_map函数

str_to_map(字符串参数, 分隔符1, 分隔符2) 使用两个分隔符将文本拆分为键值对. 分隔符1将文本分成K-V对,分隔符2分割每个K-V对.对于分隔符1默认分隔符是 ',',对于分隔符2默认分隔符是 '=' 我们先介绍一下这个函数的应用场景. Z表又被称之为拉链表.在同一个分区中主键是stat_date+uid被储存的值是客户的状态. 我们需要对客户状态进行统计. select str_to_map(concat_ws(',',collect_set(concat(stat_date,…

HIVE: Map Join Vs Common Join, and SMB

HIVE Map Join is nothing but the extended version of Hash Join of SQL Server - just extending Hash Join into Distributed System. SMB(Sort Merge Bucket) Join is also similar to the SQL Server Merge Join mechnism - just extending it into Distributed S…

Hive压缩和存储（十二）

压缩和存储 1. Hadoop压缩配置 1) MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分 DEFAULT 无 DEFAULT .deflate 否 Gzip gzip DEFAULT .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 否 LZ4 无 LZ4 .lz4 否 Snappy 无 Snappy .snappy 否为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示压缩格式对应的编码/解码器 D…

hive中的lateral view 与 explode函数的使用

hive中的lateral view 与 explode函数的使用背景介绍: explode与lateral view在关系型数据库中本身是不该出现的. 因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分).本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),在面向分析的数据库数据仓库中,发生了改变. explode函数可以将一个array或者map展开, 其中explode(array)使得结果中将array列表里的每个元素生成一行: explode(map)…

Hive的压缩存储和简单优化

一.Hive的压缩和存储 1,MapReduce支持的压缩编码压缩格式工具算法文件扩展名是否可切分对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEFLATE .gz 否 org.apache.hadoop.io.compress.GzipCodec bzip2 bzip2 bzip2 .bz2 是 org.apache.hadoop.io.com…

用set、map等存储自定义结构体时容器内部判别各元素是否相同的注意事项

STL作为通用模板极大地方便了C++使用者的编程,因为它可以存储任意数据类型的元素如果我们想用set与map来存储自定义结构体时,如下 struct pp { double xx; double yy; }; ]; struct ab { double aa; double bb; double cc; }stra[]; map<ab, int> mm; 上面我们使用 set 来存储 pp结构体,将 ab结构体作为一个映射的Key 显然我们这样做编译器会报错,原因是set与map内部需要比较…

STL之map与pair与unordered_map常用函数详解

STL之map与pair与unordered_map常用函数详解一.map的概述 map是STL的一个关联容器,它提供一对一(其中第一个可以称为关键字,每个关键字只能在map中出现一次,第二个可能称为该关键字的值)的数据处理能力,由于这个特性,它完成有可能在我们处理一对一数据的时候,在编程上提供快速通道.这里说下map内部数据的组织,map内部自建一颗红黑树(一种非严格意义上的平衡二叉树),这颗树具有对数据自动排序的功能,所以在map内部所有的数据都是有序的,后边我们会见识到有序的好处. 下面…

Hive 表操作（HIVE的数据存储、数据库、表、分区、分桶）

1.Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式存储结构主要包括:数据库.文件.表.试图 Hive默认可以直接加载文本文件(TextFile),还支持sequence file 创建表时,指定Hive数据的列分隔符与行分隔符,Hive即可解析数据. 2.Hive的数据模型-数据库类似传统数据库的DataBase 默认数据库"default" 使用#hive命令后,不使用hive>use <数据库名>,系统默认的数…

hadoop笔记之Hive的数据存储(视图)

Hive的数据存储(视图) Hive的数据存储(视图) 视图(view) 视图是一种虚表,是一个逻辑概念:可以跨越多张表既然视图是一种虚表,那么也就是说用操作表的方式也可以操作视图但是视图是建立在已有表的基础上,视图赖以建立的这些表称为基表视图最大的好处就是可以简化复杂的查询现在有两张表 ①部门表 ②员工表而在关系性数据库中两张表的deptno部门号是外键的关系现在来建立一张视图来查询员工数据 --查询员工信息:员工号.姓名.月薪.年薪.部门名称create view empinfo…

hadoop笔记之Hive的数据存储(桶表)

Hive的数据存储(桶表) Hive的数据存储(桶表) 桶表桶表是对数据进行哈希取值,然后放到不同文件中存储. 比如说,创建三个桶,而创建桶的原则可以按照左边表中学生的名字来创建对应的桶.这样子把左边的数据存到桶里面来的时候可以把学生名字经过哈希运算,把相同哈希运算的值的列存放在同一个桶当中.比如Tom.Jerry.Scott经运算以后它们的哈希值是一样的,那么这三个人的信息就会存放在相同的一个桶里面. 有了桶表以后,就能够降低系统的文件块,从而提高查询速度 ○ 如何创建桶表?(用名字进行创建…

hadoop笔记之Hive的数据存储(外部表)

Hive的数据存储(外部表) Hive的数据存储(外部表) 外部表指向已经在HDFS中存在的数据,可以创建Partition 它和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异外部表只有一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接.而删除一个外部表时,仅删除该链接 ○如何创建一个外部表? hdfs源文件查看 [root@hadooppseudo ~]# ls student0*student01.txt student02.txt…

hadoop笔记之Hive的数据存储(分区表)

Hive的数据存储(分区表) Hive的数据存储(分区表) 分区表 Partition对应于数据库的Partition列的密集索引在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition的数据都存储在对应的目录中那么如果我们要查询男性的身高,那么只需要扫描gender='M'的分区就好了 ○如何建立一张基于性别的分区表 create table partition_table(sid int,sname string)partitioned by (gende…

hadoop笔记之Hive的数据存储(内部表)

Hive的数据存储(内部表) Hive的数据存储(内部表) 基于HDFS 可使用hadoop给我们提供的web管理工具查看数据.打开管理工具localhost:9000–>Utilities下的Browse the file system–>/user/hive/warehouse就能看到表目录–>打开表目录能看到表文件–>点击表文件,会询问是否需要下载文件–>点击download,可以用编辑器查看文件没有专门的数据存储格式(因为来自不同的数据库) 存储结构主要包括:数据库…

SQL 把表中字段存储的逗号隔开内容转换成列表形式

原文:[原创]SQL 把表中字段存储的逗号隔开内容转换成列表形式我们日常开发中,不管是表设计问题抑或是其他什么原因,或多或少都会遇到一张表中有一个字段存储的内容是用逗号隔开的列表. 具体效果如下图: ------> 从左边图转换成右边图,像这种需求,我们难免会遇到. 今天我写了个存储过程来解决这种问题.主要方式是利用master..spt_values表. 具体存储过程如下: -- Author: LHM -- Create date: 2015-01-10 -- Description: 把…

Map 嵌套存储Map

import java.util.HashMap;import java.util.Iterator;import java.util.Set;import java.util.Map.Entry; public class MapDome { // Map 嵌套存储Map // aaa // java班 // 001 郭嘉 // 002 神郭嘉 // javahoodp班 // 001 黄月英 //…

Java获取数据库表字段存储的部分数据

在浏览器页面,选中图片(可多选) >单击删除按钮. 重点是, 本数据库表TabHeBeiTianQi中存在同一id,对应的picLocalPath字段存储了多张图片,图片地址用逗号隔开 <head> <link href="static/bootstrap-3.3.5-dist/css/bootstrap.css" rel="stylesheet" /> </head> <body> &…

[原创]SQL 把表中字段存储的逗号隔开内容转换成列表形式

我们日常开发中,不管是表设计问题抑或是其他什么原因,或多或少都会遇到一张表中有一个字段存储的内容是用逗号隔开的列表. 具体效果如下图: ------> 从左边图转换成右边图,像这种需求,我们难免会遇到. 今天我写了个存储过程来解决这种问题.主要方式是利用master..spt_values表. 具体存储过程如下: -- Author: LHM -- Create date: 2015-01-10 -- Description: 把表中某一个列按照逗号拼接列表 --示例: EXEC [Sp_Str…

Hive对字段进行urlDecode

最近项目中需要对埋点日志hive表进行分析,并且按一定的规则统计出来满足要求的用户pin.本来以为是一件比较简单的事,结果在查看导出的词表时发现很多带有"%"的明显具有url encode特征的用户pin,于是就开启了这篇文章用hive对字段进行urlDecode的探索. 在查看了一些资料后,刚开始我是选择直接用reflect函数调用java自带的URLDecoder方法来对user_pin进行处理的,具体hive sql如下: hive -e "select reflect…

一道hive面试题:explode map字段

需要找到每个学生最好的课程和成绩,最差的课程和成绩,以及各科的平均分文本数据如下: name scores张三语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 李四语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 王五语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 朱六语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 钱二语文:,数学:,英语:,历史:,政治:,物理:,化学:,地理:,生物: 段…

hive使用map字段

create table role_bigtable(table_name string, record_date string, server_id string, map_col map<string, string>) partitioned by ( dt string, game_id string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY ',' MAP KEYS T…

hive学习笔记之七：内置函数

欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: <hive学习笔记>系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶 HiveQL基础内置函数 Sqoop 基础UDF 用户自定义聚合函数(UDAF) UDTF 本篇概览本文是<hive学习笔记>系列的第七篇,前文熟悉了HiveQL的常用语句,接下来把常用的…

Hive学内置条件和字符串函数

https://blog.csdn.net/skywalker_only/article/details/38752003 条件函数下表为Hive支持的一些条件函数. 返回类型函数名描述 T if(boolean testCondition, T valueTrue, T valueFalseOrNull) 如果testCondition为真,返回valueTrue,否则返回valueFalseOrNull T COALESCE(T v1, T v2, ...) 返回第一个不是NULL的v…

hive中，lateral view 与 explode函数

hive中常规处理json数据,array类型json用get_json_object(#,"$.#")这个方法足够了,map类型复合型json就需要通过数据处理才能解析. explode:字段行转列 select explode(split(字段,',')) as abc from explode_lateral_view; select explode(split(字段,',')) as abc from explode_lateral_view; LATERAL VIEW:单行数…

一文彻底搞懂Hive的数据存储与压缩

目录行存储与列存储行存储的特点列存储的特点常见的数据格式 TextFile SequenceFile RCfile ORCfile 格式数据访问 Parquet 测试准备测试数据存储空间大小测试SQL 执行效率总结 Hive 压缩 Hive中间数据压缩最终输出结果压缩常见的压缩格式 Native Libraries Hive中的可用压缩编解码器演示总结行存储与列存储当今的数据处理大致可分为两大类,联机事务处理 OLTP(on-line transaction pro…

在MySQL的InnoDB存储引擎中count(*)函数的优化

写这篇文章之前已经看过了很多数据库方面的优化内容,大部分都是加索引.使用事务.要什么select什么等等.然而,只是停留在阅读的层面上,很少有实践,因为没有遇到真实的项目,一切都是纸上谈兵.实践是检验真理的唯一标准,于是就想在数据库上测试一些性能优化的方案,比如索引之类的,但是不想使用假的数据,于是就想着能不能抓取网上的一些数据来作分析,后来自己通过PHP抓取了一些数据(查看抓取数据博文),抓了大约110W的用户数据之后,当然需要统计一下具体的数量,于是我使用了以下的SQL语句(我使用的存储引擎…