hive数据仓库表设计之（矮宽表+高窄表）

昨天面对某客户域做表关联的时候发现了。

有两张相同内容的主表。但是表的设计结构并不相同：

（每个领域都有主表，每次往这个领域（库）添加新表的时候一般都会join 主表，从而有唯一的主键id）

这两个表提供了这个领域的主键（id）.

在这个

...

目测有60个字段这是一张宽表.
+------------+------------+----------+--+

目测有不到10个字段
+------------+------------+----------+--+

这是一张窄表

select type1,type2 from thistable group by type1,typ2;

发现类型数据有14种类左右

这样就相当于把第一个宽表的数据（可能剔除了不重要的字段）然后完全放开，行数暴增。

==============================================================================

我讲一下怎么用设计性能原理还要留给大家去分析：

每次都要从其他表抽取数据关联这个表id(唯一主键)，比如这个第三方表名字叫第三方客户信息没有id这列（毕竟id列是我们在自己的系统自己生成的），

只有用户名和手机号+（第三方提供的字段（比如一周洗几次澡）），我们用name+ phone去作为join on的条件关联主表窄表，得到新的有主键的表。

select id ,max(a.字段) from 第三方表 a

join

(select id,value1 as phone,value2 as name from 主表窄表 where type1=‘MOBILE_PHONE’ and type2='NAME' group by id,value1,value2) b

on a.phone=b.phone and a.name=b.name

group by id.

note:上面的group by 的作用主要是为了去重。

但是为什么这样设计？这又是对内存和计算效率（时间）之间的权衡

应该是减少对内存的需求。因为join关联必定要生成一个中间表。如果是宽表内存太大，但是窄表牺牲了关联效率。毕竟行数倍增原来十多倍。关于join的原理请看我另一份博客。

年前和项目老大聊了一会。他设计这个报表。感觉大佬的想法很nice。

hive数据仓库表设计之（矮宽表+高窄表）的更多相关文章

MySQL库表设计小技巧
前言: 在我们项目开发中,数据库及表的设计可以说是非常重要,我遇到过很多库表设计比较杂乱的项目,像表名.字段名命名混乱.字段类型设计混乱等等,此类数据库后续极难维护与拓展.我一直相信只有优秀的库表设计 ...
Hadoop HBase概念学习系列之HBase里的宽表设计概念（表设计）（二十七）
在下面这篇博文里,我给各位博客们,分享了创建HBase表,但这远不止打好基础. HBase编程 API入门系列之create(管理端而言)(8) 在关系型数据库里,表的高表和宽表是不存在的.在如HBa ...
高速查询hive数据仓库表中的总条数
Author: kwu 高速查询hive数据仓库中的条数.在查询hive表的条数,通常使用count(*).可是数据量大的时候,mr跑count(*)往往须要几分钟的时间. 1.传统方式获得总条数例如 ...
Oracle 课程三之表设计
完成本课程的学习后,您应该能够: •普通堆表优点和缺点 •理解rowid •全局临时表优点.缺点和适用场景 •分区表的类型和原理.优点和缺点.适用场景 •表字段的高效设计 •sequence的设计 ...
分布式数据库HBase表设计
比较常用的数据库是关系型数据库,但很多场景下nosql数据库会更加擅长,从sql到nosql实施的第一步就是设计表结构,这是两种不同的思维方式,这里说下HBase表设计. 需求:需要一张stock表用 ...
mysql系列十一、mysql优化笔记：表设计、sql优化、配置优化
可以从这些方面进行优化: 数据库(表)设计合理 SQL语句优化数据库配置优化系统层.硬件层优化数据库设计关系数据库三范式 1NF:字段不可分; 2NF:有主键,非主键字段依赖主键; 3NF:非 ...
常见电商项目的数据库表设计（MySQL版）
转自:https://cloud.tencent.com/developer/article/1164332 简介: 目的: 电商常用功能模块的数据库设计常见问题的数据库解决方案环境: MySQL ...
HBase概念学习（八）开发一个类twitter系统之表设计
这边文章先将可能的需求分析一下,设计出HBase表,下一步再開始编写client代码. TwiBase系统 1.背景为了加深HBase基本概念的学习,參考HBase实战这本书实际动手做了这个样例. ...
MaxCompute表设计最佳实践
MaxCompute表设计最佳实践产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能,因此我们先介绍下什么样的操作会产生大量小文件,从而在做表设计的时候考虑避开此类操作. 使 ...

随机推荐

Mybatis插件之Mybatis-Plus（SpringBoot）
这边只在SpringBoot下进行简单查询的测试,接下来会博客会介绍增删改的操作. 数据库表结构如下: 开始测试: 1.新建工程(trymp_springboot)并把项目结构建立好 2.导入pom. ...
《Brennan's Guide to Inline Assembly》学习笔记
原文见Brennan's Guide to Inline Assembly. AT&T语法 vs Intel语法 DJGPP是基于GCC的,因此它使用AT&T/UNIT语法,这和Int ...
mysql在字符编辑窗口下怎么退出编辑界面？（mysql下的ctrl+c与\c）
[1]SQL编辑我们在SQL编辑的时候打错了,想要退出编辑重新输入,或者是不想写了. 如下图 (1)如果我们直接按ctrl+c中断,那么直接退出整个linux了,如上图 (2)我们可以使用\c,直接 ...
LeetCode 第 14 场双周赛
基础的 api 还是不够熟悉啊 5112. 十六进制魔术数字 class Solution { public: char *lltoa(long long num, char *str, int ra ...
js中实现输入框类似百度搜索的智能提示效果
说明:我这里显示的数据采用词典(词典在js中自定义的,看下面文字),主要显示key. 页面元素: <style type="text/css">.search { le ...
sshpass ssh登录时自动输入密码
安装直接安装 sudo apt-get install sshpass 源代码安装 wget http://sourceforge.net/projects/sshpass/files/sshpas ...
ACM-ICPC 2017北京
J. Pangu and Stones 大意: 给定$n$堆石子, $(n\le 100)$, 每次操作任选连续的至少$L$堆至多$R$堆合并, 代价为合并石子的总数, 求合并为$1$堆的最少花费. ...
Java并发与多线程教程(2)
Java同步块 Java 同步块(synchronized block)用来标记方法或者代码块是同步的.Java同步块用来避免竞争.本文介绍以下内容: Java同步关键字(synchronzied) ...
SpringBoot使用MongoDB异常问题
一环境介绍 SpringBoot1.5.13.RELEASE(本地) Spring Data MongoDB Java 8 MongoDB(青云) 二问题描述使用Studio3T或者Compas ...
C语言读取配置文件
配置文件截图: 读取结果截图: 代码转自:http://www.tuicool.com/articles/Zb2iIn 附代码: // ReadConfig.cpp : 定义控制台应用程序的入口点. ...

hive数据仓库表设计之（矮宽表+高窄表）

hive数据仓库表设计之（矮宽表+高窄表）的更多相关文章

随机推荐

热门专题