首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
中电金信:技术实践|Flink维度表关联方案解析
】的更多相关文章
10.Flink实时项目之订单维度表关联
1. 维度查询 在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表.但是即使通过主键的方式查询,hbase 速度的查询也是不及流之间的 join.外部数据源的查询常常是流式计算的性能瓶颈,所以我们在查询hbase维度数据的基础上做一些优化及封装. phoenix查询封装 phoenix作为hbase的一个上层sql封装,或者叫做皮肤,可以使用标准的sql语法来使用hbase,我们做一些简单的查询hbase的工…
字节跳动基于ClickHouse优化实践之“多表关联查询”
更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻.但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制.例如: 缺少完整的upsert和delete操作 多表关联查询能力弱 集群规模较大时可用性下降(对字节尤其如此) 没有资源隔离能力 因此,我们决定将ClickHouse能力进行全方位加强,打造一款更强大的数据分析平台.本篇将详细介绍我们是如…
MapReduce 中的两表 join 方案解析
1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的.而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧. 本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法. 2. 常见的join方法介绍 假设要进行join的数据分别来自File1和File2. 2.1 reduce side join reduce side join是一种最简单的join方式,其主…
HAWQ取代传统数仓实践(十二)——维度表技术之分段维度
一.分段维度简介 在客户维度中,最具有分析价值的属性就是各种分类,这些属性的变化范围比较大.对某个个体客户来说,可能的分类属性包括:性别.年龄.民族.职业.收入和状态,例如,新客户.活跃客户.不活跃客户.已流失客户等.在这些分类属性中,有一些能够定义成包含连续值的分段,例如年龄和收入这种数值型的属性,天然就可以分成连续的数值区间,而象状态这种描述性的属性,可能需要用户根据自己的实际业务仔细定义,通常定义的根据是某种可度量的数值. 组织还可能使用为其客户打分的方法刻画客户行为.分段维…
HAWQ取代传统数仓实践(八)——维度表技术之角色扮演维度
单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度.例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样引用具有不同的含义.这些不同的维度视图具有唯一的代理键列名,被称为角色,相关维度被称为角色扮演维度. 当一个事实表多次引用一个维度表时会用到角色扮演维度.例如,一个销售订单有一个是订单日期,还有一个请求交付日期,这时就需要引用日期维度表两次. 我们期望在每个事实表中设置日期维度,因为总是希望按…
HAWQ取代传统数仓实践(十一)——维度表技术之维度合并
有一种合并维度的情况,就是本来属性相同的维度,因为某种原因被设计成重复的维度属性.例如,在销售订单示例中,随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中.客户维度的客户地址相关信息.送货地址相关信息里都有邮编.城市和省份.下面说明如何把客户维度里的两个邮编相关信息合并到一个新的维度中. 一.修改数据仓库表结构 为了合并维度,需要改变数据仓库表结构.图1显示了修改后的结构.新增了一个zip_code_dim邮编信息维度表,sales_order_fact事实表的结构也做了相应的…
HAWQ取代传统数仓实践(九)——维度表技术之退化维度
退化维度技术减少维度的数量,简化维度数据仓库模式.简单的模式比复杂的更容易理解,也有更好的查询性能. 有时,维度表中除了业务主键外没有其它内容.例如,在本销售订单示例中,订单维度表除了订单号,没有任何其它属性,而订单号是事务表的主键,这种维度就是退化维度.业务系统中的主键通常是不允许修改的.销售订单只能新增,不能修改已经存在的订单号,也不会删除订单记录.因此订单维度表也不会有历史数据版本问题.退化维度常见于事务和累计快照事实表中. 销售订单事实表中的每行记录都包括作为…
HAWQ取代传统数仓实践(十)——维度表技术之杂项维度
一.什么是杂项维度 简单地说,杂项维度就是一种包含的数据具有很少可能值的维度.事务型商业过程通常产生一系列混杂的.低基数的标志位或状态信息.与其为每个标志或属性定义不同的维度,不如建立单独的将不同维度合并到一起的杂项维度.这些维度,通常在一个模式中标记为事务型概要维度,一般不需要所有属性可能值的笛卡尔积,但应该至少包含实际发生在源数据中的组合值. 例如,在销售订单中,可能存在有很多离散数据(yes-no这种开关类型的值),如: verification_ind(如果订单已经被审核,…
HAWQ取代传统数仓实践(七)——维度表技术之维度子集
有些需求不需要最细节的数据.例如更想要某个月的销售汇总,而不是某天的数据.再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等.此时事实数据需要关联到特定的维度,这些特定维度包含在从细节维度选择的行中,所以叫维度子集.维度子集比细节维度的数据少,因此更易使用,查询也更快. 有时称细节维度为基本维度,维度子集为子维度,基本维度表与子维度表具有相同的属性或内容,称这样的维度表具有一致性.一致的维度具有一致的维度关键字.一致的属性列名字.一致的属性定义以及一致的属性值.如果属性…
子弹短信光鲜的背后:网易云信首席架构师分享亿级IM平台的技术实践
本文原文内容来自InfoQ的技术分享,本次有修订.勘误和加工,感谢原作者的分享. 1.前言 自从2018年8月20日子弹短信在锤子发布会露面之后(详见<老罗最新发布了“子弹短信”这款IM,主打熟人社交能否对标微信?>),关于它的讨论不绝于耳,7 天融资 1.5 亿的传闻更是将它推到了风口浪尖(请见<[资讯] “子弹短信”发布一周即融得1.5亿资金>). ▲ 嗯,这个牛逼老罗可以吹很久 同时很多技术人开始分析它的代码,挖出了它的 IM 系统其实不是自研,而是使用网易云信提供的第三…