不多说,直接上干货! PCollection数据集  PCollection是Apache Beam中数据的不可变集合,可以是有限的数据集合也可以是无限的数据集合. 有限数据集,这种一般对应的是批处理,无限数据集数据持续不断的产生,只要系统不停止数据就持续产生下去,无法知道数据在什么时候结束,对应的是流处理.PCollection是将两种数据集统一的一种数据表达方式,PCollection还是一种分布式的数据集,其中的P表示数据集可以被并行处理.  在Apache Beam中PCollectio…
不多说,直接上干货! Pipeline 数据处理流水线 Pipeline将Source PCollection ParDo.Sink组织在一起形成了一个完整的数据处理的过程. Beam概念学习系列之PCollection数据集 Beam概念学习系列之PTransform数据处理…
不多说,直接上干货! PTransform数据处理 PTransform对PCollection进行并行处理,每次处理1条,例如Filter过滤.Groupby分组.Combine统计.Join关联等等,还允许根据业务逻辑编写ParDo.Apache Beam借鉴了函数式编程的不可变性,PTransform不会改变原始的数据集PCollection,而是生成一个新的PCollection.看起来似乎是低效的一种做法,但是带来了容易测试.容易优化.容易并行计算的好处. Beam概念学习系列之PCo…
不多说,直接上干货! https://beam.apache.org/get-started/beam-overview/ 在 Beam 管道上运行引擎会根据你选择的分布式处理引擎,其中兼容的 API 转换你的 Beam 程序应用,让你的 Beam 应用程序可以有效的运行在指定的分布式处理引擎上.因而,当运行 Beam 程序的时候,你可以按照自己的需求选择一种分布式处理引擎.当前 Beam 支持的管道运行引擎有以下几种: Apache Apex Apache Flink Apache Spark…
不多说,直接上干货! https://beam.apache.org/get-started/beam-overview/ Beam SDK 提供了一个统一的编程模型,来处理任意规模的数据集,其中包括有限的数据集和无限的流数据.Apache Beam SDK 使用相同的类来表达有限和无限的数据,同样使用相同的转换方法对数据进行操作.Beam 提供了多种 SDK,你可以选择一种你熟悉的来建立数据处理管道,如下面图,我们可以知道,目前 Beam 支持 Java,Python 以及其他待开发的语言.…
一般来说,分布式数据集的容错性有两种方式: 1.数据检查点 2.记录数据的更新 我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源(在内存中复制数据可以减少需要缓存的数据量,而存储到磁盘则会降低应用程序速度).所以,我们选择记录更新的方式. 但是,如果更新太多,记录更新成本也不低.因此,RDD只支持粗粒度转换,即在大量记录上执行的单个操作.将创建RDD的一系列转换记录下来(即Lin…
开篇介绍 对于维度成员和事实数据直接的关系看到更多的可能还是一对一,一对多的关系.比方在事实维度(或退化维度)中一个订单和明细号组合而成的ID,对应的就是事实表中的一条数据,这就是一对一的关系.比方说在产品维度中,一个产品维度成员可能对应着多个事实数据成员,这就是一对多的关系.说简单点,就是事实表的外键引用了维度表的主键,形成了这种关系. 下面的这个例子就是一种多对多的情况,通常情况下,如果维度和度量值组中间是多对多的关系,那么在它们之间就需要创建一个中间事实表. 这个中间事实表的主键在数据仓库…
这篇文章是基于上一篇 SSAS 系列 - 多维数据集维度用法之一 引用维度 Referenced Dimension 继续讲解多维数据集维度用法中的事实维度. 事实维度,顾名思义就是把事实表 Fact*** 中的某一个或多个属性抽取出来形成一个维度,而不像以前直接通过维度表 Dim*** 来创建一个维度. 先来了解一下为什么不通过维度表来创建维度,而非要从一个事实表中抽取某个属性形成一个单独的维度,这是我们的疑问. 下面是从 FactResellerSales 表中抽取的一些记录,主要包括订单编…
不多说,直接上干货! 零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.从一开始什么都不懂,到能够搭建集群,开发.整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoop并没有太大的困难.下面整理一下整个学习过程,给大家一个参考. 首先我们要了解hadoop是什么?Hadoop能够做什么?Hadoop的使用场景是什么?Hadoop和大数据.云计算的关系是什么?如何使用hadoop? 当大家对这些问题有了基本的了解之后,接下来我们就要系统性的学习hadoop了.我个…
不多说,直接上干货! 前期博客 PLSQL Developer概念学习系列之如何正确登录连接上Oracle(图文详解)   如用scott.scott_password进行登录,orcl是全局数据库 出现: (没有登录) -PL / SQL Developer ORA - 12541: TNS :无建听程序 解决办法: 重新配置监听程序. 然后在LISTENER文件里将HOST改为自己的IP 地址即可. 修改地方1:  DESKTOP-IOTFVUA是我的windows系统的主机名 修改地方2:…