ETL的数据来源,处理,保存
1.ETL
数据来源:HDFS
处理方式:Mapreduce
数据保存:HBase
  
2.为什么保存在Hbase中
  数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合
  因为我们的分析一般情况下,是对于部分事件数据进行分析的,不需要所有的数据,希望将数据的初步过滤放到服务器上进行操作,所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
  
  
3.数据处理
  MapReduce
	      数据流: hbase -> mapreduce -> mysql
	  Hive
	      数据流:hbase -> hive -> hdfs -> sqoop -> mysql
4.来源HDFS
这些数据是在flume中收集来的数据,这些数据在前面已经被上传到HDFS。
  
ETL的数据来源,处理,保存的更多相关文章
- 095实战 ETL的数据来源,处理,保存
		
1.ETL 数据来源:HDFS 处理方式:Mapreduce 数据保存:HBase 2.为什么保存在Hbase中 数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合 因为我们的分 ...
 - Atitit 知识图谱的数据来源
		
Atitit 知识图谱的数据来源 2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...
 - Xamarin.Forms中为WebView指定数据来源Source
		
Xamarin.Forms中为WebView指定数据来源Source 网页视图WebView用来显示HTML和网页形式内容.使用这种方式,可以借助网页形式进行界面设计,并利于更新和维护.WebVi ...
 - zabbix 自定义指标数据来源
		
1.cpu load https://blog.csdn.net/scugxl/article/details/77199403 1)基本含义:运行队列长度,表示当前有多少个正在等待的进程和正在执行的 ...
 - spark SQL(三)数据源 Data Source----通用的数据 加载/保存功能
		
Spark SQL 的数据源------通用的数据 加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作.DataFrame可以使用关系变换进行操作,也可以用来创建临 ...
 - Atitit 知识管理的重要方法 数据来源,聚合,分类,备份,发布 搜索
		
Atitit 知识管理的重要方法 数据来源,聚合,分类,备份,发布 搜索 1.1. Rss 简易信息聚合(也叫聚合内容 Really Simple Syndication1 1.1. Rss 简易信息 ...
 - 【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
		
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). ...
 - 如何评估ETL的数据加载时间
		
简述如何评估大型ETL数据加载时间. 答:评估一个大型的ETL的数据加载时间是一件很复杂的事情.数据加载分为两类,一类是初次加载,另一类是增量加载. 在数据仓库正式投入使用时,需要进行一次初次加载,而 ...
 - Unity游戏数据用Json保存
		
(一)关于路径 unity有几个关键的路径 (1).Application.dataPath 只读路径,就是工作目录的Assets路径 (2).Application.streamingAssetsP ...
 
随机推荐
- LightOJ1230 Placing Lampposts(DP)
			
题目大概说给一个森林求其最小点覆盖数,同时在最小点覆盖条件下输出最多有多少条边被覆盖两次. dp[0/1][u]表示以u为根的子树内的边都被覆盖且u不属于/属于覆盖集所需的最少点数 另外,用cnt[0 ...
 - 每天一个linux命令---useradd
			
1.添加用户 useradd 选项 用户名 其中各选项含义如下: -c comment 指定一段注释性描述.-d 目录 指定用户主目录,如果此目录不存在,则同时使用-m选项,可以创建主目录.-g ...
 - json日期格式问题的办法
			
//json日期转换 格式(2015-01-01) <input class="easyui-datebox" name="sbdj_txtShebaoka_Lin ...
 - pointers on c (day 1,chapter1)
			
c语言的优先级 优先级 运算符 名称或含义 使用形式 结合方向 说明 1 [] 数组下标 数组名[常量表达式] 左到右 () 圆括号 (表达式)/函数名(形参表) . 成员选择(对象) 对象.成员名 ...
 - SQLite错误码
			
在SQLite中,执行SQL语句的sqlite3_exec()和sqlite3_prepare()两个核心方法的返回值都是一个整型数据,因此,当程序执行出现错误时,我们可以根据执行返回的整型数据来判断 ...
 - Codeforces Round #352 (Div. 2) A	 Summer Camp
			
Every year, hundreds of people come to summer camps, they learn new algorithms and solve hard proble ...
 - android  NDK入门 windows下安装cygwin
			
一.Android NDK环境简介 Android NDK 是运行于Android 平台上的Native Development Kit 的缩写. Android 应用开发者可以通过NDK 调用C 或 ...
 - Android LruCache(Picasso内存缓存)
			
Cache保存一个强引用来限制内容数量,每当Item被访问的时候,此Item就会移动到队列的头部,当cache已满的时候加入新的item时,在队列尾部的item会被回收. 如果你cache的某个值需要 ...
 - CentOS6.4 增加一个SFTP上传的用户
			
#创建sftp组 groupadd sftp #创建一个用户dsideal useradd -g sftp -s /bin/false dsideal #设置dsideal用户的密码 passwd d ...
 - 51Nod 1002 数字三角形 Label:水水水 &&  非学习区警告
			
一个高度为N的由正整数组成的三角形,从上走到下,求经过的数字和的最大值. 每次只能走到下一层相邻的数上,例如从第3层的6向下走,只能走到第4层的2或9上. 5 8 4 3 6 9 7 ...