Hadoop-No.12之数据采集的时效性

数据采集的时效性,指的是可进行数据采集的时间与Hadoop中工具可访问数量的时间之间的间隔.采集架构的时间分类会对存储媒介和采集方法造成很大的影响.

一般来说,在设计应用的采集构架之前建议使用以下分类中的一种.

大型批处理

通常指15分钟到数小时的任务,有时可能指时间跨度达到一天的任务
小型批处理

通常指每2分钟发送一次的任务,但是总的来说不会超过15分钟
近实时决策支持

接受信息后”立即做出反应”,并在2秒至2分钟之内发送数据
实时

不超过100毫秒内响应

需要注意的是,随着任务的实现时间达到实时,实现的复杂性和成本也会大大增加.从批量处理处罚(比如使用简单文件传输)通常是个不错的选择.选择更加复杂的采集方法之前要先使用简单的方法

HDFS对时效性的要求比较宽松,所以可能更加适合成为主要存储位置.而一个简单文件传输或者Sqoop任务则适合作为采集数据的工具.

当用户的需要从简单的批处理转向更高频率的更新时,就应该考虑Flume或Kafka之类的工具.在这里,传输时间要求不超过2分钟,所以Sqoop与文件转换器不适用.而且,因为要求时间不超过2分钟,所以存储层可能需要变为HBase或Solr,这样插入与读取操作会获得更细粒度.当要求提高到实时水平时,我们首先应该考虑内存,然后是永久性存储.全世界所有的平行化处理都不会有助于将反应要求控制在500毫秒以内,只要硬盘驱动器保持处理操作的状态.基于这一点,开始进入流处理领域,采用Storm或Spark Steaming之类的工具.这里要强调的是,这些工具应该真正用于数据处理,而不是像Flume或Sqoop那样用于数据采集

Hadoop-No.12之数据采集的时效性的更多相关文章

Caused by: org.xml.sax.SAXParseException; systemId: file:/home/hadoop/hive-0.12.0/conf/hive-site.xml; lineNumber: 5; columnNumber: 2; The markup in the document following the root element must be well
1:Hive安装的过程(Hive启动的时候报的错误),贴一下错误,和为什么错,以及解决方法: [root@master bin]# ./hive // :: INFO Configuration.de ...
Hadoop第12周练习—HBase安装部署
1 1.1 1.2 :安装HBase 2.1 内容运行环境说明 1.1 硬软件环境线程,主频2.2G,6G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-8 ...
[大牛翻译系列]Hadoop（12）MapReduce 性能调优：诊断硬件性能瓶颈
6.2.5 硬件性能问题尽管单独的硬件的MTTF(平均失效前时间)都数以年记,然而在集群中就完全不是这么一回事了.整个集群的MTTF就要小得多.这一节要介绍如何确定CPU,内存,磁盘和网络是否过度利 ...
Debian下Hadoop 3.12 集群搭建
Debian系统配置我这里在Vmware里面虚拟4个Debian系统,一个master,三个solver.hostname分别是master.solver1.solver2.solver3.对了,下 ...
hadoop 集群的配置
在经过几天折腾,终于将hadoop环境搭建成功,整个过程中遇到各种坑,反复了很多遍,光虚拟机就重新安装了4.5次,接下来就把搭建的过程详细叙述一下 0.相关工具: 1,系统环境说明: 我这边给出我的集 ...
hadoop安装及配置入门篇
声明: author: 龚细军时间: -- 类型: 笔记转载时请注明出处及相应链接. 链接地址: http://www.cnblogs.com/gongxijun/p/5726024.html 本 ...
xml in hadoop ETL with pig summary
项目中需要把source为xml的文件通过flume放置到hdfs,然后通过MR导入到vertica中去,我之前做过简单的尝试,是通过pig的piggybank的xmlloader然后Regex_e ...
ETL from hadoop to vertica
根据项目需要,我做了一个POC(proof of concept),XML TXT的数据从HADOOP 引入到VERTICA. 我采用的方案是pig,具体信息可以参加vertica官方的文档. Acc ...
[Hadoop 周边] Hadoop技术生态圈
Hadoop版本演进当前Hadoop有两大版本:Hadoop 1.0和Hadoop 2.0. Hadoop1.0被称为第一代Hadoop,由分布式文件系统HDFS和分布式计算框架MapReduce组 ...

随机推荐

修改Jupyter Notebook默认目录
Jupyter Notebook每次打开都需要先进到相应的文件夹再打开很不方便首先进入到Jupyter的安装目录,我的是 D:\Anaconda3\Scripts 然后,输入命令: jupyter ...
supervisor管理airflow
#用airflow帐号 su - airflow. /home/airflow/venv/bin/activatepip install supervisormkdir -p /home/airflo ...
POJ - 3249 Test for Job （在DAG图利用拓扑排序中求最长路）
(点击此处查看原题) 题意给出一个有n个结点,m条边的DAG图,每个点都有权值,每条路径(注意不是边)的权值为其经过的结点的权值之和,每条路径总是从入度为0的点开始,直至出度为0的点,问所有路径中权 ...
线性基求交（2019牛客国庆集训派对day4）
题意:https://ac.nowcoder.com/acm/contest/1109/C 问你有几个x满足A,B集合都能XOR出x. 思路: 就是线性基求交后,有几个基就是2^几次方. #defin ...
mysql-tpcc测试
os: centos 7.4 db: mysql 5.7 software: tpcc-mysql TPC-C是专门针对联机交易处理系统(OLTP系统)的规范. tpcc-mysql是percona基 ...
【动态规划】subsequence 1
题目链接:https://ac.nowcoder.com/acm/contest/885/G 题意: 两个串,s t,求s的所有子串中大于 t 的数目题解: dp[i][j] 表示 s的前i个, ...
nginx部署vue前端，刷新出现404或者500错误的解决方案
在nginx配置文件的server下加上 try_files $uri $uri/ /index.html; 不加的话是404,路径错误是500,这里的路径只要照着/index.html就行,不用加上 ...
Java 注解（原理及其使用）
一.注解(annotation)介绍 Java在JDK5中引入源代码的注解机制. 1.什么是注解? 注解为代码添加了元数据,元数据是关于数据的组织.数据域及其关系的说明信息. 更通俗的说,注解为程序元 ...
【转】CnBlogs自定义博客样式
文章有一个好的排版,将能够增加阅读者对其内容的兴趣. 本文总结了如何美化博客园中文章的部分显示样式. 1.美化文章标题的显示样式 2.增添LaTex数学公式的显示 3.目录索引的显示 4.添加文章末尾 ...
vue-loading图
父组件给子组件src地址: columns(){ return [ {'title': '图片', 'key': 'img', render(h, {row}){ return h(LoadingIm ...

Hadoop-No.12之数据采集的时效性

Hadoop-No.12之数据采集的时效性的更多相关文章

随机推荐

热门专题