数据采集工具flume】的更多相关文章

概述 flume是在2011年被首次引入到Cloudera的CDH3分发中,2011年6月,Cloudera将flume项目捐献给Apache基金会.2012年,flume项目从孵化器变成了顶级项目,在孵化的这一年中,开发人员就已经开始基于Star Trek Themed标签对flume进行重构,并创建了flume-NG(Flume the next Generation).    Apache的flume-NG是一个分布式的,可靠的,和可用的系统.能有效地收集,汇总和移动大量的从许多不同的来源…
nmon nmon是一种在AIX与各种Linux操作系统上广泛使用的监控与分析工具,它能在系统运行过程中实时地捕捉系统资源的使用情况,并且能输出结果到文件中,然后通过nmon_analyzer工具产生数据文件与图形化结果.相较于其它系统资源监控工具,nmon所记录的信息比较全面.它可以对以下数据进行监控: cpu占用率 内存使用情况 磁盘I/O速度.传输和读写比率 文件系统的使用率 网络I/O速度.传输和读写比率.错误统计率与传输包的大小 消耗资源最多的进程 计算机详细信息和资源 页面空间和页面…
一.概述 flume是一个高效的.可靠的.可用的分布式海量日志数据收集.聚合.传输的工具. Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. 二.flum的架构 三.flume的组件以及作用 client:客户端(运行agent的地方) source: 数据源,负责接收数据 ch…
分布式日志采集系统Flume学习 一.Flume架构 1.1 Hadoop业务开发流程 1.2 Flume概述 flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. 支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本.HDFS.Hbase等)的能力 . flume的数据流由事件(Event)贯穿始终. 事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agen…
接着上一篇博客:InfluxDB简介及安装,这篇博客介绍下Linux环境下Telegraf安装以及其功能特点... 官网地址:influxdata 官方文档:telegraf文档 环境:CentOS7.4 64位 Telegraf版本:0.11.1-1 一.Telegraf介绍 1.基本介绍 Telegraf 是一个用 Go 编写的代理程序,可收集系统和服务的统计数据,并写入到 InfluxDB 数据库.内存占用小,通过插件系统可轻松添加支持其他服务的扩展. Influxdb 是一个开源的分布式…
1.针对国外的开源技术,还是学会看国外的英文说明来的直接,迅速,这里简单贴一下如何看: 2.进入到flume的conf目录,创建一个flume-spark-push.sh的文件: [hadoop@slaver1 conf]$ vim flume-spark-push.sh 配置一下这个文件,flume使用avro的. # example.conf: A single-node Flume configuration # Name the components on this agent #定义这…
之前做过淘宝PC端宝贝和店铺数据的采集,后来需要做APP端的数据采集,因为没有学过Android,以前也都是做PC端的软件,有没有其他方法呢? 突然想到了用手机模拟器,可以在电脑端控制运行手机APP端的软件,再结合软件程序发送命令来实现采集数据,APP以闲鱼为例: 主要分为: 1.连接设备: 2启动咸鱼APP 3.搜索框输入内容并搜索: 4.采集内容 5.点击进入宝贝,查看宝贝详情 6.一页采集完滚动 直至最后采集完成! 导出Excel数据: 二.同时连接多个设备 最近又研究了下多设备的采集,一…
安装Flume,参考厦门大学林子雨教程:http://dblab.xmu.edu.cn/blog/1102/ 并完成案例1 1.案例1:Avro source Avro可以发送一个给定的文件给Flume,Avro 源使用AVRO RPC机制.a) 创建agent配置文件 cd /usr/local/flume sudo vim ./conf/avro.conf #在conf目录下编辑一个avro.conf空文件 然后,我们在avro.conf写入以下内容 a1.sources = r1 a1.s…
1.  概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1.   整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,收集新数据发送给Kafka.Kafka用来做数据缓存和消息订阅.Kafka里面的消息可以定时落地到HDFS上,也可以用Spark Streaming来做实时处理,然后将处理后的数据落地到HDFS上. 1.2.   数据接入流程 本数据接入方案,分为以下几个步骤: l 安装部…
1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1.  整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,收集新数据发送给Kafka.Kafka用来做数据缓存和消息订阅.Kafka里面的消息可以定时落地到HDFS上,也可以用Spark Streaming来做实时处理,然后将处理后的数据落地到HDFS上. 1.2. 数据接入流程 本数据接入方案,分为以下几个步骤: l 安装部署Flu…