kafka产生的数据通过Flume存到HDFS中

吹静静 2024-11-05 21:35:17 原文

试验目标：

把kafka的生产者发出的数据流经由Flume放到HDFS来存储。

试验环境：

java:1.8

kafka:2.11

flume:1.6

hadoop:2.8.5

试验流程：

1.进入zookeeper的bin目录，启动zookeeper

$ zkServer.sh start

2.配置Flume的conf文件

在flume下conf文件夹创建 flume.cof文件

agent.sources = kafkaSource

agent.channels = memoryChannel

agent.sinks = hdfsSink

agent.sources.kafkaSource.channels = memoryChannel

agent.sources.kafkaSource.type=org.apache.flume.source.kafka.KafkaSource

agent.sources.kafkaSource.zookeeperConnect=127.0.0.1:

agent.sources.kafkaSource.topic=flume-data

agent.sources.kafkaSource.kafka.consumer.timeout.ms=

agent.channels.memoryChannel.type=memory

agent.channels.memoryChannel.capacity=

agent.channels.memoryChannel.transactionCapacity=

agent.sinks.hdfsSink.type=hdfs

agent.sinks.hdfsSink.channel = memoryChannel

agent.sinks.hdfsSink.hdfs.path=hdfs://master:9000/usr/feiy/flume-data

agent.sinks.hdfsSink.hdfs.writeFormat=Text

agent.sinks.hdfsSink.hdfs.fileType=DataStream

3.启动hadoop分布式集群

$ start-all.sh

4.启动kafka服务，并创建一个topic，让flume来消费。

启动kafka：

$ bin/kafka-server-start.sh -daemon ./config/server.properties &

创建topic，主题名：flume-data

$ bin/kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 1 --topic flume-data

4.启动flume，等待kafka传输消息

进入flume安装目录下的conf目录，执行命令

$ bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name agent -Dflume.root.logger=INFO,console

5.向主kafka里面输入数据

$ bin/kafka-console-producer.sh --broker-list 127.0.0.1:9092 --topic flume-data

此时，你输入的数据就会通过flume发送到HDFS里面

6.查看HDFS里面的文件

$ hadoop fs -ls /usr/feiy/flume-data

$ hadoop fs -cat /usr/feiy/flume-data/FlumeData.1551321145495

代码试验：

如果是用kafka代码，获取接口的数据，然后向flume里传送，只需要将kafka中的代码中的topic名字设置成服务器上的主题名即可：flume-data

参考：https://blog.csdn.net/feinifi/article/details/73929015

kafka产生的数据通过Flume存到HDFS中的更多相关文章

spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...
ffmpeg从AVFrame取出yuv数据到保存到char*中
ffmpeg从AVFrame取出yuv数据到保存到char*中很多人一直不知道怎么利用ffmpeg从AVFrame取出yuv数据到保存到char*中,下面代码将yuv420p和yuv422p的数 ...
调用存储过程取到数据通过NPOI存到Excel中
//调用 public ActionResult GenerateExcel() { DataTable headerTable = new DataTable(); ...
Java输入一行数据并转存到数组中
直接看下面的代码吧!主要是split和foreach的使用 import java.io.*; import java.util.*; public class Main{ public static ...
python 数据如何保存到excel中--xlwt
第一步:下载xlwt 首先要下载xlwt,(前提是你已经安装好了Python) 下载地址: https://pypi.python.org/pypi/xlwt/ 下载第二个第二步:安装xl ...
带你看懂大数据采集引擎之Flume&采集目录中的日志
一.Flume的介绍: Flume由Cloudera公司开发,是一种提供高可用.高可靠.分布式海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于采集数据:同时,flum ...
flume 增量上传日志文件到HDFS中
1.采集日志文件时一个很常见的现象采集需求:比如业务系统使用log4j生成日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs中. 1.1.根据需求,首先定义一下3大要素: 采集源 ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
HDFS中的读写数据流
1.文件的读取在客户端执行读取操作时,客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的?下面将围绕图1进行具体讲解. 图 1 客户端从HDFS中读取数据 1)客户 ...

随机推荐

C++学习（二十四）（C语言部分）之结构体1
1.结构体存放多个不同类型的数据但是是相关联的数组存放多个相同类型的数据结构体是存放多个相关联的不同类型的数组 struct 定义一个结构体类型自定义类型 2.结构体定义方式定义类型最通 ...
OpenGL编程-OpenGL框架-win32项目
在win32项目中开发的程序小知识: 控制台应用程序运行就是dos的界面项目一般采用了可视化开发开发出来的东西就像QQ之类的是有窗口界面的程序运行结果是这样的源代码:对第45行进行覆盖 # ...
生产者消费者两种实现：wait/notifyAll和Lock/Condition
1.wait/notifyAll /** * 面试题:写一个固定容量同步容器,拥有put和get方法,以及getCount方法, * 能够支持2个生产者线程以及10个消费者线程的阻塞调用 * * 使用 ...
oracle-sql系统学习-ddl-dml
e41084-04 oracle database sql language reference 11g release 2 sql语句类型 ddl alter ...除了alter session和 ...
ubuntu 14上安装mysql离线包
1.下载mysql在linux下离线安装包文件:wget http://dev.mysql.com/get/Downloads/MySQL-5.6/mysql-5.6.33-linux-glibc2. ...
zeromy quick start - python
软件: pip install pyzmq 代码: ==server.py # # Hello World server in Python # Binds REP socket to t ...
[转]SQL UNION 和 UNION ALL 操作符
SQL UNION 操作符 UNION 操作符用于合并两个或多个 SELECT 语句的结果集. 请注意,UNION 内部的 SELECT 语句必须拥有相同数量的列.列也必须拥有相似的数据类型.同时,每 ...
mysql之 myloader原理介绍
myloader恢复主要流程 1.首先由myloader主线程完成建库建表,依次将备份目录下建库和建表文件执行应用到目标数据库实例中: 2.接着myloader主线程会生成多个工作线程,由这些 ...
django用mysql数据库出现的问题解决
blog添加不了文章!! 做了个程序,将数据库迁移到服务器之后,发现一个奇怪的错误.Field 'id' doesn't have a default value.查看了一下,程序是没问题的,但是这是 ...
c/c++ int数组初始化/重置为0
1.int数组其实初始化的时候默认就是全部为0 int a[1000];int a[1000] = {0}; 以上2种写法其实都可以注意:int a[1000] = {0};这种方法如果想把整形数组 ...