spark streaming集成flume

1、安装flume

flume安装，解压后修改flume_env.sh配置文件，指定java_home即可。

cp hdfs jar包到flume lib目录下（否则无法抽取数据到hdfs上）：

$ cp /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6/share/hadoop/hdfs/hadoop-hdfs-2.5.0-cdh5.3.6.jar

/opt/cdh-5.3.6/flume-1.5.0-cdh5.3.6-bin/lib/

2、 spark streaming集成flume

2.1）编译spark，获得集成flume jar包：

参考文档：http://www.cnblogs.com/wcwen1990/p/7688027.html

说明：spark streaming集成flume或者kafka需要一些支持jar包，这些jar包在编译spark过程中会自动在external目录下生成相应的jar文件，因此，这里需要编译spark来获得这些jar包。

Spark streaming集成flume主要需要：spark-streaming-flume_2.10-1.3.0.jar包。

2.2）集成jar包

$mkdir –p /opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/externalLibs

$cp spark-1.3.0/external/flume/target/spark-streaming-flume_2.10-1.3.0.jar

/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/externalLibs/

$ pwd

/opt/cdh-5.3.6/flume-1.5.0-cdh5.3.6-bin/lib

$ cp flume-avro-source-1.5.0-cdh5.3.6.jar flume-ng-sdk-1.5.0-cdh5.3.6.jar

/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/externalLibs/

$ cd /opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/externalLibs/

$ ll

flume-avro-source-1.5.0-cdh5.3.6.jar

flume-ng-sdk-1.5.0-cdh5.3.6.jar

spark-streaming-flume_2.10-1.3.0.jar

3、编译flume配置文件（配置sources、channel、sink）：

$ cat flume-spark-push.conf

ss.sources = sss

ss.channels = ssc

ss.sinks = ssk

ss.sources.sss.type = exec

ss.sources.sss.command = tail -f /opt/cdh-5.3.6/flume-1.5.0-cdh5.3.6-bin/wctotal.log

ss.sources.sss.shell = /bin/bash -c

ss.channels.ssc.type = memory

ss.channels.ssc.capacity = 1000

ss.channels.ssc.transactionCapacity = 100

ss.sinks.ssk.type = avro

ss.sinks.ssk.hostname = chavin.king

ss.sinks.ssk.port = 9999

ss.sources.sss.channels = ssc

ss.sinks.ssk.channel = ssc

4、编写spark streaming程序：

import org.apache.spark._

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.streaming.flume._

import org.apache.spark.storage.StorageLevel

val ssc = new StreamingContext(sc, Seconds(5))

// read data

val stream = FlumeUtils.createStream(ssc, "chavin.king", 9999, StorageLevel.MEMORY_ONLY_SER_2)

stream.count().map(cnt => "Received " + cnt + " flume events." ).print()

ssc.start() // Start the computation

ssc.awaitTermination() // Wait for the computation to terminate

5、 spark-shell local模式测试spark streaming集成flume

$ bin/spark-shell --master local[2] --jars \

/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/externalLibs/spark-streaming-flume_2.10-1.3.0.jar,/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/externalLibs/flume-avro-source-1.5.0-cdh5.3.6.jar,/opt/cdh-5.3.6/spark-1.3.0-bin-2.5.0-cdh5.3.6/externalLibs/flume-ng-sdk-1.5.0-cdh5.3.6.jar

执行步骤4中程序：

scala> import org.apache.spark._

import org.apache.spark._

scala> import org.apache.spark.streaming._

import org.apache.spark.streaming._

scala> import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.streaming.StreamingContext._

scala> import org.apache.spark.streaming.flume._

import org.apache.spark.streaming.flume._

scala> import org.apache.spark.storage.StorageLevel

import org.apache.spark.storage.StorageLevel

scala> val ssc = new StreamingContext(sc, Seconds(5))

ssc: org.apache.spark.streaming.StreamingContext = org.apache.spark.streaming.StreamingContext@412dea3c

scala> val stream = FlumeUtils.createStream(ssc, "chavin.king", 9999, StorageLevel.MEMORY_ONLY_SER_2)

stream: org.apache.spark.streaming.dstream.ReceiverInputDStream[org.apache.spark.streaming.flume.SparkFlumeEvent] = org.apache.spark.streaming.flume.FlumeInputDStream@2bf9884

scala> stream.count().map(cnt => "Received " + cnt + " flume events." ).print()

//输入以下命令启动spark streaming

scala> ssc.start()

scala> ssc.awaitTermination()

6、启动flume

bin/flume-ng agent -c conf -n ss -f conf/flume-spark-push.conf -Dflume.root.logger=DEBUG,console

7、测试spark streaming集成flume：

$ echo “hadoop oracle mysql” >>/opt/cdh-5.3.6/flume-1.5.0-cdh5.3.6-bin/wctotal.log

执行上边命令，可以在spark streaming命令行界面下看到如下内容：

-------------------------------------------

Time: 1499976790000 ms

-------------------------------------------

Received 1 flume events.

8、参考文档：http://spark.apache.org/docs/1.3.0/streaming-flume-integration.html

spark streaming集成flume的更多相关文章

spark streaming集成kafka
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Clouder ...
Spark学习之路（十五）—— Spark Streaming 整合 Flume
一.简介 Apache Flume是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中.Spark Straming提供了以下两种方式用于Flu ...
Spark 系列（十五）—— Spark Streaming 整合 Flume
一.简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中.Spark Straming 提供了以下两种方式用于 ...
Spark Streaming 整合 Flume
Spark Streaming 整合 Flume 一.简介二.推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Strea ...
cdh环境下，spark streaming与flume的集成问题总结
文章发自:http://www.cnblogs.com/hark0623/p/4170156.html 转发请注明如何做集成,其实特别简单,网上其实就是教程. http://blog.csdn.n ...
Spark Streaming从Flume Poll数据案例实战和内幕源码解密
本节课分成二部分讲解: 一.Spark Streaming on Polling from Flume实战二.Spark Streaming on Polling from Flume源码第一部分 ...
Spark Streaming处理Flume数据练习
把Flume Source(netcat类型),从终端上不断给Flume Source发送消息,Flume把消息汇集到Sink(avro类型),由Sink把消息推送给Spark Streaming并处 ...
spark streaming集成kafka接收数据的方式
spark streaming是以batch的方式来消费,strom是准实时一条一条的消费.当然也可以使用trident和tick的方式来实现batch消费(官方叫做mini batch).效率嘛,有 ...
解决spark streaming集成kafka时只能读topic的其中一个分区数据的问题
1. 问题描述我创建了一个名称为myTest的topic,该topic有三个分区,在我的应用中spark streaming以direct方式连接kakfa,但是发现只能消费一个分区的数据,多次更换 ...

随机推荐

web项目在visual studio 输出窗口显示调试信息
//始终显示 Trace.WriteLine(“要显示的调试信息”); //调试时显示 Debug.WriteLine(“要显示的调试信息”);
Effective Java 第三版——62. 当有其他更合适的类型时就不用字符串
Tips 书中的源代码地址:https://github.com/jbloch/effective-java-3e-source-code 注意,书中的有些代码里方法是基于Java 9 API中的,所 ...
使用protobuf编译onnx.proto过程中的一些问题总结
使用git clone下载protobuf的源代码,然后git checkout到branch2.7.0: 编译protobuf,先在代码顶层目录执行./configure,然后执行make,成功后执 ...
Atitit 项目版本管理gitflow 与 Forking的对比与使用
Atitit 项目版本管理gitflow 与 Forking的对比与使用 1.1. 版本管理的历史 csv>>svn >git 1 1.2. gitflow的核心是分版本管理,for ...
Atitit 乌合之众读后感attilax总结与读后感结构规范总结
Atitit 乌合之众读后感attilax总结与读后感结构规范总结 1. 背景概览与鸟瞰overview 1 1.1. 社会背景与历史事件背景与历史时间背景 1 1.2. 书籍简绍 2 1. ...
基于Kafka的生产者消费者消息处理本地调试
(尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/68174111冷血之心的博客) Kafka下载地址:http://d ...
基于vue-cli配置手淘的lib-flexible + rem，实现移动端自适应
没接触过flexible的建议先看看大漠的这篇文章这样你才会知道长度为什么用rem,而字体要用px 安装flexible npm install lib-flexible --save 引入flexi ...
ETF计划Q&A
ETF计划Q&A 2018-07-16 参考:详解ETF计划.ETF计划Q&A(2017版) 目录问1:ETF计划是什么?问2:ETF计划适合什么人参加?问3:我想参考你的计划,但告 ...
挖坑:hive集成kerberos
集成hive+kerberos前,hadoop已经支持kerberos,所以基础安装略去: https://www.cnblogs.com/garfieldcgf/p/10077331.html 直接 ...
linux c调用 mysql代码
代码: #include <stdio.h> #include <stdlib.h> #include <string.h> #include <mysql/ ...

spark streaming集成flume

spark streaming集成flume的更多相关文章

随机推荐

热门专题