[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）

1.启动zookeeper

2.启动kafka服务（broker）

[root@master kafka_2.11-0.10.2.1]# ./bin/kafka-server-start.sh config/server.properties

3.启动kafka的producer（前提：已经创建好topic

[root@master kafka_2.11-0.10.2.1]# ./bin/kafka-console-producer.sh --broker-list master:9092 --topic test

4.启动kafka的consumer

[root@master kafka_2.11-0.10.2.1]#./bin/kafka-console-consumer.sh --zookeeper master:2181 --topic test --from-beginning

5.打jar包，将带有依赖的jar包上传到集群上

mvn clean assembly:assembly

6.编写启动脚本，启动任务 sh run_receiver.sh

/usr/local/src/spark-2.0.2-bin-hadoop2.6/bin/spark-submit\

        --class com.skyell.streaming.ReceiverFromKafka\

        --master yarn-cluster \

        --executor-memory 1G \

        --total-executor-cores 2 \

        --files $HIVE_HOME/conf/hive-site.xml \

        ./Spark8Pro-2.0-SNAPSHOT-jar-with-dependencies.jar

监控任务及查看日志

http://master:8088/cluster

关闭spark streaming任务

yarn application -kill application_1539421032843_0093

数据驱动变革-云将个人博客地址

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）的更多相关文章

spark streaming从指定offset处消费Kafka数据
spark streaming从指定offset处消费Kafka数据 -- : 770人阅读评论() 收藏举报分类: spark() 原文地址:http://blog.csdn.net/high ...
Vertica的这些事（十四）——Vertica实时消费kafka实现
一. 安装环境 Vertica官方提供了消费kafka的方法,需要注意版本对应消费kafka原理,是Vertica提供的Udx 首先需要安装相应的环境 /${vertica}/packages/ka ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once
一.概述上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...
Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别
Receiver是使用Kafka的高层次Consumer API来实现的. Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
spark Streaming的Receiver和Direct的优化对比
Direct 1.简化并行读取:如果要读取多个partition,不需要创建多个输入DStream然后对它们进行union操作.Spark会创建跟Kafka partition一样多的RDD part ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...

随机推荐

Scala 学习笔记之集合(9) 集合常用操作汇总
object CollectionDemo10 { def main(args: Array[String]): Unit = { var ls = List[Int](1, 2, 3) //向后增加 ...
再探vue
1. vue项目搭建搭建vue环境需要安装node软件,node是由c++编写而成,主要运行js文件或者js代码的,安装node会自动安装一个管理器叫npm,建议换源下载,国外的网站较慢(比如cnp ...
js悬浮、回到顶部
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
执行Django数据迁移，报错 1091
问题描述今天在Pycharm 中的Terminal下,执行数据迁移操作时,第一步: Python manage.py makemigrations ,是没有任何问题,但就是在执行真正的数据迁移时,也 ...
pycharm 激活码 2019/12最新福利（3）
K6IXATEF43-eyJsaWNlbnNlSWQiOiJLNklYQVRFRjQzIiwibGljZW5zZWVOYW1lIjoi5o6I5p2D5Luj55CG5ZWGOiBodHRwOi8va ...
记录 java 安卓各类引用包报错处理方法例如 android.support.v4.app.+ ，io.reactivex.+
可能导致的原因: 1. 引用包不存在(存在也报错就是版本不对) 2.有资源文件重名,报错之类的问题 3. 别人提交了资源文件或者配置文件(这是最常见的,特别是新手,我也是),后续遇到再加解决方法 ...
某CTF平台一道PHP代码注入
这道题以前做过但是没有好好的总结下来.今天又做了一下,于是特地记录于此. 首先就是针对源码进行审计: 关于create_function这个函数可以看一下这个:http://www.php.cn/ph ...
Focus on the Good 专注于好的方面
[1] Dealing with people is like digging for gold. When you go digging for an ounce of gold, you hav ...
项目开发---使用node.js中sass语法
前言:本文中所有sass文件都指后缀名为scss的文件.在此也建议使用后缀名为scss的文件,以避免sass后缀名的严格格式要求报错. 一.sass插件的安装: gulp-sass-china // ...
Vue中音乐播放器
一.安装依赖 yarn add vue-aplayer or` npm i vue-aplayer 二.使用 <template> <div class="vue_ap ...

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）

1.启动zookeeper

2.启动kafka服务（broker）

3.启动kafka的producer（前提：已经创建好topic

4.启动kafka的consumer

5.打jar包，将带有依赖的jar包上传到集群上

6.编写启动脚本，启动任务 sh run_receiver.sh

监控任务及查看日志

关闭spark streaming任务

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）的更多相关文章

随机推荐

热门专题