Spark-Streaming hdfs count 案例

Streaming hdfs count 需要先启动 hadoop 集群。

# 启动 hadoop 集群

start-dfs.sh

start-yarn.sh

# 查看是否启动成功

# 命令 jps

jps

　　hadoop 启动成功之后，下面就是关于 stream 的代码，stream 统计代码如下，将下面的代码进行打包，上传到服务器上即可。

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

object HdfsWordCount {

  def main(args: Array[String]): Unit = {

    if (args.length < 2) {

      System.err.println("Usage: HdfsWordCount <directory>")

      System.exit(1)

    }

//    StreamingExamples.setStreamingLogLevels()

    val sparkConf = new SparkConf().setAppName("HdfsWordCount")

    // Create the context

    val ssc = new StreamingContext(sparkConf, Seconds(10))

    // Create the FileInputDStream on the directory and use the

    // stream to count words in new files created

    val lines = ssc.textFileStream(args(0))

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)

    wordCounts.print()

//    wordCounts.saveAsTextFiles(args(1))

    ssc.start()

    ssc.awaitTermination()

  }

}

　　代码需要传递两个参数，一个是 stream 监控的数据输入目录，一个是输出目录。对应的执行脚本如下。

$SPARK_HOME/bin/spark-submit\

        --class com.hw.streaming.HdfsWordCount\

        --master yarn-cluster \

        --executor-memory 1G \

        --total-executor-cores 2 \

        --files $HIVE_HOME/conf/hive-site.xml \

        --jars $HIVE_HOME/lib/mysql-connector-java-5.1.25-bin.jar,$SPARK_HOME/jars/datanucleus-api-jdo-3.2.6.jar,$SPARK_HOME/jars/datanucleus-core-3.2.10.jar,$SPARK_HOME/jars/datanucleus-rdbms-3.2.9.jar,$SPARK_HOME/jars/guava-14.0.1.jar \

        ./SparkPro-1.0-SNAPSHOT-jar-with-dependencies.jar \

        hdfs://master:9000/data/input hdfs://master:9000/data/output

　　执行对应的脚本

# 脚本是跑在 yarn-cluster 上的，所以可以通过 ui 界面查看对应的内容

sh  hdfs_run.sh

　　脚本运行之后，一开始监控的输入目录是没有任何数据的，现在尝试往输入目录上传对应的数据文件，如下。

# 随便上传一个文件，比如这里是 3.txt，对应的内容是

# cat 3.txt

hello world

hello world

hello world

hello world

hello world

hello world

hello world

a

a

a

a

a

a

a b b b

# 将 3.txt 上传到 hdfs

hadoop fs -put 3.txt /data/input

　　文件上传之后，可以打开浏览器，通过查看日志来看效果。

# 浏览器输入 192.168.56.122:8088

# 点击对应的 application

# 点击对应的 log

# 点击查看 log 详情

# 会看到下面的日志输出

-------------------------------------------

Time: 1564279580000 ms

-------------------------------------------

(b,3)

(hello,7)

(world,7)

(a,7)

　　以上就是 Streaming hdfs count 的案例，一开始调试的时候没有通过是没有看清楚，是先把数据文件上传到 hdfs 里面了，导致后面统计不出来，后来发现是启动之后监控的，因此，需要先启动，在向里面放数据。查看日志的时候，发现 INFO 也打印出来了，如果不需要看 INFO 信息，可以在 hadoop 配置文件中 log4j.properties 中把日志级别调高，或者去掉 INFO，即可。

Spark-Streaming hdfs count 案例的更多相关文章

Spark Streaming 进阶与案例实战
Spark Streaming 进阶与案例实战 1.带状态的算子: UpdateStateByKey 2.实战:计算到目前位置累积出现的单词个数写入到MySql中 1.create table CRE ...
Spark Streaming的wordcount案例
之前测试的一些spark案例都是采用离线处理,spark streaming的流处理一样可以运行经典的wordcount. 基本环境: spark-2.0.0 scala-2.11.0 IDEA-15 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
Spark-Streaming kafka count 案例
Streaming 统计来自 kafka 的数据,这里涉及到的比较,kafka 的数据是使用从 flume 获取到的,这里相当于一个小的案例. 1. 启动 kafka Spark-Streaming ...
【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化
系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streami ...
【原创 Hadoop&Spark 动手实践 11】Spark Streaming 应用与动手实践
[原创 Hadoop&Spark 动手实践 11]Spark Streaming 应用与动手实践目标: 1. 掌握Spark Streaming的基本原理 2. 完成Spark Stream ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
Spark Streaming、HDFS结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收HDFS上的文件数据与关系型数据库中的表进行相关的查询操作: 使用技术:Spark Streaming + Spark JDBC External Data ...
通过案例对 spark streaming 透彻理解三板斧之三：spark streaming运行机制与架构
本期内容: 1. Spark Streaming Job架构与运行机制 2. Spark Streaming 容错架构与运行机制事实上时间是不存在的,是由人的感官系统感觉时间的存在而已,是一种虚幻的 ...

随机推荐

微信JS-SDK实现分享功能
1 申请一个微信公众号,并确认在开发–接口权限中拥有分享功能的权限. 2 公众号设置–功能设置:在JS接口安全域名中添加安全域名,这个安全域名不是url,只需添加一级域名即可. 3 开发,基本配置中, ...
Docker 四种网络模式
原文 https://www.cnblogs.com/gispathfinder/p/5871043.html 我们在使用docker run创建Docker容器时,可以用--net选项指定容器的网络 ...
iOS之集成GoogleMap定位、搜索注意事项
简介: 最近花了些时间看了GoogleMap官方文件并集成到国际版app中,网上关于GoogleMap for iOS的讲解相对Android来说少一点,比较有帮助的几乎全是英文文档.下面是我开发过程 ...
【开发笔记】- 安装zip和unzip命令
[root@iz2zeea05by6vofxzsoxdbz elasticsearch]# unzip elasticsearch-6.2.4.zip -bash: unzip: command no ...
Vue学习之webpack调用第三方loader(十五）
---恢复内容开始--- 一.webpack 默认只能打包处理 JS 类型的文件,无法处理其他的非 JS 类型的文件: 如果非要处理非 JS 类型的文件,我们需要手动安装一些合适第三方 lo ...
data:image/png;base64应用
原文:https://blog.csdn.net/deng_xj/article/details/93731850 data:image/png;base64应用我们知道任何图片都可以通过base6 ...
springboot中modbus使用
pom.xml配置: false true ias-snapshots Infinite Automation Snapshot Repository true false ias-releases ...
工厂交接班易出问题？MES系统实现精准对接
工厂交接班制度非常的严格和复杂,而MES系统能让繁琐的交接班流程简单快捷无措.MES系统在发生事件时记录传递事件,还可以主动对事件进行分类和报告.人员可以查看和深入到以前或当前班次的个别事件. 随着工 ...
honeyd使用
honeyd可以同时模仿上千个不同的计算机官网 honeyd-1.5c.tar.gz:http://www.honeyd.org 依赖包 libevent-1.3a.tar.gz:http://li ...
Docker Private Registry 常用组件
Docker Private Registry 常用组件作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Docker Registry概述 1>.什么是registry ...

Spark-Streaming hdfs count 案例

Spark-Streaming hdfs count 案例的更多相关文章

随机推荐

热门专题