Spark Streaming之dataset实例

　　Spark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。

　　bin/spark-submit --class Streaming /home/wx/Stream.jar
　　hadoop fs -put /home/wx/123.txt /user/wx/

文本123.txt

NOTICE:07-26 logId[0072]

NOTICE:07-26 logId[0073]

NOTICE:07-26 logId[0074]

NOTICE:07-26 logId[0075]

NOTICE:07-26 logId[0076]

import org.apache.spark._

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.sql.SparkSession

object Streaming {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[2]").setAppName("RegexpExtract")

    val ssc = new StreamingContext(conf, Seconds(1))

    println("hello world")

    val lines = ssc.textFileStream("hdfs://name-ha/user/wx/")

    val ds = lines.flatMap(_.split("\n"))

    ds.print()

    ds.foreachRDD { rdd =>

      // Get the singleton instance of SparkSession

      val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()

      import spark.implicits._

      // Convert RDD[String] to DataFrame

      val wordsDataFrame = rdd.toDF("str_col")

      // Create a temporary view

      wordsDataFrame.createOrReplaceTempView("df")

      // Do word count on DataFrame using SQL and print it

      val wordCountsDataFrame =

        spark.sql(raw"""

          select str_col,

          regexp_extract(str_col,"NOTICE:\\d{2}",0) notice,

          regexp_extract(str_col,"logId\\[(.*?)\\]",0) logId

          from df""")

      wordCountsDataFrame.show(false)

    }

    ssc.start() // Start the computation

    ssc.awaitTermination() // Wait for the computation to terminate

  }

}

执行结果

hello world

-------------------------------------------

Time: 1501501752000 ms

-------------------------------------------

NOTICE:07-26 logId[0072]

NOTICE:07-26 logId[0073]

NOTICE:07-26 logId[0074]

NOTICE:07-26 logId[0075]

NOTICE:07-26 logId[0076]

+------------------------+---------+-----------+

|str_col                 |notice   |logId      |

+------------------------+---------+-----------+

|NOTICE:07-26 logId[0072]|NOTICE:07|logId[0072]|

|NOTICE:07-26 logId[0073]|NOTICE:07|logId[0073]|

|NOTICE:07-26 logId[0074]|NOTICE:07|logId[0074]|

|NOTICE:07-26 logId[0075]|NOTICE:07|logId[0075]|

|NOTICE:07-26 logId[0076]|NOTICE:07|logId[0076]|

+------------------------+---------+-----------+

-------------------------------------------

Time: 1501501770000 ms

-------------------------------------------

Spark Streaming之dataset实例的更多相关文章

大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...
5.Spark Streaming流计算框架的运行流程源码分析2
1 spark streaming 程序代码实例代码如下: object OnlineTheTop3ItemForEachCategory2DB { def main(args: Array[Str ...
Spark（五） -- Spark Streaming介绍与基本执行过程
Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何不 ...
spark streaming 接收kafka消息之四 -- 运行在 worker 上的 receiver
使用分布式receiver来获取数据使用 WAL 来实现 exactly-once 操作: conf.set("spark.streaming.receiver.writeAheadLog. ...
Spark Streaming实例
Spark Streaming实例分析 2015-02-02 21:00 4343人阅读评论(0) 收藏举报分类: spark(11) 转载地址:http://www.aboutyun.co ...
Spark源码系列（八）Spark Streaming实例分析
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照<Spark Streaming编程指南>. Example代码分析 val ssc = )); // 获 ...
Spark Streaming 结合FlumeNG使用实例
SparkStreaming是一个对实时数据流进行高通量.容错处理的流式处理系统,可以对多种数据源(如Kdfka.Flume.Twitter.Zero和TCP 套接字)进行类似map.reduce.j ...
spark streaming 实例
spark-streaming读hdfs,统计文件中单词数量,并写入mysql package com.yeliang; import java.sql.Connection; import java ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...

随机推荐

虚拟串口VSPD破解版亲测win10 64可用
虚拟串口VSPD破解版亲测win10 64可用点击下载
javaScript系列 [02]-javaScript对象探析
[02]-javaScript对象探析题记:多年前,以非常偶然的方式关注了微信公众号“面向对象”,本以为这个公众号主要以分享面向对象编程的干货为主,不料其乃实实在在的猿圈相亲平台.通过查看公开资料, ...
Linux下chkconfig命令
chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息.谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接. 使用语法:chkconfig [--ad ...
Spring Boot + Mybatis 实现动态数据源
动态数据源在很多具体应用场景的时候,我们需要用到动态数据源的情况,比如多租户的场景,系统登录时需要根据用户信息切换到用户对应的数据库.又比如业务A要访问A数据库,业务B要访问B数据库等,都可以使用动 ...
OHDSI——数据标准化
Home › Data Standardization Data Standardization Data standardization is the critical process of bri ...
MySQL优化的一些基础
在Apache, PHP, mysql的体系架构中,MySQL对于性能的影响最大,也是关键的核心部分.对于Discuz!论坛程序也是如此,MySQL的设置是否合理优化,直接影响到论坛的速度和承载量! ...
为RecyclerView打造通用Adapter
##RecycleView简单介绍 RecyclerView控件和ListView的原理有非常多相似的地方,都是维护少量的View来进行显示大量的数据.只是RecyclerView控件比ListVie ...
Linux 系统 TCP优化
这里主要是对<High performance Browser Networking>一书中关于TCP的描述的整理,本书与2013年出版,在书出版后,内核做了一些升级,有可能某些项不再适用 ...
C语言截取从某位置开始指定长度子字符串方法
c语言标准库没有截取部分字符串的函数,为啥?因为用现有函数strncpy,很容易做到! ] = {""}; "}; strncpy(dest, src, ); puts( ...
如何在Mac的Finder中显示/usr，/tmp，/var等隐藏目录
在终端里输入下面命令即可让它们显示出来. defaults write com.apple.finder AppleShowAllFiles -bool true 如果想恢复隐藏,可以用这个命令: d ...

Spark Streaming之dataset实例

Spark Streaming之dataset实例的更多相关文章

随机推荐

热门专题