SparkStreaming简单例子

◆ 构建第一个Streaming程序: (wordCount) 

  ◆ Spark Streaming 程序最好以使用Maven或者sbt编译出来的独立应用的形式运行。

  ◆ 准备工作:
  1.引入Spark Streaming的jar
  2.scala流计算import声明
  import org.apache.spark.streaming.StreamingContext
  import org.apache.spark.streaming.StreamingContext._
  import org.apache.spark.streaming.dstream.DStream
  import org.apache.spark.streaming.Duration
  import org.apache.spark.streaming.Seconds

1.初始化StreamingContext对象

   //创建一个本地StreamingContext两个工作线程和批间隔1秒。
   val conf = new SparkConf()
   conf.setMaster(“local[2]")
   conf.setAppName(“ NetworkWordCount")
   val ssc = new StreamingContext(conf, Seconds(1))

2.获取DStream对象 

  //创建一个连接到主机名的DStream,像localhost:9999

   val lines = ssc.socketTextStream("localhost", 9999)

3.操作DStream对象

  //将每一行接收到的数据通过空格分割成单词

  val words = lines.flatMap(_.split(" “))
  //导入StreamingContext中的隐式转换
  import org.apache.spark.streaming.StreamingContext._

   // 对每一批次的单词进行转化求和

  val pairs = words.map(word => (word, 1))
  val wordCounts = pairs.reduceByKey(_ + _)
  // 每个批次中默认打印前十个元素到控制台
  wordCounts.print()

4.启动流处理程序

  ssc.start// 开始计算

  ssc.awaitTermination() // 等待计算终止

  ssc.stop() //结束应用

启动网络端口,模拟发送数据

  1.借助于nc命令,手动输入数据

    Linux/Mac :nc

    Windows:cat

      nc -lk 9999

  2.借助于代码,编写一个模拟数据发生器  

package com.briup.streaming

import java.io.PrintWriter
import java.net.ServerSocket import scala.io.Source object MassageServer { // 定义随机获取整数的方法
def index(length: Int) = {
import java.util.Random
val rdm = new Random
rdm.nextInt(length)
} def main(args: Array[String]) {
println("模拟数据器启动!!!")
// 获取指定文件总的行数
val filename ="Spark/ihaveadream.txt";
val lines = Source.fromFile(filename).getLines.toList
val filerow = lines.length // 指定监听某端口,当外部程序请求时建立连接
val serversocket = new ServerSocket(9999); while (true) {
//监听9999端口,获取socket对象
val socket = serversocket.accept()
// println(socket)
new Thread() {
override def run = {
println("Got client connected from: " + socket.getInetAddress) val out = new PrintWriter(socket.getOutputStream(), true) while (true) {
Thread.sleep(1000)
// 当该端口接受请求时,随机获取某行数据发送给对方
val content = lines(index(filerow)) println (content) out.write(content + '\n') out.flush()
}
socket.close()
}
}.start()
}
}
}

模拟发送数据

注意事项:

◆ 1.启动 Spark Streaming 之前所作的所有步骤只是创建了执行流程, 程序没有真正
连接上数据源,也没有对数据进行任何操作,只是设定好了所有的执行计划
◆ 2.当 ssc.start()启动后程序才真正进行所有预期的操作
◆ 3.执行会在另一个线程中进行,所以需要调用awaitTermination来等待流计算完成
◆ 4.一个Streaming context只能启动一次
◆ 5.如果模式是本地模式,那么请务必设置local[n] ,n>=2   1个用于接收,1个用于处理


package com.briup.streaming

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Duration, StreamingContext} object MyTestOldAPI {
def main(args: Array[String]): Unit = {
//设置日志级别
Logger.getLogger("org").setLevel(Level.WARN) //1 获取DS
val conf = new SparkConf().setAppName("MyTestOldAPI").setMaster("local[*]")
val dss = new StreamingContext(conf, Duration(1000))
val ds = dss.socketTextStream("localhost", 9999) //2 逻辑处理 //统计
val res = ds.filter(_ != "").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) res.print() //3 开启实时处理任务
dss.start()
dss.awaitTermination()
dss.stop()
}
}

SparkStreaming简单例子(oldAPI)的更多相关文章

  1. Hibernate4.2.4入门(一)——环境搭建和简单例子

    一.前言 发下牢骚,这段时间要做项目,又要学框架,搞得都没时间写笔记,但是觉得这知识学过还是要记录下.进入主题了 1.1.Hibernate简介 什么是Hibernate?Hibernate有什么用? ...

  2. AgileEAS.NET SOA 中间件平台.Net Socket通信框架-简单例子-实现简单的服务端客户端消息应答

    一.AgileEAS.NET SOA中间件Socket/Tcp框架介绍 在文章AgileEAS.NET SOA 中间件平台Socket/Tcp通信框架介绍一文之中我们对AgileEAS.NET SOA ...

  3. spring mvc(注解)上传文件的简单例子

    spring mvc(注解)上传文件的简单例子,这有几个需要注意的地方1.form的enctype=”multipart/form-data” 这个是上传文件必须的2.applicationConte ...

  4. ko 简单例子

    Knockout是在下面三个核心功能是建立起来的: 监控属性(Observables)和依赖跟踪(Dependency tracking) 声明式绑定(Declarative bindings) 模板 ...

  5. mysql定时任务简单例子

    mysql定时任务简单例子 ? 1 2 3 4 5 6 7 8 9     如果要每30秒执行以下语句:   [sql] update userinfo set endtime = now() WHE ...

  6. java socket编程开发简单例子 与 nio非阻塞通道

    基本socket编程 1.以下只是简单例子,没有用多线程处理,只能一发一收(由于scan.nextLine()线程会进入等待状态),使用时可以根据具体项目功能进行优化处理 2.以下代码使用了1.8新特 ...

  7. 一个简单例子:贫血模型or领域模型

    转:一个简单例子:贫血模型or领域模型 贫血模型 我们首先用贫血模型来实现.所谓贫血模型就是模型对象之间存在完整的关联(可能存在多余的关联),但是对象除了get和set方外外几乎就没有其它的方法,整个 ...

  8. [转] 3个学习Socket编程的简单例子:TCP Server/Client, Select

    以前都是采用ACE的编写网络应用,最近由于工作需要,需要直接只用socket接口编写CS的代码,重新学习这方面的知识,给出自己所用到的3个简单例子,都是拷贝别人的程序.如果你能完全理解这3个例子,估计 ...

  9. jsonp的简单例子

    jsonp的简单例子 index.html <!DOCTYPE html> <html> <head> <meta charset="UTF-8&q ...

随机推荐

  1. 面试题四十三:在1~n整数中1出现的次数

    方法一:直观来看,遍历1到n,每个数去做%10的循环判断 int Number1_B_1toN( int n){ int sum=0; for(int i=1;i<=n;i++){ int k= ...

  2. 96年/离职8个月/拒绝华为offer/目前自由职业-记这大半年来的挣扎与迷茫

    仅以此文,记录自己这大半年来的挣扎与迷茫. 2019 年 11 月 在公司工作七个月之后,我被裁员了. 回忆自己这七个月的经历,不管是遇到的人和事,更多感到的是收获和感恩,于是我写下了:「应届毕业生工 ...

  3. java基础(九)--方法重载

    如System.out.println()方法即是方法重载的. 以下举例说明自定义sum()方法的重载 package cnblogs; public class TestBase09MathRelo ...

  4. 阿里云ecs轻量级服务器node镜像部署

    这个是自带安装pm2,nginx,node,mongodb的环境的,目录在控制台有给出, server端的配置按照开发手册去操作即可. 而静态的页面.需要修改nginx的配置文件,找到nginx的ng ...

  5. 什么是 PHP 过滤器?

    PHP 过滤器 PHP 过滤器用于验证和过滤来自非安全来源的数据,比如用户的输入. 什么是 PHP 过滤器? PHP 过滤器用于验证和过滤来自非安全来源的数据. 测试.验证和过滤用户输入或自定义数据是 ...

  6. Python time tzset()方法

    描述 Python time tzset() 根据环境变量TZ重新初始化时间相关设置.高佣联盟 www.cgewang.com 标准TZ环境变量格式: std offset [dst [offset ...

  7. PHP PDO连接

    连接是通过创建 PDO 基类的实例而建立的.不管使用哪种驱动程序,都是用 PDO 类名. 连接到 MySQL <?php高佣联盟 www.cgewang.com $dbh = new PDO(' ...

  8. C/C++编程笔记:C语言进制详解,二进制、八进制和十六进制!

    我们平时使用的数字都是由 0~9 共十个数字组成的,例如 1.9.10.297.952 等,一个数字最多能表示九,如果要表示十.十一.二十九.一百等,就需要多个数字组合起来. 例如表示 5+8 的结果 ...

  9. python程序设计PDF高清完整版免费下载|百度云盘

    百度云盘:python程序设计PDF高清完整版免费下载 提取码:bvsz Python 程序设计基础难易程度适中.除Python应用开发基础知识之外,还适当介绍了Python标准库以及内置对象的工作原 ...

  10. JS中的数组复制问题

    JS中的数组复制问题 前言 首先提到复制,也就是拷贝问题,就必须要明确浅拷贝和深拷贝. 浅拷贝:B由A复制而来,改变B的内容,A也改变 深拷贝:B由A复制而来,改变B的内容,A的内容不会改变 总的来说 ...