【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版

铭文一级：

Spark Streaming is an extension of the core Spark API that enables scalable,
high-throughput,
fault-tolerant
stream processing of live data streams.

Spark Streaming个人的定义：
将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统

特点
低延时
能从错误中高效的恢复：fault-tolerant
能够运行在成百上千的节点
能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用

Spark Streaming是否需要独立安装？

One stack to rule them all ：一栈式

GitHub
https://github.com/apache/spark

spark-submit的使用

使用spark-submit来提交我们的spark应用程序运行的脚本(生产)
./spark-submit --master local[2] \
--class org.apache.spark.examples.streaming.NetworkWordCount \
--name NetworkWordCount \
/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/jars/spark-examples_2.11-2.2.0.jar hadoop000 9999

如何使用spark-shell来提交(测试)
./spark-shell --master local[2]

import org.apache.spark.streaming.{Seconds, StreamingContext}

val ssc = new StreamingContext(sc, Seconds(1))
val lines = ssc.socketTextStream("hadoop000", 9999)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()

工作原理：粗粒度
Spark Streaming接收到实时数据流，把数据按照指定的时间段切成一片片小的数据块，
然后把小的数据块传给Spark Engine处理。

铭文二级：

Spark Streaming功能特点：可扩展、高吞吐、容错性

与Spark生态的其他环境的整合：

1、file与RDD 　　2、与MLib 　　3、RDD->SQL

有些时候要了解一下发展史，面试可能会问

比如说DataSet、DataFrame是哪个版本提出来的

词频统计实例=>

从github上(https://github.com/apache/spark/blob/master/examples/)可以看源码：

注意两个参数：hostname、port

用spark-submit方式运行（主要用于生产）

进入Spark Streaming的bin目录下：

[运行rm *.cmd删除window上才能运行的脚本使更简洁咯]

步骤一=>

启动终端二运行：nc -lk 9999

步骤二=>

终端一运行指令为：./spark-submit --master local[2] \

--class org.apache.spark.examples.streaming.NetworkWordCount \

在examples/jars里面的jar包 hadoop000 9999

复制指令去bin目录下执行

步骤三=>

去终端二输入测试数据：

a a a c c d e

在终端一可以观察到统计结果

用spark-shell方式运行（主要用于测试）

1、执行 ./spark-shell --master local[2]

2、修改官网的代码

A.删去SparkConf申明语句，因为spark-shell运行时已自动创建

B.StreamingContext的第一个参数sparkConf改为sc

C.修改socketTextStream第一第二个参数为实际情况，删除第三参数

D.添加类的导入语句

import org.apache.spark.streaming.{Seconds, StreamingContext}

3、拷贝本段代码，粘贴去终端运行，方法同spark-submit

粗粒度:按时间段切成小段

细粒度：

【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版的更多相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==&g ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...

随机推荐

(五)ROS节点
一. 理解ROS 节点: ROS的节点: 可以说是一个可运行的程序.当然这个程序可不简单.因为它可以接受来自ROS网络上其他可运行程序的输出信息,也可以发送信息给ROS网络,被其他 ROS 可运行程序 ...
基于RBAC权限验证，中间价middleware实现, views 登录视图代码
废话不多说上代码: 基础实现: rom django.shortcuts import HttpResponse, redirect, render from django.http import ...
pom.xml中坐标的组成
坐标=组织(也就是所谓的公司名称)+项目名称+版本(如果不加范围默认为compile)
在threejs中添加两个场景和相机是需要注意render的参数设置
问题:我刚开始设置了两个场景和相机但是第二个一直将第一个场景给覆盖了一直找不到原因解决: 问题出在 renderer.autoClear = false;上设置render的参数如下: rend ...
SqlServer添加触发器死锁的原因
之前遇到过SqlServer添加触发器死锁的情况,纠结了很长时间最近发现原来是因为我在建表的时候,把id设成主键后,系统默认了加一个聚集的索引就是聚集索引把表锁住了
PAT 1029 旧键盘(20)（代码）
1029 旧键盘(20)(20 分) 旧键盘上坏了几个键,于是在敲一段文字的时候,对应的字符就不会出现.现在给出应该输入的一段文字.以及实际被输入的文字,请你列出肯定坏掉的那些键. 输入格式: 输入在 ...
SNP命名
SNP命名 [2016-11-24] 奶茶妹妹是谁,京东老板娘,咦?章泽天!没错! 国民老公是谁?万达少东家,王健林儿子,王思聪!恭喜你又答对了! 函数是谁?这不是数学上的名词吗?不对,是 ...
python爬虫_简单使用百度OCR解析验证码
百度技术文档首先要注册百度云账号: 在首页,找到图像识别,创建应用,选择相应的功能,创建安装接口模块: pip install baidu-aip 简单识别一: 简单图形验证码: 图片: from ...
Luogu 4234 最小差值生成树 - LCT 维护链信息
Solution 将边从小到大排序, 添新边$(u, v)$时若$u,v$不连通则直接添, 若连通则把链上最小的边去掉再添边. 若已经加入了 $N - 1$条边则更新答案. Code #incl ...
GCC编译的几个步骤
参考资料: https://blog.csdn.net/czg13548930186/article/details/78331692 一个C/C++文件要经过预处理(preprocessing).编 ...

【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版

【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版的更多相关文章

随机推荐

热门专题