【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数

文章目录

步骤

一、创建maven工程并导入jar包
二、安装并启动生产者
三、开发SparkStreaming代码
四、查看结果

步骤

一、创建maven工程并导入jar包

<properties>

    <scala.version>2.11.8</scala.version>

    <spark.version>2.2.0</spark.version>

</properties>

<dependencies>

    <dependency>

        <groupId>org.scala-lang</groupId>

        <artifactId>scala-library</artifactId>

        <version>${scala.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-core_2.11</artifactId>

        <version>${spark.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-sql_2.11</artifactId>

        <version>${spark.version}</version>

    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming -->

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-streaming_2.11</artifactId>

        <version>2.2.0</version>

    </dependency>

    <dependency>

        <groupId>org.apache.hadoop</groupId>

        <artifactId>hadoop-client</artifactId>

        <version>2.7.5</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-hive_2.11</artifactId>

        <version>2.2.0</version>

    </dependency>

    <dependency>

        <groupId>mysql</groupId>

        <artifactId>mysql-connector-java</artifactId>

        <version>5.1.38</version>

    </dependency>

</dependencies>

<build>

    <sourceDirectory>src/main/scala</sourceDirectory>

    <testSourceDirectory>src/test/scala</testSourceDirectory>

    <plugins>

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-compiler-plugin</artifactId>

            <version>3.0</version>

            <configuration>

                <source>1.8</source>

                <target>1.8</target>

                <encoding>UTF-8</encoding>

                <!--    <verbal>true</verbal>-->

            </configuration>

        </plugin>

        <plugin>

            <groupId>net.alchim31.maven</groupId>

            <artifactId>scala-maven-plugin</artifactId>

            <version>3.2.0</version>

            <executions>

                <execution>

                    <goals>

                        <goal>compile</goal>

                        <goal>testCompile</goal>

                    </goals>

                    <configuration>

                        <args>

                            <arg>-dependencyfile</arg>

                            <arg>${project.build.directory}/.scala_dependencies</arg>

                        </args>

                    </configuration>

                </execution>

            </executions>

        </plugin>

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-shade-plugin</artifactId>

            <version>3.1.1</version>

            <executions>

                <execution>

                    <phase>package</phase>

                    <goals>

                        <goal>shade</goal>

                    </goals>

                    <configuration>

                        <filters>

                            <filter>

                                <artifact>*:*</artifact>

                                <excludes>

                                    <exclude>META-INF/*.SF</exclude>

                                    <exclude>META-INF/*.DSA</exclude>

                                    <exclude>META-INF/*.RSA</exclude>

                                </excludes>

                            </filter>

                        </filters>

                        <transformers>

                            <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

                                <mainClass></mainClass>

                            </transformer>

                        </transformers>

                    </configuration>

                </execution>

            </executions>

        </plugin>

    </plugins>

</build>

二、安装并启动生产者

在node01安装nc工具

yum -y install nc

使用nc工具向指定端口发送数据

nc -lk 9999

三、开发SparkStreaming代码

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.streaming.{Seconds, StreamingContext}

object WordCountTest {

  def main(args: Array[String]): Unit = {

    //获取SparkConf

    val sparkConf: SparkConf = new SparkConf().setAppName("Streaming_WordCountTest").setMaster("local[4]").set("spark.driver.host", "localhost")

    //获取SparkContext

    val sparkContext: SparkContext = new SparkContext(sparkConf)

    //设置日志级别

    sparkContext.setLogLevel("WARN")

    //获取StreamingContext  需要两个参数 SparkContext和duration，后者就是间隔时间

    val streamContext: StreamingContext = new StreamingContext(sparkContext, Seconds(5))

    //从socket获取数据

    val stream: ReceiverInputDStream[String] = streamContext.socketTextStream("node01", 9999)

    //对数据进行计数操作

    val result: DStream[(String, Int)] = stream.flatMap(x => x.split(" ")).map((_, 1)).reduceByKey(_ + _)

    //输出数据

    result.print()

    //启动程序

    streamContext.start()

    streamContext.awaitTermination()

  }

}

四、查看结果

nc工具发送的数据

控制台结果

-----------------------------------------

Time: 1586852050000 ms

-------------------------------------------

(hive,1)

(wro,1)

(hadoop,2)

(hello,4)

(java,1)

(ja,1)

(world,1)

-------------------------------------------

Time: 1586852055000 ms

-------------------------------------------

-------------------------------------------

Time: 1586852060000 ms

-------------------------------------------

20/04/14 16:14:23 WARN RandomBlockReplicationPolicy: Expecting 1 replicas with only 0 peer/s.

20/04/14 16:14:23 WARN BlockManager: Block input-0-1586852063400 replicated to only 0 peer(s) instead of 1 peers

20/04/14 16:14:24 WARN RandomBlockReplicationPolicy: Expecting 1 replicas with only 0 peer/s.

20/04/14 16:14:24 WARN BlockManager: Block input-0-1586852064000 replicated to only 0 peer(s) instead of 1 peers

-------------------------------------------

Time: 1586852065000 ms

-------------------------------------------

(,2)

20/04/14 16:14:29 WARN RandomBlockReplicationPolicy: Expecting 1 replicas with only 0 peer/s.

20/04/14 16:14:29 WARN BlockManager: Block input-0-1586852069600 replicated to only 0 peer(s) instead of 1 peers

-------------------------------------------

Time: 1586852070000 ms

-------------------------------------------

(456,1)

(123,1)

20/04/14 16:14:31 WARN RandomBlockReplicationPolicy: Expecting 1 replicas with only 0 peer/s.

20/04/14 16:14:31 WARN BlockManager: Block input-0-1586852071200 replicated to only 0 peer(s) instead of 1 peers

20/04/14 16:14:34 WARN RandomBlockReplicationPolicy: Expecting 1 replicas with only 0 peer/s.

20/04/14 16:14:34 WARN BlockManager: Block input-0-1586852073800 replicated to only 0 peer(s) instead of 1 peers

-------------------------------------------

Time: 1586852075000 ms

-------------------------------------------

(zhao,1)

(456,1)

(123,1)

20/04/14 16:14:36 WARN RandomBlockReplicationPolicy: Expecting 1 replicas with only 0 peer/s.

20/04/14 16:14:36 WARN BlockManager: Block input-0-1586852076200 replicated to only 0 peer(s) instead of 1 peers

-------------------------------------------

Time: 1586852080000 ms

-------------------------------------------

(zhao,2)

-------------------------------------------

Time: 1586852085000 ms

-------------------------------------------

-------------------------------------------

Time: 1586852090000 ms

-------------------------------------------

【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数的更多相关文章

C# Socket 接受数据不全的处理
由于Socket 一次传输数据有限,因此需要多次接受数据传输. 解决办法一: int numberOfBytesRead = 0; int totalNumberOfBytes = 0 ...
spark-streaming集成Kafka处理实时数据
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...
Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考
本节的主要内容: 一.数据接受架构和设计模式二.接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑. Receiver和Drive ...
spark or sparkstreaming的内存泄露问题?
关于sparkstreaming的无法正常产生数据---->到崩溃---->到数据读写极为缓慢(或块丢失?)问题前两阶段请看我的博客:https://www.cnblogs.com/wa ...
3 python3 编码解码问题 upd接受数据
1.python3下的中文乱码:send_data.encode("utf-8") from socket import * udp_socket = socket(AF_INET ...
【Spark】SparkStreaming与flume进行整合
文章目录注意事项 SparkStreaming从flume中poll数据步骤一.开发flume配置文件二.启动flume 三.开发sparkStreaming代码 1.创建maven工程,导入 ...
C#上位机制作之串口接受数据（利用接受事件）
前面设计好了界面,现在就开始写代码了,首先定义一个串口对象.. SerialPort serialport = new SerialPort();//定义串口对象添加串口扫描函数,扫描出来所有可用串 ...
dsp28377控制DM9000收发数据——第三版程序，通过外部引脚触发来实现中断接受数据，优化掉帧现象
//-------------------------------------------------------------------------------------------- - //D ...
PHP+socket游戏数据统计平台发包接包类库
<?php /** * @title: PHP+socket游戏数据统计平台发包接包类库 * @version: 1.0 * @author: perry <perry@1kyou.com ...

随机推荐

L22 Data Augmentation数据增强
数据 img2083 链接:https://pan.baidu.com/s/1LIrSH51bUgS-TcgGuCcniw 提取码:m4vq 数据cifar102021 链接:https://pan. ...
A. Number Theory Problem
题目大意:计算小于2^n,且满足2^k-1并且是7的倍数的个数思路:优先打表,数据不大,1e5,然后求个前n项和 #include<bits/stdc++.h> using namesp ...
Windows线程+进程通信
一 Windows线程进程 1)定义按照MS的定义, Windows中的进程简单地说就是一个内存中的可执行程序, 提供程序运行的各种资源. 进程拥有虚拟的地址空间, 可执行代码, 数据, 对象句柄集 ...
详解 File类
在讲解File类之前,本人先要讲解下路径,因为我们对于文件的操作是离不开路径的: 目录路径: File类文件名称过滤器: 路径: 请观看本人博文 -- <详解绝对路径与相对路径> ...
2020.4面试分享（7面收5个offer）
都说金三银四是找工作的最佳时节,由于本人的个人职业规划跟目前工作内容不太相符(具体原因就不透露了,领导平时也要来这里逛,哈哈),四月份挑选了10多家公司投递简历(公司规模从几十人到上万人都有),参加了 ...
Xss Game挑战
前言最新学习了下xss的更深入的东西,学习了一波浏览器解析机制和XSS向量编码的知识. 这里就些xss的练习题巩固知识学习的话结合如下两篇文章看,从例子和基础原理层面都有: http://boba ...
乱七八糟 $(n.)$
$2020/4/22$ 今天常规作业还是太慢了,白天似乎已经抓紧了,但总还能挤出时间来的.八点钟了还有物理和英语作业,回去又得很晚睡. 还是容易开小差,不过回忆了一下,今天化学课还是太懒散,其余的 ...
Python爬虫---爬取腾讯动漫全站漫画
目录操作环境网页分析明确目标提取漫画地址提取漫画章节地址提取漫画图片编写代码导入需要的模块获取漫画地址提取漫画的内容页提取章节名获取漫画源网页代码下载漫画图片下载结果完整 ...
tp5--开启与关闭调试模式
https://www.cnblogs.com/finalanddistance/p/8906000.html TP5 显示错误信息在TP5中,我们运行的代码有错误无法执行时,只显示页面错误,而 ...
2019-2020-1 20199303 《Linux内核原理与分析》第十一周作业
缓冲区溢出漏洞实验安装一些用于编译C程序的32位软件包 sudo apt-get install -y lib32z1 libc6-dev-i386 sudo apt-get install -y ...

【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数

文章目录

步骤

一、创建maven工程并导入jar包

二、安装并启动生产者

三、开发SparkStreaming代码

四、查看结果

【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数的更多相关文章

随机推荐

热门专题