Spark初步-从wordcount开始

spark中自带的example，有一个wordcount例子，我们逐步分析wordcount代码，开始我们的spark之旅。

准备工作

把README.md文件复制到当前的文件目录，启动jupyter，编写我们的代码。

README.md文件在Spark的根目录下。

from pyspark.sql import SparkSession

from operator import add

# 初始化spark实例，并把应用命名为wordcount

spark = SparkSession.builder.appName("WordCount").getOrCreate()

# 从文件读取内容

# 此时data为dataframe格式，每一行为文件中的一行

data = spark.read.text("README.md")

# 查看第一行数据

f = data.first()

f

Row(value='# Apache Spark')

# 查看前5行数据

data.take(5)

[Row(value='# Apache Spark'),

 Row(value=''),

 Row(value='Spark is a fast and general cluster computing system for Big Data. It provides'),

 Row(value='high-level APIs in Scala, Java, Python, and R, and an optimized engine that'),

 Row(value='supports general computation graphs for data analysis. It also supports a')]

# 把数据转换为rdd格式，并取出值

data2 = data.rdd.map(lambda x: x[0])

# 查看第一行数据，可以看到数据为string格式

data2.first()

'# Apache Spark'

# 对于每行按照空格来分割，并把结果拉平

data3 = data2.flatMap(lambda x: x.split(' '))

# 查看前5个数据，可以看到已经分割为单个词了

data3.take(5)

['#', 'Apache', 'Spark', '', 'Spark']

# 为每个单词标记次数1

data4 = data3.map(lambda x: (x,1))

# 结果为turple类型，前面是key，后面的数字为单词的次数

data4.take(5)

[('#', 1), ('Apache', 1), ('Spark', 1), ('', 1), ('Spark', 1)]

# 汇总统计每个单词出现的次数

data5 = data4.reduceByKey(add)

# 结果为turple类型，数字为单词的出现次数

data5.take(10)

[('#', 1),

 ('Apache', 1),

 ('Spark', 16),

 ('', 71),

 ('is', 6),

 ('a', 8),

 ('fast', 1),

 ('and', 9),

 ('general', 3),

 ('cluster', 2)]

# 按照出现次数多少来排序

res = data5.sortBy(lambda x: x[1], ascending=False).collect()

res[:5]

[('', 71), ('the', 24), ('to', 17), ('Spark', 16), ('for', 12)]

完整代码

from pyspark.sql import SparkSession

from operator import add

spark = SparkSession.builder.appName("WordCount").getOrCreate()

data = spark.read.text("README.md")

data1 = data.rdd.map(lambda x: x[0])

data2 = data1.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)

res = data2.sortBy(lambda x: x[1], ascending=False).collect()

print(res[:10])

[('', 71), ('the', 24), ('to', 17), ('Spark', 16), ('for', 12), ('and', 9), ('##', 9), ('a', 8), ('can', 7), ('on', 7)]

Spark初步从wordcount开始的更多相关文章

Spark metrics on wordcount example
I read the section Metrics on spark website. I wish to try it on the wordcount example, I can't make ...
Spark练习之wordcount，基于排序机制的wordcount
Spark练习之wordcount 一.原理及其剖析二.pom.xml 三.使用Java进行spark的wordcount练习四.使用scala进行spark的wordcount练习五.基于排序 ...
Spark Streaming的wordcount案例
之前测试的一些spark案例都是采用离线处理,spark streaming的流处理一样可以运行经典的wordcount. 基本环境: spark-2.0.0 scala-2.11.0 IDEA-15 ...
Spark学习之wordcount程序
实例代码: import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.ap ...
006 Spark中的wordcount以及TopK的程序编写
1.启动启动HDFS 启动spark的local模式./spark-shell 2.知识点 textFile: def textFile( path: String, minPartitions: ...
在Spark上运行WordCount程序
1.编写程序代码如下: Wordcount.scala package Wordcount import org.apache.spark.SparkConf import org.apache.sp ...
提交任务到spark（以wordcount为例）
1.首先需要搭建好hadoop+spark环境,并保证服务正常.本文以wordcount为例. 2.创建源文件,即输入源.hello.txt文件,内容如下: tom jerry henry jim s ...
50、Spark Streaming实时wordcount程序开发
一.java版本 package cn.spark.study.streaming; import java.util.Arrays; import org.apache.spark.SparkCon ...
Spark中的Wordcount
目录通过scala语言基于local编写spark的Wordcount 基于yarn去调度WordCount 通过scala语言基于local编写spark的Wordcount import org ...

随机推荐

推荐一个比crontab更好用的东西：crongo
This is a crontab service that supports hot plug and high performance. In addition, it supports seco ...
Spring 数据处理框架的演变
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 定量分析的成败在很大程度上取决于采集,存储和处理数据的能力.若能及时地向业务决策者提供深刻并可靠的数据解读,大数据项目就会有更多机会取得成功 ...
HTML学习之制作导航网页
前言今天用HTML写了一个网址导航,源代码如下: <html> <head> <title>网址导航</title> </head> &l ...
traceback模块
traceback模块被用来跟踪异常返回信息如下例所示: import traceback try: raise SyntaxError, "traceback test" ex ...
关于top命令的使用
在服务器运维过程中,我们有时需要知道当前状态下的系统运行性能,该如何获取呢?今天,咱们聊一下关于top这个小命令的一些知识. top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资 ...
zookeeper(zkCli)命令概览
连接: ./zkCli.sh -timeout 0 -r -server ip:port -timeout:当前会话的超时时间,zookeper依靠与客户端的心跳来判断会话是否有效,单位是毫秒-r: ...
毕业样本=[胡弗汉顿大学毕业证书]UoW原件一模一样证书
胡弗汉顿大学毕业证[微/Q:2544033233◆WeChat:CC6669834]UC毕业证书/联系人Alice[查看点击百度快照查看][留信网学历认证&博士&硕士&海归&a ...
求二维数组的最大子数组———曹玉松&&蔡迎盈
继上节课老师让求了一维数组最大的子数组后,这节课堂上,老师加深了难度,给了一个二维数组,求最大子数组,开始觉得很容易,但是自己思考起来感觉这个算法很困难,既需要考虑数组直接的连续,又要求出最大的,老师 ...
计算机17-3,4作业E
E.complete number Description 完数是指一个整数的因子和等于这个数本身,例如6=1+2+3,所以6是一个完数. 按照给定数据范围,找出期中所有完数并输出. Input 数据 ...
蚂蚁通讯框架SOFABolt之私有通讯协议设计
前言 SOFABolt 是蚂蚁金融服务集团开发的一套基于 Netty 实现的网络通信框架. 为了让 Java 程序员能将更多的精力放在基于网络通信的业务逻辑实现上,而不是过多的纠结于网络底层 NIO ...

Spark初步 从wordcount开始

Spark初步-从wordcount开始

准备工作

完整代码

Spark初步 从wordcount开始的更多相关文章

随机推荐

热门专题

Spark初步从wordcount开始

Spark初步从wordcount开始的更多相关文章