pyspark进行词频统计并返回topN

Part I：词频统计并返回topN

统计的文本数据：

what do you do

how do you do

how do you do

how are you

from operator import add

from pyspark import SparkContext

def sort_t():

    sc = SparkContext(appName="testWC")

    data = sc.parallelize(["what do you do", "how do you do", "how do you do", "how are you"])

    result = data.flatMap(lambda x: x.split(" ")) \

        .map(lambda x: (x, 1)). \

        reduceByKey(add). \

        sortBy(lambda x: x[1], False).take(3)

    for k, v in result:

        print k, v

if __name__ == '__main__':

    sort_t()

Part II：调用排序算法并返回topN

样本数据 numbers_data.txt：

15561

112

-40

51467112

234

8561

112

-34

53467111 121

2345 789 34

14561 -21

12112 101 100

-4 23

51467111

2434

15567

132

-14

51467111

237

from pyspark import SparkContext

def solve():

    sc = SparkContext(appName="Sort_test_example")

    lines = sc.textFile("../input/numbers_data.txt")

    results = lines.flatMap(lambda x: x.split(" ")) \

        .map(lambda x: (int(x), 1)) \

        .sortByKey(ascending=False).take(3)

    output = results

    for (key, value) in output:

        print key

    print key

if __name__ == '__main__':


    solve()

注：若出现并列时，返回多个并列的数

pyspark进行词频统计并返回topN的更多相关文章

作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字 ...
使用HDFS完成wordcount词频统计
任务需求统计HDFS上文件的wordcount,并将统计结果输出到HDFS 功能拆解读取HDFS文件业务处理(词频统计) 缓存处理结果将结果输出到HDFS 数据准备事先往HDFS上传需要进行 ...
MapReduce实现词频统计
问题描述:现在有n个文本文件,使用MapReduce的方法实现词频统计. 附上统计词频的关键代码,首先是一个通用的MapReduce模块: class MapReduce: __doc__ = ''' ...
词频统计 List Array
c# 使用数组进行词频统计 1.先考虑要是使用的数据结构: Array在在内存中是连续存储的,所以它的索引速度非常快,而且赋值与修改元素也很简单,但是数组存在一些不足的地方.在数组的两个数据间插入数据 ...
c#词频统计命令行程序
这里将用c#写一个关于词频统计的命令行程序. 预计时间分配:输入处理3h.词条排序打印2h.测试3h. 实际时间分配:输入处理1h.词条排序打印2h.测试3h.程序改进优化6h. 下面将讲解程序的完成 ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
软工结对项目之词频统计update
队友胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功 ...
java词频统计——web版支持
需求概要: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件. 2.用户直接输入要统计的文本,服务器返回结果 3.在页面上给出链接 (如果有封皮.作者.字数.页数等信息更佳)或表格,展示经 ...
Python字典使用--词频统计的GUI实现
字典是针对非序列集合而提供的一种数据类型,字典中的数据是无序排列的. 字典的操作为字典增加一项 dict[key] = value students = {"Z004":&quo ...

随机推荐

flask-login使用笔记
看外国文献的中文翻译翻译的程度有的让人会疯,翻译最好的状态是异译直译会显的很生硬看起来确实难过:所以在看的时候,建议都看外国文献吧,或者自己用谷歌翻译,感觉比一些翻译的博客准多了: 在使用fl ...
Python的控制语句
1. 控制语句控制语句是用来改变程序执行的顺序.程序利用控制语句有条件地执行语句,循环地执行语句或者跳转到程序中的其他部分执行语句. Python支持三种不同的控制语句:if,for和while, ...
Material使用01 侧边栏MdSidenavModule、工具栏MdTollbarModule
前提准备: 构建好一个Angular2应用熟悉CSS的flex布局风格 1 利用flex进行布局 1.1 创建三个组件 app-header app-main app-footer 1.2 在主组件 ...
Windows和Linux环境下搭建SVN服务器
--------------------------Windows下搭建SVN服务器----------------------------- 一.安装SVN服务端软件包Setup-Subversi ...
duilib 快捷键发送消息
全局快捷键设置类,文章最以下,有3种不同的使用方法(假设设置的快捷键,与其它软件的快捷键同样.那么仅仅有你的程序起作用.你释放后它才干够使用) .h文件 #pragma once class CHot ...
Android binder学习一：主要概念
要看得懂android代码,首先要了解binder机制.binder机制也是android里面比較难以理解的一块,这里记录一下binder的重要概念以及实现.作为备忘. 部分内容来源于网上,如有侵权. ...
flask 上传文件
flask upload 近日在学习python,接触到了flask框架,刚好客户有个需求,需要在网页上传一个python 代码的zip包,然后使用docker 容器运行这个zip里面的程序,输出结果 ...
String、StringBuilder和StringBuffer类
*/ .hljs { display: block; overflow-x: auto; padding: 0.5em; color: #333; background: #f8f8f8; } .hl ...
关于scrapy的piplines
1.进入setting中把ITEM_piplines文件注销去掉 2.在piplines中写好代码 # -*- coding: utf- -*- # Define your item pipeline ...
前端开发JavaScript清除浏览器缓存的方法
查看和删除浏览器缓存的方法=====>打开最近在开发项目中发现有时候总要频繁地清除浏览器缓存,不然总是显示的过时的信息浏览器缓存有利有弊,有些数据需要缓存下来使得页面打开更快提高网站性能,但 ...

pyspark进行词频统计并返回topN

pyspark进行词频统计并返回topN的更多相关文章

随机推荐

热门专题