pyspark进行词频统计并返回topN

Part I：词频统计并返回topN

统计的文本数据：

what do you do

how do you do

how do you do

how are you

from operator import add

from pyspark import SparkContext

def sort_t():

    sc = SparkContext(appName="testWC")

    data = sc.parallelize(["what do you do", "how do you do", "how do you do", "how are you"])

    result = data.flatMap(lambda x: x.split(" ")) \

        .map(lambda x: (x, 1)). \

        reduceByKey(add). \

        sortBy(lambda x: x[1], False).take(3)

    for k, v in result:

        print k, v

if __name__ == '__main__':

    sort_t()

Part II：调用排序算法并返回topN

样本数据 numbers_data.txt：

15561

112

-40

51467112

234

8561

112

-34

53467111 121

2345 789 34

14561 -21

12112 101 100

-4 23

51467111

2434

15567

132

-14

51467111

237

from pyspark import SparkContext

def solve():

    sc = SparkContext(appName="Sort_test_example")

    lines = sc.textFile("../input/numbers_data.txt")

    results = lines.flatMap(lambda x: x.split(" ")) \

        .map(lambda x: (int(x), 1)) \

        .sortByKey(ascending=False).take(3)

    output = results

    for (key, value) in output:

        print key

    print key

if __name__ == '__main__':


    solve()

注：若出现并列时，返回多个并列的数

pyspark进行词频统计并返回topN的更多相关文章

作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字 ...
使用HDFS完成wordcount词频统计
任务需求统计HDFS上文件的wordcount,并将统计结果输出到HDFS 功能拆解读取HDFS文件业务处理(词频统计) 缓存处理结果将结果输出到HDFS 数据准备事先往HDFS上传需要进行 ...
MapReduce实现词频统计
问题描述:现在有n个文本文件,使用MapReduce的方法实现词频统计. 附上统计词频的关键代码,首先是一个通用的MapReduce模块: class MapReduce: __doc__ = ''' ...
词频统计 List Array
c# 使用数组进行词频统计 1.先考虑要是使用的数据结构: Array在在内存中是连续存储的,所以它的索引速度非常快,而且赋值与修改元素也很简单,但是数组存在一些不足的地方.在数组的两个数据间插入数据 ...
c#词频统计命令行程序
这里将用c#写一个关于词频统计的命令行程序. 预计时间分配:输入处理3h.词条排序打印2h.测试3h. 实际时间分配:输入处理1h.词条排序打印2h.测试3h.程序改进优化6h. 下面将讲解程序的完成 ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
软工结对项目之词频统计update
队友胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功 ...
java词频统计——web版支持
需求概要: 1.把程序迁移到web平台,通过用户上传TXT的方式接收文件. 2.用户直接输入要统计的文本,服务器返回结果 3.在页面上给出链接 (如果有封皮.作者.字数.页数等信息更佳)或表格,展示经 ...
Python字典使用--词频统计的GUI实现
字典是针对非序列集合而提供的一种数据类型,字典中的数据是无序排列的. 字典的操作为字典增加一项 dict[key] = value students = {"Z004":&quo ...

随机推荐

自己动手写http服务器——主程序（三）
功能:目前只支持对资源的访问. 使用的模型:多线程加epoll,与传统的一个连接请求一个线程处理不同的是,这个模型只为那些需要服务的连接请求调用线程进行处理, 整个模型的大致流程创建一个线程持对象, ...
对datatable进行简单的操作
筛选出datatable中c_level=1的数据 dataRow[] rows = dt.Select("c_level=0"); 克隆表dt的结构到表dt,并将dt的数据复制到 ...
SharePoint 2010 Url Shortener --SharePoint 2010 短URL生成器
SharePoint 2010 Url Shortener --SharePoint 2010 短URL生成器项目描写叙述本项目加入了这种功能.在SP站点中能够生成短URLs. 这些URLs指向列 ...
Vue深度学习（5）-过渡效果
简介通过 Vue.js 的过渡系统,你可以轻松的为 DOM 节点被插入/移除的过程添加过渡动画效果.Vue 将会在适当的时机添加/移除 CSS 类名来触发 CSS3 过渡/动画效果,你也可以提供相应 ...
Microsoft Graph Web应用程序极致开发体验
作者:陈希章重写于 2017年5月24日前言这篇文章最早写于2017年5月2日,当时的想法是从最简单的方式来写如何在一个ASP.NET MVC应用程序中集成Microsoft Graph,但实际 ...
使用python实现群发邮件
最近在工作时,需要实现在公司开发的调度系统上实现:将每天产生的游戏数据查询统计出,并发送邮件给数据分析的开发人员. 考虑到python语言的简洁易上手,在我没有任何python基础的情况下,十分轻松的 ...
开源组件NanUI一周年 - 使用HTML/CSS/JS来构建.Net Winform应用程序界面
NanUI是什么 NanUI基于ChromiumFX项目进行开发,它能让你在你的Winform应用程序中使用HTML5/CSS3/Javascript等网页技术来呈现用户界面(类似Electron). ...
用Inferno代替React开发高性能响应式WEB应用
什么是Inferno Inferno可以看做是React的另一个精简.高性能实现.它的使用方式跟React基本相同,无论是JSX语法.组件的建立.组件的生命周期,还是与Redux或Mobx的配合.路由 ...
React学习总结（一）
React学习总结一.什么是React? 是Facebook公司开发的一套JS库 React的详细介绍https://www.jianshu.com/p/ae482813b791 二.老版本Reac ...
JS获取字符对应的ASCII码
有时候会需要用到字符的ASCII码,一时之间调试时可能会忘记字符与ASCII码对应的数字. 最近喜欢用浏览器控制台直接跑JS代码,将这个代码直接贴到浏览器控制台,即可调试(谷歌浏览器快捷键 ctrl+ ...

pyspark进行词频统计并返回topN

pyspark进行词频统计并返回topN的更多相关文章

随机推荐

热门专题