【spark】jieba + wordcount

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

from os import path

import jieba

from pyspark import SparkContext

from pyspark.sql import SQLContext

#from operator import add

sc = SparkContext("local[1]" , "wordCount")

sc.setLogLevel("ERROR")

sqc = SQLContext(sc)

thisDir = path.dirname(__file__)

def wordCut(strings):

    strings = strings.strip()

    returnList = []

    for r in jieba.cut(strings):

        returnList.append(r)

    return returnList

fileName = 'words.txt'

file_in = sc.textFile(path.join(thisDir,fileName))

linesNum = file_in.count()

print '[INFO]number of lines in file %s : %d' % (fileName , linesNum)

charsNum = file_in.map(lambda x : len(x)).reduce(lambda x,y : x+y)

print '[INFO]number of charts in file %s : %d' % (fileName , charsNum)

words = file_in.flatMap(lambda line : wordCut(line))

termBigger3 = words.filter(lambda word : len(word) > 3)

print '[INFO]number of words bigger than 3 in file %s : %d' % (fileName , termBigger3.count())

wordCount = words.map(lambda w : (w,1)).reduceByKey(lambda x,y:x+y)

sqc.createDataFrame(wordCount,['word','count']).sort('count',ascending = False).show(20)

【spark】jieba + wordcount的更多相关文章

【Spark】部署流程的深度了解
文章目录 Spark核心组件 Driver Executor Spark通用运行流程图 Standalone模式运行机制 Client模式流程图 Cluster模式流程图 On-Yarn模式运行机制 ...
【Spark】Spark任务调度相关知识
文章目录准备知识 DAG 概述 shuffle 概述 SortShuffleManager 普通机制 bypass机制 Spark任务调度流程准备知识要弄清楚Spark的任务调度流程,就必须要 ...
【Spark】Sparkstreaming-性能调优
Sparkstreaming-性能调优 Spark Master at spark://node-01:7077 sparkstreaming 线程数量_百度搜索 streaming中partiti ...
【Spark】Sparkstreaming-共享变量-缓存RDD-到底是什么情况？
Sparkstreaming-共享变量-缓存RDD-到底是什么情况? sparkstreaming 多个 rdd_百度搜索 Spark Streaming中空RDD处理及流处理程序优雅的停止 - xu ...
【Spark】SparkStreaming-Kafka-Redis-集成-基础参考资料
SparkStreaming-Kafka-Redis-集成-基础参考资料 Overview - Spark 2.2.0 Documentation Spark Streaming + Kafka In ...
【Spark】提交Spark任务-ClassNotFoundException-错误处理
提交Spark任务-ClassNotFoundException-错误处理 Overview - Spark 2.2.0 Documentation Spark Streaming - Spark 2 ...
【Spark】Spark-Redis连接池
Spark-Redis连接池 jedispool returnresource 遭废弃用什么替代_百度知道 spark-stream 访问 Redis数据库示例 - 阿里云 [Redis]Java ...
【Spark】SparkStreaming-CPU资源设置的蹊跷
SparkStreaming-CPU资源设置的蹊跷. Spark streaming network_wordcount.py does not print result - Stack Overfl ...
【Spark】SparkStreaming-流处理-规则动态更新-解决方案
SparkStreaming-流处理-规则动态更新-解决方案 image2017-10-27_11-10-53.png (1067×738) elasticsearch-head Elasticsea ...

随机推荐

iOS five years[转]
原文链接:http://blog.ayaka.me/post/127980091987/5-years This morning, I got a push notification from Tim ...
未能加载文件或程序集”xxxx”或它的某一个依赖项，试图加载格式不正确的程序。
通常是因为应用程序编译的目标平台与引用的DLL类库目标平台不一致造成的,如应用程序目标编译为64位,而引用了32位的DLL. 在Visual Studio修改应用程序目标编译平台即可. 更多关于目标编 ...
keras系列︱人脸表情分类与识别：opencv人脸检测+Keras情绪分类（四）
引自:http://blog.csdn.net/sinat_26917383/article/details/72885715 人脸识别热门,表情识别更加.但是表情识别很难,因为人脸的微表情很多,本节 ...
kafka集群中jmx端口设置
jmx端口主要用来监控kafka集群的. 在启动kafka的脚本kafka-server-start.sh中找到堆设置,添加export JMX_PORT="9999" if [ ...
【转】c#的逆向工程-IL指令集
转载自:http://www.cnblogs.com/davyjiang/articles/1337400.html 一些 IL 语言解释: 跳转指令集合Beq 如果两个值相等,则将控制转移到目标指令 ...
Sencha Touch 2.3 自定义主题皮肤,颜色
写博客园越来越懒了,只写重点部分,不明白的可以Q我. 1.当你通过Cmd生成项目之后,App\resources\sass就是我们的样式源文件 2.想自定义自己的样式分为两种方式扩展:这个是基于st ...
websocket 和 socket.io 之间的区别是什么
socket.io封装了websocket,同时包含了其它的连接方式,比如Ajax.原因在于不是所有的浏览器都支持websocket,通过socket.io的封装,你不用关心里面用了什么连接方式.你在 ...
webpack4--热更新
所谓热更新,就是在浏览器能同步刷新你的代码.webpack 热更新依赖 webpack-dev-server.具体实现步骤如下: 1.局部安装依赖 webpack-dev-server npm ins ...
mapreduce编程（一）－二次排序
转自:http://blog.csdn.net/heyutao007/article/details/5890103 mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变. 这个 ...
SpagoBI 教程 Lesson 2: OLAP with JPIVOT
SpagoBI Lesson 2: OLAP with JPIVOT Online Analytical Processing Online Analytical Processing (OLAP) ...

【spark】jieba + wordcount

【spark】jieba + wordcount的更多相关文章

随机推荐

热门专题