CODE:

#!/usr/bin/python
# -*- coding: utf-8 -*- '''
Created on 2014-7-10
@author: guaguastd
@name: weiboLexicalDiversity.py
''' if __name__ == '__main__': # get weibo_api to access sina api
from sinaWeiboLogin import sinaWeiboLogin
sinaWeiboApi = sinaWeiboLogin() # import sinaWeibo
from sinaWeibo import extractWeiboEntities # import sinaWeoboStatuses
from sinaWeiboStatuses import publicTimeline # import sinaWeiboFrequency
from sinaWeiboLexicalDiversity import weibo_lexical_diversity, weibo_average_words # get the new 5 weibo
weiboNum = 5
statuses = publicTimeline(sinaWeiboApi, weiboNum)
status_texts,screen_names,words = extractWeiboEntities(statuses) for token in (words, screen_names):
print '\rLexical diversity of %s: ' % token
print weibo_lexical_diversity(token) for status in (status_texts,):
print '\rAverage words of %s: ' % status
print weibo_average_words(status)

RESULT:

Lexical diversity of [u'[moc\u8f6c\u53d1]2014\u65b0\u6b3e\u590f\u88c5\u5370\u82b1\u77ed\u8896\u8fde\u8863\u88d9\u9ad8\u7aef\u5927\u7801\u4e2d\u5e74\u5973\u88c5\u4fee\u8eab\u663e\u7626\u857e\u4e1d\u8fde\u8863\u88d9', u'http://t.cn/RvCLdgN', u'[\u795e\u9a6c]\u963f\u4f9d\u83b2\u8fde\u8863\u88d9', u'ccdd\u5973\u88c52014\u590f\u88c5\u65b0\u6b3e', u'\u97e9\u7248', u'\u5c0f\u9999\u98ce\u857e\u4e1d\u516c\u4e3b\u88d9', u'\u6b63\u54c1', u'http://t.cn/RvCyo4X', u'\u590f\u65e5\u5ea6\u5047\u6e05\u51c9\u88c5~~>>>>>>\u559c\u6b22\u70b9\u8fd9\u91cc\uff1ahttp://t.cn/RvEqd5R', u'\u6211\u6b63\u5728\u6b66\u4fa0\u5361\u724c\u624b\u6e38\u201c\u5927\u638c\u95e8\u201d\u4e2d\u51b2\u51fb\u8840\u6218\u699c\u5355\uff0c\u613f\u5404\u4f4d\u5927\u4fa0\u62d4\u5200\u76f8\u52a9\uff01\u6ce8\u518c\u5927\u638c\u95e8\uff0c\u586b\u5199\u6211\u7684\u9080\u8bf7\u7801\u30102zr7\u3011\uff0c\u5171\u540c\u83b7\u53d6\u4e30\u539a\u5956\u52b1\u3002http://t.cn/8FUZSTe', u'@\u5927\u638c\u95e8\u6e38\u620f', u'\u8f7b\u8f68\u65e9\u4e0a\u7684\u7a7a\u8c03\u5f00\u5f97\u7565\u5927']:
1.0 Lexical diversity of [u'kathyisangel', u'wangbinrona', u'\u5168\u7403\u6d41\u884c\u670d\u9970\u6f6e\u7f8e\u98ce\u5c1a\u63a7', u'\u624b\u673a\u7528\u62372454403221', u'\u6b63\u76f4\u4f60\u4e00\u8138\u7684\u52c7\u6562\u541b']:
1.0 Average words of [u'[moc\u8f6c\u53d1]2014\u65b0\u6b3e\u590f\u88c5\u5370\u82b1\u77ed\u8896\u8fde\u8863\u88d9\u9ad8\u7aef\u5927\u7801\u4e2d\u5e74\u5973\u88c5\u4fee\u8eab\u663e\u7626\u857e\u4e1d\u8fde\u8863\u88d9 http://t.cn/RvCLdgN', u'[\u795e\u9a6c]\u963f\u4f9d\u83b2\u8fde\u8863\u88d9 ccdd\u5973\u88c52014\u590f\u88c5\u65b0\u6b3e \u97e9\u7248 \u5c0f\u9999\u98ce\u857e\u4e1d\u516c\u4e3b\u88d9 \u6b63\u54c1 http://t.cn/RvCyo4X', u'\u590f\u65e5\u5ea6\u5047\u6e05\u51c9\u88c5~~>>>>>>\u559c\u6b22\u70b9\u8fd9\u91cc\uff1ahttp://t.cn/RvEqd5R', u'\u6211\u6b63\u5728\u6b66\u4fa0\u5361\u724c\u624b\u6e38\u201c\u5927\u638c\u95e8\u201d\u4e2d\u51b2\u51fb\u8840\u6218\u699c\u5355\uff0c\u613f\u5404\u4f4d\u5927\u4fa0\u62d4\u5200\u76f8\u52a9\uff01\u6ce8\u518c\u5927\u638c\u95e8\uff0c\u586b\u5199\u6211\u7684\u9080\u8bf7\u7801\u30102zr7\u3011\uff0c\u5171\u540c\u83b7\u53d6\u4e30\u539a\u5956\u52b1\u3002http://t.cn/8FUZSTe @\u5927\u638c\u95e8\u6e38\u620f ', u'\u8f7b\u8f68\u65e9\u4e0a\u7684\u7a7a\u8c03\u5f00\u5f97\u7565\u5927']:
2.4

Python 新浪微博元素 (Word, Screen Name)词汇多样性的更多相关文章

  1. Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的词汇多样性分析

    CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-7-3 @author: guaguastd @name: tw ...

  2. Python 对新浪微博的博文元素 (Word, Screen Name)的频率分析

    CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-7-9 @author: guaguastd @name: we ...

  3. Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的频率分析

    CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-7-2 @author: guaguastd @name: tw ...

  4. 【NLP】Python NLTK获取文本语料和词汇资源

    Python NLTK 获取文本语料和词汇资源 作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集 ...

  5. python统计元素重复次数

    python统计元素重复次数 # !/usr/bin/python3.4 # -*- coding: utf-8 -*- from collections import Counter arr = [ ...

  6. python如何转换word格式、读取word内容、转成html

    # python如何转换word格式.读取word内容.转成html? import docx from win32com import client as wc # 首先将doc转换成docx wo ...

  7. Python Appium 元素定位方法简单介绍

    Python  Appium  元素定位 常用的八种定位方法(与selenium通用) # id定位 driver.find_element_by_id() # name定位 driver.find_ ...

  8. 借助python工具从word文件中抽取相关表的定义,最后组装建表语句-非常好

    借助python工具从word文件中抽取表的定义,最后组装建表语句-非常好 --如有转载请以超链接的方式注明原文章出处,谢谢大家.请尊重每一位乐于分享的原创者 1.python脚本 ## -*- co ...

  9. python+selenium 元素被定位到而且click()也提示执行成功,但是页面就是没有变化和跳转。

    python+selenium 元素被定位到而且click()也提示执行成功,但是页面就是没有变化和跳转. 如果多次定位和click(),有时候会跳转. 我遇到很多次就是很郁闷,有人说,操作太快的,页 ...

随机推荐

  1. 什么是C# Lambda表达式?形如:p=>p.abc

    这里介绍C# Lambda表达式,它实际上和匿名方法没有什么不同.Lambda的输入参数就对应着delegate括号里面的参数,由于C# Lambda表达式可以推断参数的类型,所以这里的参数无需声明. ...

  2. Bertelsmann Asia Investments, 简称BAI

    聚焦龙宇:贝塔斯曼的中国风险投资之路 _财经_腾讯网 贝塔斯曼亚洲投资基金(Bertelsmann Asia Investments, 简称BAI )

  3. OGR API Tutorial

    This document is intended to document using the OGR C++ classes to read and write data from a file. ...

  4. NET Core R2跑Hello World

    在CentOS 7上安装.NET Core R2跑Hello World 前言 在上个月.NET Core出了最新版本预览版,只是在Window系统上试验了一下.原本想等发布正式版的时候在linux系 ...

  5. NProxy——Mac和Linux平台下的Fiddler

    Fiddler 相信大家,尤其是前端工程师们都知道. 用它的文件替换功能,将线上的静态资源文件(JS.CSS.图片)替换为本地相应的文件,来调试线上(代码都被压缩过)UI的问题.的确是一神器.(相比, ...

  6. ASP漏洞+SQL注入的入侵方法

    本文就是想对装上了防火墙的主机,进行入侵攻击的大概思路小结一下. 首先当然是用扫描器对这台服务器(以下简称主机A)进行常规的扫描,得到初步的信息.再用nmap -sS IP -P0 -p 139 ,透 ...

  7. boost::property_tree读取解析.xml文件

    boost::property_tree读取解析.xml文件 1)read_xml 支持中文路径  boost::property_tree::wptree wpt;    std::locale:: ...

  8. 经典排序算法 - 基数排序Radix sort

    经典排序算法 - 基数排序Radix sort 原理类似桶排序,这里总是须要10个桶,多次使用 首先以个位数的值进行装桶,即个位数为1则放入1号桶,为9则放入9号桶,临时忽视十位数 比如 待排序数组[ ...

  9. [hadoop系列]Pig的安装和简单演示样例

    inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish ).(来源:http://blog.csdn.net/inkfish) Pig是Yaho ...

  10. Mac 安装配置启动Tomcat

    Tomcat Mac 下的安装: TomCat 下载地址,例如: http://tomcat.apache.org/download-70.cgi 在Mac 上下载的时候,下载tar.gz包 下载完成 ...