信息领域热词分析系统--python统计

统计词语出现的频率，并且按从高到低的顺序报错在文件中

def main():

    file=open("F:\大数据\大作业\分词后的文件\data4_xinxi.txt",'r')

    wordCounts={}    #先建立一个空的字典，用来存储单词 和相应出现的频次

    count=       #显示前多少条（按照单词出现频次从高到低）

    for line in file:

        lineprocess(line.lower(),wordCounts)  #对于每一行都进行处理，调用lineprocess()函数，参数就是从file文件读取的一行

        items0=list(wordCounts.items())       #把字典中的键值对存成列表，形如：["word":"data"]

        items=[[x,y] for (y,x) in items0]     #将列表中的键值对换一下顺序，方便进行单词频次的排序 就变成了["data":"word"]

        items.sort()            #sort()函数对每个单词出现的频次按从小到大进行排序

    gailv=[]#存储像文件中输入的词语以及概率

    for i in range(len(items)-,,-):   #上一步进行排序之后 对items中的元素从后面开始遍历 也就是先访问频次多的单词

            if items[i][]<:

                break;

            zz=items[i][]+"\t"+str(items[i][])

            gailv.append(zz)

    f2 = open("F:\大数据\大作业\分词后的文件\data5_xinxi.txt", 'a+',encoding='utf-8')

    for z1 in gailv:

        f2.write(z1)

        f2.write("\n")

    f2.close()

def lineprocess(line,wordCounts):

    for ch in line:   #对于每一行中的每一个字符 对于其中的特殊字符需要进行替换操作

        if ch in "~@#$%^&*()_-+=<>?/,.:;{}[]|\'""":

            line=line.replace(ch,"")

    words=line.split()  #替换掉特殊字符以后 对每一行去掉空行操作,也就是每一行实际的单词数量

    for word in words:

        if word in wordCounts:

            wordCounts[word]+=

        else:

            wordCounts[word]=

    #这个函数执行完成之后整篇文章里每个单词出现的频次都已经统计好了

main()

信息领域热词分析系统--python统计的更多相关文章

信息领域热词分析系统--python过滤
利用python过滤去没用的词语,过滤的词语存储在停用文件中. #创建停用词表 def stopwordlist(): stopwords=[line.strip() for line in open ...
信息领域热词分析系统--python切词
利用python将标题切割成词语 import jieba #读取文件 f=open(r"F:\大数据\大作业\爬取到的数据\data1_xinxi.txt",'r') s=f.r ...
信息领域热词分析系统--java爬取CSDN中文章标题即链接
package zuoye1; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLExce ...
阿里舆情︱舆情热词分析架构简述（Demo学习）
本节来源于阿里云栖社区,同时正在开发一个舆情平台,其中他们发布了一篇他们所做的分析流程,感觉可以作为案例来学习.文章来源:觉民cloud/云栖社区平台试用链接:https://prophet.dat ...
Python 爬取热词并进行分类数据分析-[App制作]
日期:2020.02.14 博客期:154 星期五 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）
日期:2020.01.27 博客期:135 星期一 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备](本期博客) b.[云图制作+数据导入] ...
Python 爬取热词并进行分类数据分析-[热词分类+目录生成]
日期:2020.02.04 博客期:143 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[ ...
Python 爬取热词并进行分类数据分析-[热词关系图+报告生成]
日期:2020.02.05 博客期:144 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[云图制作+数据导入]
日期:2020.01.28 博客期:136 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入](本期博客) ...

随机推荐

alias这个命令还是很有用的
这是在知乎看到的一个回答. 我一开始学习linux命令的时候觉得这个alias命令很奇怪,为什么要给别人起个别名呢?有什么好处? 因为当时接触的是比较简单的命令比如ls -al的这种短小的命令,对a ...
Ubuntu重启关机命令使用
如果你想保持当前用户的登录而且使用root用户执行命令可以输入:su root,输入密码可以运行,shutdown 命令重启命令: 1.reboot 2.shutdown -r now 立刻重启 ...
GPG入门
GPG入门摘自https://www.jianshu.com/p/1257dbf3ed8e Nitroethane 关注 2016.07.19 17:36* 字数 1003 阅读 6560评 ...
Jsp入门第一天
1. JSP: 1). WHY: JSP 是简 Servlet 编写的一种技术, 它将 Java 代码和 HTML 语句混合在同一个文件中编写,只对网页中的要动态产生的内容采用 Java 代码来编写, ...
ipa包使用命令上传fir.im或者蒲公英
我们的工程做了自动打包处理,但是每次打完ipa后只是放置于一个共享盘或者本地,为了方便测试,每次都要手动上传上传fir或者蒲公英,比较麻烦.所以研究了一下怎么能在打完包后直接脚本上传到上传fir或者蒲 ...
Django之博客系统：增加标签
一般在发表博客后会给每个帖子加上一个标签.类似帖子关键字的功能.在这一章中来看下如何给博客添加标签功能(tagging) 添加标签需要集成第三方的Django标签应用来完成这个功能.django-ta ...
python web开发之flask框架学习(2) 加载模版
上次学习了flask的helloword项目的创建,这次来学习flask项目的模版加载: 第一步:创建一个flask项目第二步:在项目目录的templates文件夹下创建一个html文件第三步: ...
springboot jpa mongodb 整合mysql Field in required a bean of type that could not be found Failed to load ApplicationContext
1.完整报错 *************************** APPLICATION FAILED TO START *************************** Descripti ...
Ubuntu1804登录界面闪退
目前主力机操作系统已经由Ubuntu 16.04 lts升级到Ubuntu 18.04 lts.由于是跨版本升级过来,而且由unity(个人觉得挺好)替换成了gnome3,经常出点小问题.这次由于安装 ...

信息领域热词分析系统--python统计

信息领域热词分析系统--python统计的更多相关文章

随机推荐

热门专题