看了一个教程:https://www.cnblogs.com/wkfvawl/p/9487165.html

有些不懂的地方自己查阅了一下

  1. 键值的添加,获得文件中相同字符出现的次数, counts = {},counts.get(word,0)

    一个常用的统计词频的方法
txt = "a b c d a b c a b a e"
words = txt.split() #将每个字符按空格分开
print(words) #输出示例
counts = {} #新建一个字典
for word in words:
counts[word] = counts.get(word,0) + 1 #能够获得键对应的值
print(list(counts.items()))
  1. Python Dictionary items()方法

    字典的一个函数,以列表返回可遍历的(键,值)元组元素
s = "双儿 洪七公 赵敏 赵敏 逍遥子 鳌拜 殷天正 金轮法王 乔峰"
ls=s.split()
counts={}
for word in ls:
counts[word]=counts.get(word,0)+1
item=counts.items()
print("字典类型:",counts)
print("元组类型:",item)

出来的结果不是list类型,需要强制转化为list类型。

  1. 元素排序:items.sort[key=lambda x:x[1],reverse=True)

    key=lambda x: x[1]lambda是一个隐函数,在这里可以不用管它,记得有这个就可以

    后面的x: x[1] 为对前面的对象中的第二维数据(即value)的值进行排序。

  2. 格式化输出print("{0:<5}{1:>5}".format(word, count))

    print ("{0:<10}{1:>5}".format(word, count))

    这个是format方法的格式控制。

{<参数序号>:<填充符号><对齐><宽度><,>< . 精度 ><类型>}
< : 左对齐
> :右对齐
^ : 居中对
< , > 表示数字的千位分隔符
整数类型:b, c, d, o, x, X
浮点数类型:e, E, f, %
>>>"{} {}".format("hello", "world")    # 不设置指定位置,按默认顺序
'hello world' >>> "{0} {1}".format("hello", "world") # 设置指定位置
'hello world' >>> "{1} {0} {1}".format("hello", "world") # 设置指定位置
'world hello world'
import jieba
txt = open("三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {} #通过键值对的形式存储词语及其出现次数 for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word, 0) + 1 #有word时返回其值,+1能够累计次数
#参考https://blog.csdn.net/weixin_42800007/article/details/82024108 items = list(counts.items())
print(type(items[5]))
items.sort(key = lambda x: x[1], reverse = True)
#key = lambda隐函数;x:x[1]按第二维数据排序(value) for i in range(15):
word, count = items[i]
print("{0:<5}{1:>5}".format(word, count))

【Python】文本包jieba使用的更多相关文章

  1. 机器学习常用Python扩展包

    在Ubuntu下安装Python模块通常有3种方法:1)使用apt-get:2)使用pip命令(推荐);3)easy_instal 可安装方法参考:[转]linux和windows下安装python集 ...

  2. python库包大全(转)

    python 库资源大全 转自: Python 资源大全中文版 环境管理 管理 Python 版本和环境的工具 p:非常简单的交互式 python 版本管理工具.官网 pyenv:简单的 Python ...

  3. Python分词工具——jieba

    jieba简介 python在数据挖掘领域的使用越来越广泛.想要使用python做文本分析,分词是必不可少的一个环节在python的第三方包里,jieba应该算得上是分词领域的佼佼者. GitHub地 ...

  4. 转]python 结巴分词(jieba)学习

    原文  http://www.gowhich.com/blog/147 主题 中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...

  5. python第三方库------jieba库(中文分词)

    jieba“结巴”中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点支持三种分词模式: 精确模式,试图将句子最精确地切开, ...

  6. python 结巴分词(jieba)详解

    文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...

  7. LFD,非官方的Windows二进制文件的Python扩展包

    LFD,非官方的Windows二进制文件的Python扩展包 LFD,非官方版本.32和64位.Windows.二进制文件.科学开源.Python扩展包 克里斯托夫·戈尔克(by Christoph ...

  8. Python第三方库jieba(中文分词)入门与进阶(官方文档)

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式, ...

  9. Python文本数据分析与处理

    Python文本数据分析与处理(新闻摘要) 分词 使用jieba分词, 注意lcut只接受字符串 过滤停用词 TF-IDF得到摘要信息或者使用LDA主题模型 TF-IDF有两种 jieba.analy ...

随机推荐

  1. shiro550反序列化分析

    拖了很久的shiro分析 漏洞概述 Apache Shiro <= 1.2.4 版本中,加密的用户信息序列化后存储在Cookie的rememberMe字段中,攻击者可以使用Shiro的AES加密 ...

  2. 南大《软件分析》课程笔记——Intermediate Representation

    南大<软件分析>--Intermediate Representation @(静态分析) Content 编译器和静态分析的关系 AST vs IR IR:3-地址代码(3AC) 实际静 ...

  3. S2-002漏洞分析

    漏洞概述 Struts2-002是一个 XSS 漏洞,该漏洞发生在 <s:url> 和 <s:a>标签中,未对标签内字符进行转义,当标签的属性 includeParams=al ...

  4. 史上最简单的排序算法?看起来却满是bug

    大家好,我是雨乐. 今天在搜论文的时候,偶然发现一篇文章,名为<Is this the simplest (and most surprising) sorting algorithm ever ...

  5. flask 中的endpoint有什么用?

    url到view function之间的一个中间概念,默认是view function的名字,相比于直接使用view function, 使用end point 提供了一个命名空间,可以让不同蓝图的v ...

  6. Python基础(作用域)

    def _private_1(name): return 'Hello, %s' % name def _private_2(name): return 'Hi, %s' % name def gre ...

  7. python tkinter实现俄罗斯方块 基础版

    本项目最终效果见本人b站投稿av81480858 简介部分 本项目最终代码已上传github: https://github.com/BigShuang/Tetris 的1_BASIC文件夹 .其中1 ...

  8. 理解PHP的运行机制

    PHP是一种纯解释型在服务端执行的可以内嵌HTML的脚本语言,尤其适合开发Web应用程序.请求一个 PHP 脚本时,PHP 会读取该脚本,并将其编译为 Zend 操作码,这是要执行的代码的一种二进制表 ...

  9. 【拥抱元宇宙】创建你的第一个Unity程序HelloWorld,并发布

    第一个Unity程序--Hello World. 1.需要先下载一个Unity Hub,以及安装Unity编辑器.Unity Hub需要登陆,激活码可以选择个人用户,免费的.免费的无法改变启动画面,其 ...

  10. [loj3528]位移寄存器

    当$s=0$时(求最小值): 若$x_{0},x_{1},...,x_{n-1}$和$y_{0},y_{1},...,y_{n-1}$像题中所给的方式存储在$r[0][0..nk-1]$和$r[1][ ...