jieba分词工具的使用方法

作为我这样的萌新，python代码的第一步是：#coding=utf-8

环境：python3.5+jieba0.39

一、jieba包安装方法：

方法1：使用conda安装 conda install jieba(首先使用conda search jieba查看远程仓库有没有jieba资源，有的话就方法一安装，没有用方法二，原则是优先使用conda，其次选用pip)
方法2：使用pip安装 pip install jieba

二、jieba使用方法

实现的代码用到open()函数，以下是open()函数的第二个参数，其参数解释如下：

    r   以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。

    rb  以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。

    r+  打开一个文件用于读写。文件指针将会放在文件的开头。

    rb+ 以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。

    w   打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

    wb  以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

    w+  打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

    wb+ 以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

    a   打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

    ab  以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

    a+  打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。

    ab+ 以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

下面代码实现读取txt文件(test.txt)内容，利用jieba实现分词并将分词结果写到一个新的txt文件(result.txt)：

    #coding=utf-8

    import jieba

    import jieba.posseg as pseg

    fileNeedCut = 'G:/experiment/jieba/test.txt'

    fileName = 'G:/experiment/jieba/result.txt'

    fn = open(fileNeedCut, "r", encoding="utf-8")

    f = open(fileName, "w+", encoding="utf-8")

    for line in fn.readlines():

        #words = pseg.cut(line) #带分词的词性

        words = jieba.cut_for_search(line) #只是分词,不带词性

        for w in words:

            print(w, file=f)

    f.close()

    fn.close()

三、分词结果

分词前文件内容：

    大会的主题是：不忘初心，牢记使命

分词后的内容：

    大会

    的

    主题

    是

    ：

    不忘

    初心

    ，

    牢记

    使命

注：使用words = pseg.cut(line)可在每个分词后面添加词性标注

作者：萌萌Msy
链接：https://www.jianshu.com/p/3a58db86a90b
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

jieba分词工具的使用方法的更多相关文章

python jieba分词工具
源码地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句 ...
分词工具比较及使用(ansj、hanlp、jieba)
一.分词工具 ansj.hanlp.jieba 二.优缺点 1.ansj 优点: 提供多种分词方式可直接根据内部词库分出人名.机构等信息可构造多个词库,在分词时可动态选择所要使用的词库缺点: 自定 ...
Python分词工具——jieba
jieba简介 python在数据挖掘领域的使用越来越广泛.想要使用python做文本分析,分词是必不可少的一个环节在python的第三方包里,jieba应该算得上是分词领域的佼佼者. GitHub地 ...
中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）
2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴,jieba库是目前做的最好的python分词组件.首先它的安装十分便捷,只需要使用pip安装:其次,它不需要另外下载其它的数据包 ...
中文分词工具——jieba
汉字是智慧和想象力的宝库. --索尼公司创始人井深大简介在英语中,单词就是"词"的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的 ...
中文分词工具探析（二）：Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法
错误现象: 最近在做一个小项目,在Python中使用了jieba分词,感觉非常简洁方便.在Python端进行调试的时候没有任何问题,使用PyInstaller打包成exe文件后,就会报错: 错误原因分 ...
常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）
1.jieba分词&词性标注 import jieba import jieba.posseg as posseg txt1 =''' 文本一: 人民网华盛顿3月28日电(记者郑琪)据美国约翰 ...
开源中文分词工具探析（三）：Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...

随机推荐

agc015F Kenus the Ancient Greek
题意: 有$Q$次询问,每次给定$X_i$和$Y_i$,求对于$1\leq x \leq X_i , 1 \leq y \leq Y_i$,$(x,y)$进行辗转相除法的步数的最大值以及取到最大值的方 ...
myeclipse设置自动热部署
MyEclipse中开发网站项目如何设置关联的Tomcat服务器热启动,即修改项目源代码时不需要每次都重启Tomcat 目前在做一个网站项目,使用MyEclipse+Tomcat,每次修改项目源代码时 ...
GDOI2017第二轮模拟day1 总结
平民比赛这场比赛的暴力分非常友好. 但是我并没有拿到全部的暴力分. 1(暴力分$60/100$) 暂时我可以拿的暴力分为$30/100$,直接mst模拟即可. 然而当时打了个辣鸡莫队,结果爆 ...
CNCF 旗下首个为中国开发者量身打造的云原生课程，《CNCF x Alibaba 云原生技术公开课》即将上线
伴随着以 Kubernetes 为代表的云原生技术体系的日益成熟以及 CNCF 生态的逐渐壮大,“云原生”已然成为了未来云计算时代里一个当仁不让的关键词.但是,到底什么是“云原生”?云原生与 CNCF ...
node.js（二）各种模块
我们知道Node.js适合于IO密集型应用,不适合于CPU密集型应用. JS和Node.js区别: JS运行于客户端浏览器中,存在兼容性问题:数据类型:值类型+引用类型(ES+D ...
SPSS操作:轻松实现1:1倾向性评分匹配(PSM)
SPSS操作:轻松实现1:1倾向性评分匹配(PSM) 谈起临床研究,如何设立一个靠谱的对照,有时候成为整个研究成败的关键.对照设立的一个非常重要的原则就是可比性,简单说就是对照组除了研究因素外,其他的 ...
Spark day03
补充算子 transformations mapPartitionWithIndex 类似于mapPartitions,除此之外还会携带分区的索引值. repartition 增加或减少分区.会产生s ...
【python小随笔】函数的初始化与私有化
1:初始化 class test(object): def __init__(self,name):#初始化函数 self.name = name#构造初始化一个变量为类的全局变量, 类的所有函数都可 ...
vagrant up提示"Couldn't open file /path/to/base"的错误解决方法
在vagrant使用命令vagrant up启动虚拟机时出错: C:\Vagrant>vagrant up Bringing machine 'default' up with 'virtua ...
Oracle TRIM函数语法介绍
Oracle中trim的完整参数TRIM([ { { LEADING | TRAILING | BOTH } [ trim_character ] | trim_character } F ...