结巴分词python

将文件中的txt文档依次读出 并分好词后 写入 另外的TXT中

#coding=utf-8

import os

import jieba

import codecs

import random

def readFile(newDir):

f=open(newDir,"r",encoding="utf-8")

string=f.read()

print(string)

seg_list = jieba.cut(string)

s=" ".join(seg_list)

print(s)

m=list(s)

dir="C:/Users/PC/Desktop/分好类/娱乐/"+str(random.randint(0,10000000))+ '.txt'

f = open(dir, 'wb+')

for word in m:

f.write(word.encode('utf-8'))

f.close()

return

def eachFile(filepath):

pathDir = os.listdir(filepath)

for s in pathDir:

newDir=os.path.join(filepath,s)

if os.path.isfile(newDir):

if os.path.splitext(newDir)[1]==".txt":

readFile(newDir)

pass

else:

eachFile(newDir) #如果不是文件，递归这个文件夹的路径

eachFile("C：")

结巴分词python的更多相关文章

python中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
Python 结巴分词（1）分词
利用结巴分词来进行词频的统计,并输出到文件中. 结巴分词github地址:结巴分词结巴分词的特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成 ...
Python 结巴分词模块
原文链接:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral PS:结巴分词支持Python3 源码下 ...
python 结巴分词学习
结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于 ...
Python中结巴分词使用手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
python 结巴分词简介以及操作
中文分词库:结巴分词文档地址:https://github.com/fxsjy/jieba 代码对 Python 2/3 均兼容全自动安装:easy_install jieba 或者 pip in ...
python 中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
python调用jieba(结巴)分词加入自定义词典和去停用词功能
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...
python去除停用词（结巴分词下）
python 去除停用词结巴分词 import jieba #stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword. ...

随机推荐

BZOJ2095:[POI2010]Bridges(最大流,欧拉图)
Description YYD为了减肥,他来到了瘦海,这是一个巨大的海,海中有n个小岛,小岛之间有m座桥连接,两个小岛之间不会有两座桥,并且从一个小岛可以到另外任意一个小岛.现在YYD想骑单车从小岛1 ...
CF558E A Simple Task
题目大意: 给定一个长度不超过10^5的字符串(小写英文字母),和不超过5000个操作. 每个操作 L R K 表示给区间[L,R]的字符串排序,K=1为升序,K=0为降序. 最后输出最终的字符串首 ...
docker 1.13.1 启动容器过程中mount报错
docker 1.13.1 启动container 问题 [root@openfalcon_transfer1 harbor]# docker run -it --name test busybox ...
Android安全测试
JS 仿腾讯发表微博的效果
JS 仿腾讯发表微博的效果最近2天研究了下腾讯发表微博的效果特此来分享下,效果如下: 在此分享前来谈谈本人编写代码的习惯,很多人会问我既然用的是jquery框架为什么写的组件不用Jquery ...
Python2.7-robotparser
robotparser 模块,用于解析网站的 robots.txt 文件,robots.txt 文件是用于指定搜索引擎爬虫的访问权限的,此模块在 python3 中重命名为 urllib.robotp ...
servlet3.0
1.之前我们创建的项目是servlet2.5,之前的版本,servlet.filter.listener需要配置web.xml 在servlet3.0的时候,没有web.xml,提供注解开发. ser ...
Android Fragment（三）ListFragment简单介绍以及Fragment之间通信
一.Fragment通信简单介绍:Fragments之间是不能够直接通信的,他们之间的通信是通过Activity这个中间件来通信的, 为了让Fragment跟它的Activity通信,我们可以在Fra ...
Android 给双ListView组织数据源
需求:现有这样一套原始数据{“A”,"B","C","D","B","A","B" ...
Scala _ 下划线
1.引入包中的全部方法 import math._ //引入包中所有方法,与java中的*类似 2.表示集合元素 val a = (1 to 10).filter(_%2==0).map(_*2) / ...

结巴分词python

结巴分词python的更多相关文章

随机推荐

热门专题