asdfsadfs

# -*- coding:utf8 -*-
import os
import jieba.posseg as pseg
# -*- coding:utf8 -*-
import os

def splitSentence(inputFile,name):
    fin = open(inputFile, 'r')      #以读的方式打开文件
    print name
    fout= open('/home/xdj/target/'+name,'w')         #以写得方式打开文件
    for eachLine in fin:
        line = eachLine.strip().decode('utf-8', 'ignore')      #去除每行首尾可能出现的空格，并转为Unicode进行处理
   line=line.strip('\n')                                       #去掉多余空行
        wordList = pseg.cut(line)                        #用结巴分词，对每行内容进行分词
        outStr = ''
        for word in wordList:#
       #print word.word,word.flag
       outStr += word.word+'/'+word.flag
   #print outStr
        fout.write(outStr.encode('utf-8'))              #将分词好的结果写入到输出文件
       fout.write('\n')
    fin.close()
    fout.close()

path='/media/软件/zhuomian/VARandLDA/xuejiesourse'
fns=[os.path.join(root,fn) for root,dirs,files in os.walk(path) for fn in files]
#fout= open('/home/xdj/myOutput.txt','w')

i=-1
num=0
for f in fns:
    print f
    i=i+1
    strm = '%d' %i
    splitSentence(f,strm)
#fout.close()
print num

# -*- coding:utf8 -*-

import os

import jieba.posseg as pseg

# -*- coding:utf8 -*-

import os

def splitSentence(inputFile,name):

    fin = open(inputFile, 'r')      #以读的方式打开文件

    print name

    fout= open('/home/xdj/target/'+name,'w')         #以写得方式打开文件

    for eachLine in fin:

        line = eachLine.strip().decode('utf-8', 'ignore')      #去除每行首尾可能出现的空格，并转为Unicode进行处理

    line=line.strip('\n')                                       #去掉多余空行

        wordList = pseg.cut(line)                        #用结巴分词，对每行内容进行分词

        outStr = ''

        for word in wordList:#

        #print word.word,word.flag

        outStr += word.word+'/'+word.flag

    #print outStr

        fout.write(outStr.encode('utf-8'))              #将分词好的结果写入到输出文件

        fout.write('\n')

    fin.close()

    fout.close()

path='/media/软件/zhuomian/VARandLDA/xuejiesourse'

fns=[os.path.join(root,fn) for root,dirs,files in os.walk(path) for fn in files]

#fout= open('/home/xdj/myOutput.txt','w') 

i=-1

num=0

for f in fns:

    print f

    i=i+1

    strm = '%d' %i

    splitSentence(f,strm)

#fout.close()

print num

asdfsadfs的更多相关文章

随机推荐

浏览器兼容innerText nextElementSibling firstElementChild
//下面是封装的方法,可以直接使用 //获dom对象的innerText的取值 function getInnerText(element){ //判断浏览器是否支持innerText if(type ...
Hydra用户手册
Hydra 参数: -R继续从上一次进度接着破解 -S大写,采用SSL链接 -s <PORT>小写,可通过这个参数指定非默认端口 -l <LOGIN>指定破解的用户,对特定用户 ...
python pickle
>>> import pickle >>> m_list=[',2,'asa'] >>> m_list [', 2, 'asa'] >> ...
effective OC2.0 52阅读笔记（七系统框架）
47 熟悉系统框架总结:将代码封装为动态库,并提供接口的头文件,就是框架.平时的三方应用都用静态库(因为iOS应用程序不允许在其中包含动态库),并不是真正的框架,然而也经常视为框架.例如:NSLin ...
iOS文件类型判断
最近在做的东西有下载zip,只是服务器发送过来的是二进制,需要根据二进制来判断是什么类型的文件,从而进行保存操作.起初很不理解,到后来发现可以通过二进制的前2位的ascii码来进行判断.如下: // ...
js随机数
引子: 在写程序间突然需要用到随机数,于是用到了js的Math.random随机函数,生成指定范围内的随机数,根据网上流传的写法生成指定范围内的随机数如下 function random(min ...
vagrant学习笔记
什么是vagrant简而言之,vagrant就是一个用来管理虚拟机文件的工具为什么要使用vagra如果经常玩虚拟机的话,就会知道,当你需要新建一个虚拟环境的时候,总是要重复的安装操作系统,以及操作系统 ...
Fiddler响应post的请求 request body里面填写什么？
若是想传json格式的数据,请求头可以这样写:(应该先勾选 post,然后写上正确滴请求地址)User-Agent: Fiddler Host: localhost:1455 <span sty ...
【Java EE 学习 32 下】【JQuery】【JQuey中的DOM操作】
一.JQuery中的DOM操作. 什么是DOM:DOM是一中和浏览器.平台.语言无关的接口,使用该接口可以轻松访问页面中所有的标准组件.DOM简称文档对象模型,是Document Oject Mode ...
基于AgileEAS.NET SOA 平台SAAS架构技术的开源分销ERP系统-SmartERP.NET下载配置说明
一.前言 AgileEAS.NET SOA 中间件平台是一款基于基于敏捷并行开发思想和Microsoft .Net构件(组件)开发技术而构建的一个快速开发应用平台.用于帮助中小型软件企业建立一条适合市 ...

asdfsadfs

asdfsadfs的更多相关文章

随机推荐

热门专题