wiki中文语料+word2vec (python3.5 windows win7)

环境： win7+python3.5

1. 下载wiki中文分词语料 使用迅雷下载会快不少，大小为1个多G

https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

2. 安装opencc用于中文的简繁替换

安装exe的版本

到https://bintray.com/package/files/byvoid/opencc/OpenCC 中下载

opencc-1.0.1-win64.7z

并解压放置到自定义的目录下

也可安装 python版本的：

pip install opencc-python

安装时会报错：

报错一： ImportError: No module named distribute_setup

解决方法，到 http://www.minitw.com/download/distribute_setup.zip 下载ZIP，解压后将.py文件放置到电脑的分盘:\你安裝Python的目录\Lib(例如：C:\Python35\Lib)

报错二：chown() missing 1 required positional argument: 'numeric_owner'

到distribute_setup.py中，找到self.chown(tarinfo, dirpath)，改为chown(tarinfo, dirpath, '');

报错三： import opencc时，报错 no module named 'version'

将opencc的__init__.py 中的from version import __version__改为from .version import __version__

3. 将wiki的资料转为文本txt

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

解压后得到925M的文件，由于wiki中的东西是会定期更新的，所以不同时间下载得到的大小不一样

process_wiki.py 源码如下：

注：网上的版本大多是针对python2的，使用python3进行解压会在output.write(space.join(text) + "\n")这一句出现提示关于byte或str的错误，所以需要有如下修改：

space = b' '#原来是space = ' '
...

for text in wiki.get_texts():
    s=space.join(text)
    s=s.decode('utf8') + "\n"
output.write(s)

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 修改后的代码如下：
import logging
import os.path
import sys
from gensim.corpora importWikiCorpus
if __name__ =='__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s"%' '.join(sys.argv))
# check and process input arguments
if len(sys.argv)<3:
print(globals()['__doc__']% locals())
sys.exit(1)
inp, outp = sys.argv[1:3]
space = b' '
i =0
output = open(outp,'w',encoding='utf-8')
wiki =WikiCorpus(inp, lemmatize=False, dictionary={})
for text in wiki.get_texts():
s=space.join(text)
s=s.decode('utf8')+"\n"
output.write(s)
i = i +1
if(i %10000==0):
logger.info("Saved "+ str(i)+" articles")
output.close()
logger.info("Finished Saved "+ str(i)+" articles")

4. 繁简转化

进入解压后的opencc的目录，打开dos窗口，输入

opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json

则会得到wiki.zh.jian.text，里面是简体的中文

此时，大家会比较好奇，里边装着的到底是什么东西~

由于解压后的txt有900多M大，用txt打开比较困难，所以我们采用python自带的IO进行读取

import codecs,sys
import opencc
f=codecs.open('zh.wiki.txt','r',encoding="utf8")
line=f.readline()
print(line)

打印的结果如下，可以看出文档中包含多干行文字，每一行文字为一篇文章，每一个空格表示此处原为一个标点符号

简体的打印结果如下：

5. 分词

由第四步得到语料仅由标点隔开，还需将其分割成词

此处使用结巴分词 pip install jieba 即可安装

结巴的具体介绍见：https://github.com/fxsjy/jieba

结巴分词参考了https://codesky.me/archives/ubuntu-python-jieba-word2vec-wiki-tutol.wind 中的做法

由于编码的原因，此处使用了codecs

import jieba
import jieba.analyse
import jieba.posseg as pseg
import codecs,sys
def cut_words(sentence):
#print sentence
return" ".join(jieba.cut(sentence)).encode('utf-8')
f=codecs.open('zh.jian.wiki.txt','r',encoding="utf8")
target = codecs.open("zh.jian.wiki.seg.txt",'w',encoding="utf8")
print('open files')
line_num=1
line = f.readline()
while line:
print('---- processing ', line_num,' article----------------')
line_seg =" ".join(jieba.cut(line))
target.writelines(line_seg)
line_num = line_num +1
line = f.readline()
f.close()
target.close()
exit()
while line:
curr =[]
for oneline in line:
#print(oneline)
curr.append(oneline)
after_cut = map(cut_words, curr)
target.writelines(after_cut)
print('saved ',line_num,' articles')
exit()
line = f.readline1()
f.close()
target.close()

分词后的文档长这个样子：

6. 训练word2vec模型

python train_word2vec_model.py zh.jian.wiki.seg.txt wiki.zh.text.model wiki.zh.text.vector

train_word2vec_model.py源码如下：

import logging
import os.path
import sys
import multiprocessing
from gensim.corpora importWikiCorpus
from gensim.models importWord2Vec
from gensim.models.word2vec importLineSentence
if __name__ =='__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s"%' '.join(sys.argv))
# check and process input arguments
if len(sys.argv)<4:
print(globals()['__doc__']% locals())
sys.exit(1)
inp, outp1, outp2 = sys.argv[1:4]
model =Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)

训练时长，看个人的机子配置，我训了一天。。。（吐槽一下换不了的破机子）

最终得到

7. 测试训练好的模型

结果如下：

但是呀，这个语句改成这样：

得到的结果却是：

难道这个模型宫斗剧看多了，发现皇上和太后是一家人，低阶的后宫女人是一团，只有皇后是个另类？

剩下的，各位自己去调戏吧，应该乐趣不少~

来自为知笔记(Wiz)

wiki中文语料+word2vec (python3.5 windows win7)的更多相关文章

wiki中文语料的word2vec模型构建
一.利用wiki中文语料进行word2vec模型构建 1)数据获取到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...
word2vec词向量处理中文语料
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...
基于CBOW网络手动实现面向中文语料的word2vec
最近在工作之余学习NLP相关的知识,对word2vec的原理进行了研究.在本篇文章中,尝试使用TensorFlow自行构建.训练出一个word2vec模型,以强化学习效果,加深理解. 一.背景知识: ...
利用RNN进行中文文本分类（数据集是复旦中文语料）
利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) 1.训练词向量数据预处理参考利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) ,现在我们有了分词 ...
基于tensorflow的文本分类总结（数据集是复旦中文语料）
代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification 往期精彩: 利用TfidfVectorizer进行 ...
利用CNN进行中文文本分类（数据集是复旦中文语料）
利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) 利用RNN进行中文文本分类(数据集是复旦中文语料) 上一节我们利用了RNN(GRU)对中文文本进行了分类,本节我们将继续使用 ...
python3 在 windows 读取路径多了一个\u202a 是咋回
python3 在 windows 读取路径多了一个\u202a 是咋回事
Python中文语料批量预处理手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
windows Win7如何设置多用户同时远程登录
windows Win7如何设置多用户同时远程登录 1.创建一个用户密码永不过期 2.在本地组策略编辑器里面,依次展开计算机配置--->管理模板--->Windows组件---> ...

随机推荐

【jQuery】input textarea 文本变化的动态监听
实时监听Input textarea文本变化的监听事件:[但不包含通过js动态添加改变的文本事件] HTML: <textarea style="display: none" ...
iOS--实时监控网络状态的改变
在网络应用中,有的时候需要对用户设备的网络状态进行实时监控,有两个目的: (1)让用户了解自己的网络状态,防止一些误会(比如怪应用无能) (2)根据用户的网络状态进行智能处理,节省用户流量,提高用户体 ...
DEDECMS5.5怎样调用{dede:field.content/}做简介之类的单独页面？
很多时候,如果用dede来做一些企业公司网站,或者一些部门网站的时候.需要某些栏目是一个单页的文章,用于公司简介或者企业文化之类的.那么就要用到栏目功能的栏目内容,也就是dede的content标签. ...
4.【nuxt起步】-具体练习一个h5实例
目标地址:https://www.vyuan8.com/vyuan/plugin.php?id=vyuan_fangchan&module=fangchan&pid=10079& ...
Android二维码工具zxing使用
二维码在我们生活中随处可见.在我眼里简直能够用"泛滥"来形容啦.那怎样在我们Android项目中扫描识别二维码或生成二维码图片呢? 我们通常使用的开源框架是zxing.在githu ...
es6 对象浅拷贝的2种方法
<!DOCTYPE html> <html lang="zh"> <head> <meta charset="UTF-8&quo ...
ffmpeg rtmp 推流错误WriteN, RTMP send error 10053 10038
利用ffmepg推264流到rtmp服务端出现错误WriteN, RTMP send error 10053,具体如下图所示. 图1推流到rtmp服务错误原因是视频流缺少SPS,PPS信息,加上这两 ...
linux系列之-—02 设置和查看环境变量
一.Linux环境变量种类按变量的生存周期来划分,Linux变量可分为两类: 1 永久的:需要修改配置文件,变量永久生效. 2 临时的:使用export命令声明即可,变量在关闭shell时失效. 二 ...
使用react全家桶制作博客后台管理系统网站PWA升级移动端常见问题处理循序渐进学.Net Core Web Api开发系列【4】：前端访问WebApi [Abp 源码分析]四、模块配置 [Abp 源码分析]三、依赖注入
使用react全家桶制作博客后台管理系统前面的话笔者在做一个完整的博客上线项目,包括前台.后台.后端接口和服务器配置.本文将详细介绍使用react全家桶制作的博客后台管理系统概述该项目是基 ...
man gitworkflows
gitworkflows(7) Manual Page NAME gitworkflows - An overview of recommended workflows with Git SYNOPS ...

wiki中文语料+word2vec (python3.5 windows win7)

wiki中文语料+word2vec (python3.5 windows win7)的更多相关文章

随机推荐

热门专题