gensim Word2Vec 训练和使用(Model一定要加载到内存中，节省时间！！！)

训练模型
利用gensim.models.Word2Vec(sentences)建立词向量模型
该构造函数执行了三个步骤：建立一个空的模型对象，遍历一次语料库建立词典，第二次遍历语料库建立神经网络模型可以通过分别执行model=gensim.models.Word2Vec()，model.build_vocab(sentences)，model.train(sentences)来实现
训练时可以指定以下参数
min_count指定了需要训练词语的最小出现次数，默认为5
size指定了训练时词向量维度，默认为100
worker指定了完成训练过程的线程数，默认为1不使用多线程。只有注意安装Cython的前提下该参数设置才有意义
查询查询查询查询查询查询结果训练可以通过model.save('fname')或model.save_word2vec_format(fname)来保存为文件，使用再model.load(fname)或model.load_word2vec_format(fname,encoding='utf-8')读取查询结果

例如：

from gensim.models.word2vec import Word2Vec

sentences = [['A1'，'A2']，[]，[]，....]
model= Word2Vec()
model.build_vocab(sentences)
model.train(sentences，total_examples = model.corpus_count，epochs = model.iter)

保存：
model.save('/tmp/MyModel')
＃model.save_word2vec_format('/tmp/mymodel.txt',binary = False)
＃model.save_word2vec_format('/tmp/mymodel.bin.gz',binary = True)

前一组方法保存的文件不能利用文本编辑器查看但是保存了训练的全部信息，可以在读取后追加训练
后一组方法保存为word2vec文本格式但是保存时丢失了词汇树等部分信息，不能追加训练

追加加训练：
model = gensim.models.Word2Vec.load('/tmp/mymodel')
model.train(more_sentences)
加载：
model = gensim.models.Word2Vec.load('/tmp/mymodel')

#model = gensim.models.KeyedVectors.load_word2vec_format('/tmp/vectors.txt',binary = False)
#model = gensim.models.KeyedVectors。load_word2vec_format('/tmp/vectors.bin',binary = True)
##使用gzipped / bz2输入也可以，不需要解压：
#model = gensim.models.KeyedVectors.load_word2vec_format('/tmp/vectors.bin.gz',binary=True)

模型使用：

获取词向量
print(model ['man'])
print(type(model ['man']))
输出：
[0.14116223 0.05663395 0.01500377 -0.03592452 ...]
numpy.ndarray
计算一个词的最近似的词，倒排序
model.most_similar(['男人'])

输出：
[（'女'，0.7664012908935547），
（ '男孩'，0.6824870109558105），
（ '青少年'，0.6586930155754089），
（ '女孩'，0.5921714305877686），
（ '强盗'，0.5585119128227234），
（ '男'，0.5489763021469116），
（'人'，0.5420035719871521），
（ '人'，0.5342026352882385），
（ '绅士'，0.5337990522384644），
（ '摩托车手'，0.5336882472038269）]

计算两词之间的余弦相似度
word2vec一个很大的亮点：支持词语的加减运算（实际中可能只有少数例子比较符合）
model.most_similar(positive = ['woman','king'],negative = ['man'],topn = 2)
输出：
[（'王后'，0.7118192911148071）,（'君主'，0.6189675331115723）]
---
model.similarity('女人', '男人')
输出：
0.7664012234410319

计算两个集合之间的余弦似度
当出现某个词语不在这个训练集合中的时候，会报错！
list1 = ['我'，'走'，'我'，'学校']
list2 = ['我'，'去'，'家']
list_sim1 = model.n_similarity（list1，list2）
print（list_sim1）

输出：
0.772446878519
选出集合中不同类的词语
model.doesnt_match('breakfast cereal dinner lunch'.split())
输出：
'谷类'

gensim Word2Vec 训练和使用(Model一定要加载到内存中，节省时间！！！)的更多相关文章

C# DataGridVie利用model特性动态加载列
今天闲来无事看到ORm的特性映射sql语句.我就想到datagridview也可以用这个来动态添加列.这样就不用每次都去界面上点开界面填列了. 代码简漏希望有人看到了能指点一二. 先定义好Datagr ...
[Tensorflow] 使用 model.save_weights() 保存 / 加载 Keras Subclassed Model
在 parameters.py 中,定义了各类参数. # training data directory TRAINING_DATA_DIR = './data/' # checkpoint dire ...
pytorch GPU训练好的模型使用CPU加载
torch.load('tensors.pt') # 把所有的张量加载到CPU中 torch.load('tensors.pt', map_location=lambda storage, loc: ...
使用word2vec训练中文词向量
https://www.jianshu.com/p/87798bccee48 一.文本处理流程通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词 ...
pytorch 加载训练好的模型做inference
前提: 模型参数和结构是分别保存的 1. 构建模型(# load model graph) model = MODEL() 2.加载模型参数(# load model state_dict) mode ...
学习笔记TF016:CNN实现、数据集、TFRecord、加载图像、模型、训练、调试
AlexNet(Alex Krizhevsky,ILSVRC2012冠军)适合做图像分类.层自左向右.自上向下读取,关联层分为一组,高度.宽度减小,深度增加.深度增加减少网络计算量. 训练模型数据集 ...
[深度学习] Pytorch（三）—— 多/单GPU、CPU，训练保存、加载模型参数问题
[深度学习] Pytorch(三)-- 多/单GPU.CPU,训练保存.加载预测模型问题上一篇实践学习中,遇到了在多/单个GPU.GPU与CPU的不同环境下训练保存.加载使用使用模型的问题,如果保存 ...
利用python中的gensim模块训练和测试word2vec
word2vec的基础知识介绍参考上一篇博客和列举的参考资料. 首先利用安装gensim模块,相关依赖如下,注意版本要一致: Python >= 2.7 (tested with version ...
解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题
在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库(已分词)时报如下错误: UnicodeDecodeError: 'utf-8' cod ...

随机推荐

使用Java合并图片、修改DPI
项目中有时候需要对图片进行DPI.合并.拼接等的处理: package com.snow.web.a_test; import java.awt.Graphics; import java.awt.i ...
一篇文章让你读懂iOS和Android的历史起源
智能手机虽说是移动电话,但我们完全可以将其作为小型化的电脑来思考.这样一来也能够显示出智能手机OS的高性能.我们首先一起来回顾下智能手机OS的历史. OS的黎明期其实在很早之前就已经有这样的想法,即 ...
UnDistracted for Mac（集中注意力辅助工具）破解版安装
1.软件简介 UnDistracted 是 macOS 系统上一款可以帮助我们集中注意力的辅助工具,让我们在 mac 电脑上工作更加集中注意力,提高工作效率,隐藏所有文件或是文件夹窗口.隐藏所有 ...
linux下无法执行PHP命令，错误 php: command not found
在linux下执行php时无法执行,报错:php: command not found 解决方法: export PATH=$PATH:/usr/local/php7/bin 可以输入echo $PA ...
ubuntu安装odbc及（mysql驱动）
一.安装odbc apt-get install unixodbc 如果需要用到编译的头文件之类的 apt-get install unixodbc-dev 二.安装mysql驱动 apt-get i ...
ECMAScript 6 入门之变量的解构赋值
1.数组 1. var a=1,b=2,c=3; console.log("a:",a) console.log("b:",b) console.log(&qu ...
模仿CyclicBarrier，自定义自己屏障类
简介在这里模仿CyclicBarrier,自定义一个自己多线程屏障类,里面有个计时器count,count为0时,才唤醒线程,否则就await挂起,(没错就是用的object类的挂起和唤醒全部线程方 ...
在linux下用命令行编译 java的eclipse项目
由于jdk的版本问题导致在windows上编译打包好的jar包放在linux服务器上运行的时候出现一点小异常,所以决定在linux上进行一次项目编译,这有两个选择1.在相同的linux环境下安装lin ...
Ruby学习小记
ruby安装方法一:使用apt-get安装可以直接使用两个命令完成Ruby的安装. # sudo apt-get update # sudo apt-get install ruby 或者 # s ...
linux抓包命令之tcpdump
顾名思义,tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析.它支持针对网络层.协议.主机.网络或端口的过滤,并提供and.or.not等逻辑语句来帮助你去掉无用的信息,tcpdump ...

gensim Word2Vec 训练和使用(Model一定要加载到内存中，节省时间！！！)

gensim Word2Vec 训练和使用(Model一定要加载到内存中，节省时间！！！)的更多相关文章

随机推荐

热门专题