官方文档： https://radimrehurek.com/gensim/models/word2vec.html

1、训练模型定义

from gensim.models import word2vec

sentences = word2vec.Text8Corpus(r'user.txt')

word2vec = gensim.models.word2vec.Word2Vec(sentences, size=100, hs=1, min_count=1, window=3)

word2vec.save('word2vec_te')

参数解释：

1.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。

2.size是输出词向量的维数，值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离，3表示在目标词前看3-b个词，后面看b个词（b在0-3之间随机）。

4.min_count是对词进行过滤，频率小于min-count的单词则会被忽视，默认值为5。

5.negative和sample可根据训练结果进行微调，sample表示更高频率的词被随机下采样到所设置的阈值，默认值为1e-3。

6.hs=1表示层级softmax将会被使用，默认hs=0且negative不为0，则负采样将会被选择使用。

7.workers控制训练的并行，此参数只有在安装了Cpython后才有效，否则只能使用单核。

模型导出

word2vec = gensim.models.word2vec.Word2Vec(sentences(), size=256, window=10, min_count=64, sg=1, hs=1, iter=10, workers=25)

word2vec.save('word2vec_wx')

模型导入

model = gensim.models.Word2Vec.load('xxx/word2vec_wx')

pd.Series(model.most_similar(u'微信',topn = 360000))

gensim.models.Word2Vec.load的办法导入

其中的Numpy,可以用numpy.load：

import numpy

word_2x = numpy.load('xxx/word2vec_wx.wv.syn0.npy')

还有其他的导入方式：

from gensim.models.keyedvectors import KeyedVectors

word_vectors = KeyedVectors.load_word2vec_format('/tmp/vectors.txt', binary=False)  # C text format

word_vectors = KeyedVectors.load_word2vec_format('/tmp/vectors.bin', binary=True)  # C binary format

增量训练

model = gensim.models.Word2Vec.load('/tmp/mymodel')

model.train(more_sentences)

gensim训练好的word2vec使用

1、相似性

持数种单词相似度任务:
相似词+相似系数（model.most_similar）、model.doesnt_match、model.similarity（两两相似）

model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)

[('queen', 0.50882536)]

model.doesnt_match("breakfast cereal dinner lunch".split())

'cereal'

model.similarity('woman', 'man')

.73723527

词向量

通过以下方式来得到单词的向量:

model['computer']  # raw NumPy vector of a word

array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

可视化展示

import gensim

import numpy

from gensim.models import word2vec

from sklearn.decomposition import PCA

from matplotlib import pyplot

# import pandas as pd

pyplot.rcParams['font.sans-serif'] = ['SimHei']

# model = gensim.models.Word2Vec.load('word2vec_wx')

model = gensim.models.Word2Vec.load('word2vec_te')

# model.train(more_sentences)

# pd.Series(model.most_similar(u'微信'),topn=360000)

# for i in model.most_similar(u'教育'):

#     print(i)

# for i in model['教育']:

#     print(i)

# 基于2d PCA拟合数据

X = model[model.wv.vocab]

pca = PCA(n_components=2)

result = pca.fit_transform(X)

# 可视化展示

pyplot.scatter(result[:, 0], result[:, 1])

words = list(model.wv.vocab)

for i, word in enumerate(words):

    pyplot.annotate(word, xy=(result[i, 0], result[i, 1]))

pyplot.show()

gensim的更多相关文章

doc2vec使用说明（二）gensim工具包 LabeledSentence
欢迎交流,转载请注明出处. 本文介绍gensim工具包中,带标签(一个或者多个)的文档的doc2vec 的向量表示. 应用场景: 当每个文档不仅可以由文本信息表示,还有别的其他标签信息时,比如,在商品 ...
Gensim LDA主题模型实验
本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料. 1. 基于wiki语料的LDA实验上一文得到了wiki纯文本已分词语料 wiki.z ...
doc2vec使用说明（一）gensim工具包TaggedLineDocument
gensim 是处理文本的很强大的工具包,基于python环境下: 1.gensim可以做什么? 它可以完成的任务,参加gensim 主页API中给出的介绍,链接如下: http://radimreh ...
Gensim进阶教程：训练word2vec与doc2vec模型
本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现. Word2vec Word2vec并不是一个模型--它其 ...
doc2vec 利用gensim 生成文档向量
利用gensim 直接生成文档向量 def gen_d2v_corpus(self, lines): with open("./data/ques2_result.txt", &q ...
Paragraph Vector在Gensim和Tensorflow上的编写以及应用
上一期讨论了Tensorflow以及Gensim的Word2Vec模型的建设以及对比.这一期,我们来看一看Mikolov的另一个模型,即Paragraph Vector模型.目前,Mikolov以及B ...
Word2Vec在Tensorflow上的版本以及与Gensim之间的运行对比
接昨天的博客,这篇随笔将会对本人运行Word2Vec算法时在Gensim以及Tensorflow的不同版本下的运行结果对比.在运行中,参数的调节以及迭代的决定本人并没有很好的经验,所以希望在展出运行的 ...
安装gensim
安装了一天的gensim,其中因为版本不一致等等各种问题纠结了好久,现记录如下: 正确安装方式: 1. 安装python2.7 2. 下载Python Extension Packages对应版本的n ...
用gensim学习word2vec
在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结.这里我们就从 ...
【机器学习】使用gensim 的 doc2vec 实现文本相似度检测
环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值. Gensim gensim是一个python的自然语言处理库,能够将文档 ...

随机推荐

K8S实现不同节点POD获取不同IP
背景介绍某混合云场景k8s,云上和云下的node,需要将同一个域名解析到不同的IP 方案利用Coredns+2个第三方插件,fwdpolicy,conditional 编译Coredns(在win ...
unity002
物体轴心点变换轴向变换预览暂停逐帧播放坐标世界坐标物体坐标 mesh 网格决定形状渲染
互联网公司IT系统架构进化之路
一日,与一高手在茶馆聊天.他问道:在鞋厂剑派这两年,可习的什么高深的剑法?我不由一愣,细细想来,这两年每日练习的都是简单的劈砍动作和一些简练的套路.并没有去练什么高深的剑法.不过鞋厂剑派在江湖上也算小 ...
java抽象类继承抽象类和抽象方法 java抽象类继承抽象类和抽象方法
抽象类除了不能实例化对象之外,类的其它功能依然存在,成员变量.成员方法和构造方法的访问方式和普通类一样. 由于抽象类不能实例化对象,所以抽象类必须被继承,才能被使用.也是因为这个原因,通常在设计阶段决 ...
php 动态实例化某个类
$name = 'test'; $controller = 'test'; $a = '\\addons\\'.$name.'\\model\\'.$controller; $this->mod ...
PostgreSQL Win10 安装、创建表并添加数据（安装细节+常见错误避坑）
1.下载:postgresql-14.5-1-windows-x64.exe 地址:Download PostgreSQL 2.安装: 下一步即可,注意记住期间设置的超级管理员密码和设置的端口号安装 ...
Hook新特性（一）
基础Hook 1.useState const [state, setState] = useState(initialState); //返回一个state变量,指为initialState,set ...
new关键字解析
new 运算符创建一个用户定义的对象类型的实例或具有构造函数的内置对象的实例.new 关键字会进行如下的操作: 创建一个空的简单JavaScript对象(即{}): 链接该对象(即设置该对象的构造函数 ...
Software--EB--Project 身份验证
2018-01-09 16:57:51 身份验证服务应该有两种形式得身份验证机制: 1. 在其他网站上又 Web 账号得顾客在注册或登陆到该网站时候应该能够使用这些账号. 2.没有的顾客或者希望新 ...
GOF23种设计模式是哪些
设计模式实践里面提供了许多经久不衰的解决方案和最佳方案.这里,GOF 设计模式主要分为三大类:创建模式.结构模式和行为模式.创建模式对于创建对象实例非常有用.结构模式通过处理类或对象的组合来作用于企业 ...

gensim