使用genism训练词向量【转载】

转自：https://blog.csdn.net/qq_16912257/article/details/79099581

https://blog.csdn.net/thriving_fcl/article/details/51406780

1.简单使用

from gensim.models import word2vec

sents = [

'I am a good student'.split(),

'Good good study day day up'.split()

]

model = word2vec.Word2Vec(sents, size=100, window=5, min_count=2, workers=10)

# 打印单词'good'的词向量

print(model.wv.word_vec('good'))

# 打印和'good'相似的前2个单词

print(model.wv.most_similar('good', topn=2))

# 保存模型到文件

model.save('w2v.model')

参数：

size：词向量输出维度
window：上下文窗口
min_count：忽略词频小于此阈值的单词
workers：使用的线程数

2.增量训练

def retrain(data_file, old_model_file, new_model_file):

    sents = XXX

    model = word2vec.Word2Vec.load(old_model_file)

    model.build_vocab(sents, update=True)

    model.train(sents, total_examples=model.corpus_count, epochs=model.iter)

    model.save(new_model_file)

3.大语料库输入

将语料都转换为一个python的list作为输入是很方便，但是如果输入的语料特别大，大到内存都装不下，就不能采用这种方式。gensim的API并不要求sentences必须是list对象，只要输入的sentences是iterable的就行，那我们只要一次载入一个句子，训练完之后再将其丢弃，内存就不会因为语料过大而不够了。我们通过下面的代码就可以生成一个iterator。事先已经将训练语料分词，词与词之间采用空格分开，并保存在一个文档里。

class sentences_generator():

    def __init__(self, filename):

        self.filename = filename

    def __iter__(self):

        for line in open(self.filename):

            sentence = line.rstrip().split(' ')

            yield sentence

使用genism训练词向量【转载】的更多相关文章

PyTorch在NLP任务中使用预训练词向量
在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...
文本分类实战（一）—— word2vec预训练词向量
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
tensorflow如何正确加载预训练词向量
使用预训练词向量和随机初始化词向量的差异还是挺大的,现在说一说我使用预训练词向量的流程. 一.构建本语料的词汇表,作为我的基础词汇二.遍历该词汇表,从预训练词向量中提取出该词对应的词向量三.初始化 ...
基于word2vec训练词向量(二)
转自:http://www.tensorflownews.com/2018/04/19/word2vec2/ 一.基于Hierarchical Softmax的word2vec模型的缺点上篇说了Hi ...
基于word2vec训练词向量(一)
转自:https://blog.csdn.net/fendouaini/article/details/79905328 1.回顾DNN训练词向量上次说到了通过DNN模型训练词获得词向量,这次来讲解 ...
DNN模型训练词向量原理
转自:https://blog.csdn.net/fendouaini/article/details/79821852 1 词向量在NLP里,最细的粒度是词语,由词语再组成句子,段落,文章.所以处 ...
pytorch中如何使用预训练词向量
不涉及具体代码,只是记录一下自己的疑惑. 我们知道对于在pytorch中,我们通过构建一个词向量矩阵对象.这个时候对象矩阵是随机初始化的,然后我们的输入是单词的数值表达,也就是一些索引.那么我们会根据 ...
word2vec预训练词向量
NLP中的Word2Vec讲解 word2vec是Google开源的一款用于词向量计算的工具,可以很好的度量词与词之间的相似性: word2vec建模是指用CBoW模型或Skip-gram模型来计算 ...

随机推荐

spring-boot-starter-thymeleaf 避坑指南
第一步:pom配置环境先不要管包是做什么的总之必须要有否则进坑  <dependency> <groupId>net.sourceforg ...
hihocoder 1496 寻找最大值
题解: 注意到$ai$只有$1e6$这件事情肯定要枚举和这个有关的东西考虑枚举$ai\&aj$的值就可以了那么这个集合一定是ai,aj的子集于是我们对每个集合从大到小枚举丢掉一位转移就行 ...
ios 修改导航栏返回按钮的图片
修改导航栏返回按钮的图片方法1: [UINavigationBar appearance].backIndicatorTransitionMaskImage = [UIImage imageName ...
django-request对象
HTTP 应用的信息是通过请求报文和响应报文传递的,关于更多的相关知识,可以阅读<HTTP权威指南>获得. 其中请求报文由客户端发送,其中包含和许多的信息,而 django 将 ...
动态规划——Burst Ballons
题意:给定n个气球.每次你可以打破一个,打破第i个,那么你会获得nums[left] * nums[i] * nums[right]个积分. (nums[-1] = nums[n] = 1)求你可以获 ...
python进阶篇
python进阶篇 import 导入模块 sys.path:获取指定模块搜索路径的字符串集合,可以将写好的模块放在得到的某个路径下,就可以在程序中import时正确找到. import sys ...
ant design select placeholder不生效原因
当select的value绑定一个state默认值时,如果默认值是''或null时,placeholder不生效解决方案:默认值设为undefined
Spring-Boot 使用 Jedis 操作 Redis
背景: 1.Redis 之前学了个皮毛还忘的差不多了,感觉公司项目中的Redis用的真的牛逼,so 需要深造. 2.有个同事在搞Jedis,勾起了我对知识的向往,不会用,但是很渴望. 过程: 1.改 ...
poj 3422 最小费用流
如果不是从费用流区做这个题几乎不会想到用费用流点有权值很容易想到拆点问题是求最大sum ... 把权值取负这样最小费用流的相反数就是最大sum 源点S汇点T k为移动次数矩阵中的点拆成入点出 ...
Visual Studio 2012编译的程序无法在XP下运行的解决办法【转】
最近看到一篇<Windows编程革命简史>,想到以前刚开始用VS2012的时候,编译的程序在其他人那无法运行,一查才知道是VS2012本身不支持XP.当然现在微软早已在VS2012 Upd ...