使用genism训练词向量【转载】

转自：https://blog.csdn.net/qq_16912257/article/details/79099581

https://blog.csdn.net/thriving_fcl/article/details/51406780

1.简单使用

from gensim.models import word2vec

sents = [

'I am a good student'.split(),

'Good good study day day up'.split()

]

model = word2vec.Word2Vec(sents, size=100, window=5, min_count=2, workers=10)

# 打印单词'good'的词向量

print(model.wv.word_vec('good'))

# 打印和'good'相似的前2个单词

print(model.wv.most_similar('good', topn=2))

# 保存模型到文件

model.save('w2v.model')

参数：

size：词向量输出维度
window：上下文窗口
min_count：忽略词频小于此阈值的单词
workers：使用的线程数

2.增量训练

def retrain(data_file, old_model_file, new_model_file):

    sents = XXX

    model = word2vec.Word2Vec.load(old_model_file)

    model.build_vocab(sents, update=True)

    model.train(sents, total_examples=model.corpus_count, epochs=model.iter)

    model.save(new_model_file)

3.大语料库输入

将语料都转换为一个python的list作为输入是很方便，但是如果输入的语料特别大，大到内存都装不下，就不能采用这种方式。gensim的API并不要求sentences必须是list对象，只要输入的sentences是iterable的就行，那我们只要一次载入一个句子，训练完之后再将其丢弃，内存就不会因为语料过大而不够了。我们通过下面的代码就可以生成一个iterator。事先已经将训练语料分词，词与词之间采用空格分开，并保存在一个文档里。

class sentences_generator():

    def __init__(self, filename):

        self.filename = filename

    def __iter__(self):

        for line in open(self.filename):

            sentence = line.rstrip().split(' ')

            yield sentence

使用genism训练词向量【转载】的更多相关文章

PyTorch在NLP任务中使用预训练词向量
在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...
文本分类实战（一）—— word2vec预训练词向量
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
tensorflow如何正确加载预训练词向量
使用预训练词向量和随机初始化词向量的差异还是挺大的,现在说一说我使用预训练词向量的流程. 一.构建本语料的词汇表,作为我的基础词汇二.遍历该词汇表,从预训练词向量中提取出该词对应的词向量三.初始化 ...
基于word2vec训练词向量(二)
转自:http://www.tensorflownews.com/2018/04/19/word2vec2/ 一.基于Hierarchical Softmax的word2vec模型的缺点上篇说了Hi ...
基于word2vec训练词向量(一)
转自:https://blog.csdn.net/fendouaini/article/details/79905328 1.回顾DNN训练词向量上次说到了通过DNN模型训练词获得词向量,这次来讲解 ...
DNN模型训练词向量原理
转自:https://blog.csdn.net/fendouaini/article/details/79821852 1 词向量在NLP里,最细的粒度是词语,由词语再组成句子,段落,文章.所以处 ...
pytorch中如何使用预训练词向量
不涉及具体代码,只是记录一下自己的疑惑. 我们知道对于在pytorch中,我们通过构建一个词向量矩阵对象.这个时候对象矩阵是随机初始化的,然后我们的输入是单词的数值表达,也就是一些索引.那么我们会根据 ...
word2vec预训练词向量
NLP中的Word2Vec讲解 word2vec是Google开源的一款用于词向量计算的工具,可以很好的度量词与词之间的相似性: word2vec建模是指用CBoW模型或Skip-gram模型来计算 ...

随机推荐

Apache：SSLCertificateFile：文件不存在或为空（操作系统RHEL7）
配置参数及报错信息(配置了TLS加密后httpd服务无法启动) 我在httpd.conf文件中引用了上面创建的文件.但在那之后,当我尝试RESTART Apache时,我遇到以下错误: 错误:SSLC ...
springboot集成mybatis源码分析-启动加载mybatis过程（二）
1.springboot项目最核心的就是自动加载配置,该功能则依赖的是一个注解@SpringBootApplication中的@EnableAutoConfiguration 2.EnableAuto ...
备份还原数据数据库（动态IP版）
使用方法: 1.首次使用双击export.bat进行备份数据库:2.以后每次使用双击setup.bat进行还原数据库: 备注:如果数据库内容有变,需要重新执行export.bat进行备份数据库. ex ...
Win7+keras+tensorflow使用YOLO-v3训练自己的数据集
一.下载和测试模型 1. 下载YOLO-v3 git clone https://github.com/qqwweee/keras-yolo3.git 这是在Ubuntu里的命令,windows直接去 ...
tp框架设置404页面
无法加载模板跳向404页面 /thinkphp/library/think/Dispatcher.class.php中176行 // 加载模块的扩展配置文件 load_ ...
Spring Boot 读取 resource 下文件
支持linux下读取 import org.springframework.core.io.ClassPathResource; public byte[] getCertStream(String ...
python——常见排序算法解析
算法是程序员的灵魂. 下面的博文是我整理的感觉还不错的算法实现原理的理解是最重要的,我会常回来看看,并坚持每天刷leetcode 本篇主要实现九(八)大排序算法,分别是冒泡排序,插入排序,选择排序, ...
Spring Conditional注解使用小结
今天我们来总结下Conditional注解的使用. Conditional注解增加配置类Config package condition; import org.springframework.co ...
多台CentOS服务器下实现SSH免密码登录
ROOT用户下实现SSH免密码登录第一步:进入目录/root/.ssh $ cd /root/.ssh/ 执行以下命令,会在当前目录下生成公钥(id_rsa.pub)/私钥(id_rsa)对第二 ...
二分三元组 CodeForces - 251A
题目链接: https://vjudge.net/problem/35188/origin 题目大意: 要求你找到一个 i < j < k时有 a[k]-a[i] <= d的组的个数 ...