gensim中word2vec和其他一些向量的使用

直接上代码吧，word2vec

# test

from gensim.models.word2vec import Word2Vec

txt_file = open('data.txt')

sentences = []

line = txt_file.readline()

while line:

    sentence = line.split(' ')

    sentences.append(sentence)

    line = txt_file.readline()

model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=1)

model.save('model_word2vec.model')

model_use = Word2Vec.load('model_word2vec.model')

xx = model_use.wv.vocab

# print(model_use.wv.vocab)

print('hel')

print(model_use.most_similar('nice'))

print(model_use.wv.similarity('nice', 'great'))

各种参数详解：

https://www.cnblogs.com/pinard/p/7278324.html

模型的一些其他使用：

https://blog.csdn.net/qq_19707521/article/details/79169826

自己在使用中：

from gensim.models import Word2Vec

from gensim.models import KeyedVectors

if file_to_load is not None:

        # 这种方法加载是加载.model文件，好处是可以再次训练

        # w2vModel = Word2Vec.load(file_to_load)

        # 这种方法是加载.txt文件，好处是model.txt文件里面可以可视化地看每一个单词对应的向量

        w2vModel = KeyedVectors.load_word2vec_format(file_to_load)

        print(w2vModel.most_similar("开心"))

    else:

        w2vModel = Word2Vec(sentences, size = embedding_size, window = window, min_count = min_count, workers = multiprocessing.cpu_count())

        if file_to_save is not None:

            # 这种方法就是保存的.model文件

            # w2vModel.save(file_to_save)

            # 这种方法就是保存的.txt文件，注意指定文件名是xxxxx.txt

            w2vModel.wv.save_word2vec_format(file_to_save, binary=False)

需要注意的一点就是.txt文件可以看到在第一行是这样的

25019 100

第一个表明word2vec里面的单词数，第二个100表示维度。

如果加载其他的方法训练出来的.txt文件，或者说自己瞎捣鼓出来的词向量.txt文件，想用gensim来加载，那么一定要注意第一行的问题。

gensim中word2vec和其他一些向量的使用的更多相关文章

gensim的word2vec如何得出词向量（python）
首先需要具备gensim包,然后需要一个语料库用来训练,这里用到的是skip-gram或CBOW方法,具体细节可以去查查相关资料,这两种方法大致上就是把意思相近的词映射到词空间中相近的位置. 语料库t ...
gensim中word2vec
from gensim.models import Word2Vec Word2Vec(self, sentences=None, size=100, alpha=0.025, window=5, m ...
文本分布式表示（三）：用gensim训练word2vec词向量
今天参考网上的博客,用gensim训练了word2vec词向量.训练的语料是著名科幻小说<三体>,这部小说我一直没有看,所以这次拿来折腾一下. <三体>这本小说里有不少人名和一 ...
用gensim学习word2vec
在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结.这里我们就从 ...
文本分类实战（一）—— word2vec预训练词向量
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
使用word2vec训练中文词向量
https://www.jianshu.com/p/87798bccee48 一.文本处理流程通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词 ...
PyTorch在NLP任务中使用预训练词向量
在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...
深度学习 —— 使用 gensim 实现 word2vec
在自然语言处理领域中,将单词(words)或词语(phases)映射到向量空间(vector space)中可以很容易就得到单词之间的相似度,因为向量空间中两个向量的相似度很容易求得,比如余弦相似度. ...
基于word2vec的文档向量模型的应用
基于word2vec的文档向量模型的应用 word2vec的原理以及训练过程具体细节就不介绍了,推荐两篇文档:<word2vec parameter learning explained> ...

随机推荐

jenkins部署集群
环境: 两台Centos7.3系统 master:172.16.1.227 slave:172.16.1.228 其中一台作为master,另一台为slave(slave服务器上无需安装jenkins ...
SOC中的DMIPS_GFLOPS_GMACS的含义
l DMIPS全称叫Dhrystone MIPS 这项测试是用来计算同一秒内系统的处理能力,它的单位以百万来计算,也就是(MIPS) 上面的意思也就是,这个处理器测整数计算能力为(200*100万) ...
2017ACM/ICPC广西邀请赛 1005 CS Course
CS Course Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total S ...
MySql 、Oracle 获取表结构和字段信息
1.MySql获取表结构信息 SELECT TABLE_NAME, TABLE_COMMENT FROM information_schema.`TABLES` WHERE TABLE_SCHEMA ...
（idea maven）mybatis-generator步骤
1.新建一个maven项目,选择maven-archetype-webapp 点击next 2.项目名称,点击next 3.选择项目存放路径,然后点击finish 4.在main包下添加包java和 ...
Java生成菜单树（目录树）的几种方式
本文介绍两种不同生成多级目录树的方式:1. 递归生成,2. map+list 集合生成.最下方会附上完整代码. 生成树的基本规则:子节点的par_id等于父节点的id. 1. 实体类 import ...
python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
HTML常用技巧
1. 为网页链接添加快捷键:accesskey 属性 https://zhidao.baidu.com/question/2267343500557447508.html 2. 键盘事件设置快捷键:h ...
condition的使用
condition 的作用:条件锁需求: 按需执行三个线程. 用wait,notify的方式: /** * 有序线程 wait,notify版 */ public class OrderThread ...
wait(),notify(),notifyAll()必须加锁的原因
从语义方面解析为什么需要锁: 1.wait()方法会释放锁,如果没有先获得锁,那么如何释放? 从实际的作用: 为了预防饥饿线程的产生. 原因: // 线程A 的代码 while(!condition) ...

gensim中word2vec和其他一些向量的使用

gensim中word2vec和其他一些向量的使用的更多相关文章

随机推荐

热门专题