1 gensim是什么？

gensim是一个Python常用的的自然语言处理开发包, 主要用于词向量训练和加载词向量，以下解释其正确使用姿势。

2 正确使用姿势

from gensim.models import word2vec

'''

author = "kalafinaian"

email= "kalafinaian@outlook.com"

create_time = 2019-08-11

'''

'''

预料如何准备, 训练预料问津中每一行是一个文本，每个文本使用空进行分词

A B C ..

D E F ..

H I G ..

..

'''

s_corpus_url = "corpus.txt" # 语料库地址

sentences = word2vec.Text8Corpus(s_corpus_url,)  

'''

算法训练使用说明

架构：skip-gram（慢、对罕见字有利）vs CBOW（快）

训练算法：分层softmax（对罕见字有利）vs 负采样（对常见词和低纬向量有利）

欠采样频繁词：可以提高结果的准确性和速度（适用范围1e-3到1e-5）

文本（window）大小：skip-gram通常在10附近，CBOW通常在5附近

'''

train_model = word2vec.Word2Vec(sentences,

                        sg = 1,     # 0为CBOW  1为skip-gram

                        size = 300, # 特征向量的维度

                        window = 5, # 表示当前词与预测词在一个句子中的最大距离是多少

                        min_count = 5, # 词频少于min_count次数的单词会被

                        sample = 1e-3, # 高频词汇的随机降采样的配置阈值

                        iter = 23,  #训练的次数

                        hs = 1,  #为 1 用hierarchical softmax   0 negative sampling

                        workers=8 # 开启线程个数

                        )

'''

模型的保存

'''

s_model_url = "train.model" # 语料库保存地址

train_model.save(s_model_url)

'''

模型的加载

'''

load_model = word2vec.Word2Vec.load(s_model_url)

'''

查询两个词的相似度

'''

s_word_1 = "关雎"

s_word_2 = "蒹葭"

f_word_sim = load_model.similarity(s_word_1, s_word_2)

'''

查询一个词的词向量, 返回是一个numpy数组

'''

s_query_word = "雅言"

np_word  = load_model[s_query_word]

'''

打印一个词语所有相似词和相似度

'''

for s_word, f_sim in load_model.most_similar(s_query_word):

    print(s_word, f_sim)

'''

判断一个词语是否在词向量模型中

'''

s_word = "Naive"

if s_word in load_model.vocab:

    print("存在")

else:

    print("不存在")

gensim快速上手教程的更多相关文章

新浪SAE快速上手教程
新浪SAE快速上手教程[1]如何免费开通新浪云 2014-07-18 > 新浪SAE快速上手教程[2]如何创建.删除应用 2014-07-24 > 新浪SAE快速上手教程[3]如何上传应 ...
Airtest 快速上手教程
一.Airtest 简介: AirtestIDE 是一个跨平台的UI自动化测试编辑器,适用于游戏和App. 自动化脚本录制.一键回放.报告查看,轻而易举实现自动化测试流程支持基于图像识别的 Airt ...
NHibernate3快速上手教程FluentNHibernate配置与DBHelper
很多学习NHibernate的新手很容易卡在配置文件这一关,正所谓万事开头难,上手后再配合官方文档就比较容易了. 网上关于配置文件的资料非常多,但由于版本的问题,许多老的教程中都没有明确指出类库的版本 ...
NHibernate3快速上手教程FluentNHibernate配置与DBHelper（已过期，有更好的）
很多学习NHibernate的新手很容易卡在配置文件这一关,正所谓万事开头难,上手后再配合官方文档就比较容易了. 网上关于配置文件的资料非常多,但由于版本的问题,许多老的教程中都没有明确指出类库的版本 ...
《Python操作SQLite3数据库》快速上手教程
为什么使用SQLite数据库? 对于非常简单的应用而言,使用文件作为持久化存储通常就足够了,但是大多数复杂的数据驱动的应用需要全功能的关系型数据库.SQLite的目标则是介于两者之间的中小系统.它有以 ...
面向Unity程序员的Android快速上手教程
作者:Poan,腾讯移动客户端开发工程师商业转载请联系腾讯WeTest获得授权,非商业转载请注明出处. WeTest 导读随着Unity.cocos2dx等优秀跨平台游戏引擎的出现,开发者可以把 ...
python快速上手教程
python版本 python目前的版本分为2.7和3.5,两种版本的代码目前无法兼容,查看python版本号: python --version 基本数据类型数字类型整型和浮点型数据和其它编程语 ...
smarty半小时快速上手教程（转）
来源于:http://www.chinaz.com/program/2010/0224/107006.shtml 一:smarty的程序设计部分: 在smarty的模板设计部分我简单的把smarty在 ...
Appscan 工具快速上手教程
1.appscan扫描 (1)白盒扫描=静态扫描,扫描源代码.(2)动态扫描=黑盒扫描,用工具来模拟黑客的攻击,查看应用层的响应.产品内部会有大量受攻击的库,当我们把一个模拟攻击发给我们的应用的时 ...

随机推荐

01-复杂度2 Maximum Subsequence Sum (25 分)
Given a sequence of K integers { N1, N2, ..., NK }. A continuous subsequence is defined to ...
转载：SVD
ComputeSVD 在分布式矩阵有CoordinateMatirx, RowMatrix, IndexedRowMatrix三种.除了CoordinateMatrix之外,Indexe ...
JavaScript中的内存溢出与内存泄漏
内存溢出是一种程序运行出现的错误: 当程序运行需要的内存超过了剩余的内存时, 就出抛出内存溢出的错误 var obj = {} for (var i = 0; i < 100000; i++) ...
使用CAS实现单点登录功能
目录单点登录简介 CAS服务器部署上传tomcat服务器压缩到文件夹/usr/local/cas目录下,解压,修改tomcat文件夹名为tomcat 修改tomcat配置文件的端口号关闭tom ...
【软工实践】Beta冲刺（1/5）
链接部分队名:女生都队组长博客: 博客链接作业博客:博客链接小组内容恩泽(组长) 过去两天完成了哪些任务描述登陆注册.查看用户信息.添加用户任务.查看任务等API的完善 tomcat的学 ...
linux core 性能
apt-get install lrzsz apt-get install vim apt-get install -y net-tools apt-get install -y procps htt ...
.NET Core Startup启动类
.NET Framework 早期架构在.NET Core面世之前,也就是.NET Framework时代,我们的软件架架构有一些比较通用的架构.抛开我们的业务组件,在我们的系统中我们总会有一些基础 ...
范仁义html+css课程---3、图片和超链接
范仁义html+css课程---3.图片和超链接一.总结一句话总结: img标签是图片标签,定义 HTML 页面中的图像 a标签是超链接标签,用于从一个页面链接到另一个页面. 1.img标签要点? ...
<img>的title和Alt有什么区别？
Alt是<img>的特有属性,是图片内容的等价描述,用于图片无法加载时显示,读屏器阅读图片. title 可提高图片高可访问性,除了纯装饰图片外都必须设置有意义的值,搜索引擎会重点分析.鼠 ...
取未清PO逻辑
注意这里的 GR qty [ WEMNG] 和 Open Quantity [OBMNG] *&---------------------------------------------- ...

gensim快速上手教程

1 gensim是什么？

2 正确使用姿势

gensim快速上手教程的更多相关文章

随机推荐

热门专题