from gensim.models import Word2Vec as wtv
import jieba s1 = "刘新宇是一个自然语言处理算法工程师"
s2 = "他从事算法方面的工作很多年"
s3 = "刘新宇是一名非常资深的算法工程师" sentences = [jieba.lcut(s1),jieba.lcut(s2),jieba.lcut(s3)]
print(sentences) model = wtv(sentences,min_count=1) print("this is the summary of the model:")
print(model) words = list(model.wv.vocab)
print('this is the vocabulary for our corpus:')
print(words) print("the vector for the word singer:")
print(model['资深']) w1 = ['资深']
print(model.wv.most_similar(positive=w1,topn=5))

  结果:

[['刘新宇', '是', '一个', '自然语言', '处理', '算法', '工程师'], ['他', '从事', '算法', '方面', '的', '工作', '很多年'], ['刘新宇', '是', '一名', '非常', '资深', '的', '算法', '工程师']]
this is the summary of the model:
Word2Vec(vocab=16, size=100, alpha=0.025)
this is the vocabulary for our corpus:
['刘新宇', '是', '一个', '自然语言', '处理', '算法', '工程师', '他', '从事', '方面', '的', '工作', '很多年', '一名', '非常', '资深']
the vector for the word singer:
[-3.7734744e-03 2.6095781e-04 -3.1862229e-03 4.2619775e-03
-4.5439765e-07 -1.8814839e-03 -1.9608627e-03 -4.3091276e-03
2.0104370e-03 2.4313631e-03 3.6958823e-04 -4.6373094e-03
-3.8697310e-03 -1.3030261e-03 3.4550454e-03 3.6497047e-04
-3.0894275e-03 2.7997990e-04 2.4094102e-03 3.7222090e-03
-3.3406885e-03 3.8989806e-03 -1.9044009e-03 -1.2546520e-03
-2.7420574e-03 1.9589183e-03 4.6422374e-03 2.2412005e-03
-4.5687910e-03 -3.0045302e-03 -7.5545040e-04 -1.9913551e-03
-5.4244912e-04 3.4368648e-03 3.1319596e-03 3.5465839e-03
4.0631965e-04 -8.0981071e-04 -4.5625023e-03 1.8198669e-03
-2.3173515e-03 1.3505023e-03 4.2371401e-03 4.9272538e-03
-2.1169472e-03 4.2408700e-03 3.7939013e-03 -1.9469961e-03
-1.0268842e-03 -3.4248799e-03 -4.0382403e-03 -8.0300641e-04
-4.3166843e-03 4.0071514e-03 -5.1711878e-04 -1.0944011e-03
-9.2390249e-04 -2.0183630e-03 -1.1692114e-04 3.7988871e-03
3.0223508e-03 -2.7847637e-03 -2.0709957e-03 -3.2283876e-03
-7.3188142e-04 6.4730411e-06 2.4504904e-03 -1.8213416e-03
-7.2910590e-04 -3.1336993e-03 -2.1612353e-03 3.4241637e-03
9.4859622e-04 -1.1737887e-03 -4.3117562e-03 -2.7182067e-03
-6.3206785e-04 3.5696046e-03 -2.9301932e-03 9.1675809e-04
1.7115782e-03 1.6887123e-03 4.1562999e-03 3.1984923e-03
2.4283223e-04 4.2053428e-03 2.4675422e-03 2.9653152e-03
4.8725074e-03 3.6773803e-03 3.8778691e-03 7.9092768e-04
3.6476396e-03 -1.1947335e-03 -2.0735445e-03 2.1955518e-03
-1.3067436e-03 -2.5959394e-03 4.0679227e-04 7.9005008e-04]
[('工作', 0.1197129413485527), ('非常', 0.08151963353157043), ('一个', 0.061945877969264984), ('的', 0.05767860636115074), ('他', 0.03252919763326645)]
C:/Users/user/Desktop/pycharm_test/test_gensim.py:21: DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
print(model['资深'])

  Word2vec可调整的参数如下:

  def __init__(self, sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5,
max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,
sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=hash, iter=5, null_word=0,
trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, compute_loss=False, callbacks=(),
max_final_vocab=None):

  

gensim的word2vec的简单使用的更多相关文章

  1. 文本分布式表示(三):用gensim训练word2vec词向量

    今天参考网上的博客,用gensim训练了word2vec词向量.训练的语料是著名科幻小说<三体>,这部小说我一直没有看,所以这次拿来折腾一下. <三体>这本小说里有不少人名和一 ...

  2. 用gensim学习word2vec

    在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结.这里我们就从 ...

  3. 解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题

    在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库(已分词)时报如下错误: UnicodeDecodeError: 'utf-8' cod ...

  4. 深度学习 —— 使用 gensim 实现 word2vec

    在自然语言处理领域中,将单词(words)或词语(phases)映射到向量空间(vector space)中可以很容易就得到单词之间的相似度,因为向量空间中两个向量的相似度很容易求得,比如余弦相似度. ...

  5. gensim中word2vec和其他一些向量的使用

    直接上代码吧,word2vec # test from gensim.models.word2vec import Word2Vec txt_file = open('data.txt') sente ...

  6. 机器学习:gensim之Word2Vec 详解

    一 前言 Word2Vec是同上一篇提及的PageRank一样,都是Google的工程师和机器学习专家所提出的的:在学习这些算法.模型的时候,最好优先去看Google提出者的原汁Paper和Proje ...

  7. gensim的word2vec如何得出词向量(python)

    首先需要具备gensim包,然后需要一个语料库用来训练,这里用到的是skip-gram或CBOW方法,具体细节可以去查查相关资料,这两种方法大致上就是把意思相近的词映射到词空间中相近的位置. 语料库t ...

  8. Python gensim库word2vec 基本用法

    ip install gensim安装好库后,即可导入使用: 1.训练模型定义 from gensim.models import Word2Vec   model = Word2Vec(senten ...

  9. gensim中word2vec

    from gensim.models import Word2Vec Word2Vec(self, sentences=None, size=100, alpha=0.025, window=5, m ...

  10. 【python2/3坑】从gensim的Word2Vec.load()的中文vector模型输出时显示unicode码

    服务器上python2.7 打印出的e[0]对应的是 unicode码 于是分别尝试了用e[0].encode('utf-8')转码 和 e[0].decode('unicode-escape')依然 ...

随机推荐

  1. Java处理子父级菜单的方式二

    处理存在子父级关系的数据是写代码的过程中常见的操作,前面讲解过使用递归的方法来做, 可以参考这篇博客 https://www.cnblogs.com/yilangcode/p/16831867.htm ...

  2. hire 聘用 受雇 租金 单词记忆

    hire 基本解释 vt. 聘用:录用:雇用:租用 vi. 受雇:得到工作 n. 租金:酬金,工钱:[非正式用语] 被雇佣的人:销售部的两个新雇员 来自Proto-Germanic*hurjan,租, ...

  3. Nginx的负载均衡策略(4+2)

    Nginx的负载均衡策略主要包括以下几种: 轮询(Round Robin):每个请求按时间顺序逐一分配到不同的后端服务器,如果后端服务器down掉,能自动剔除.这是Nginx的默认策略,适合服务器配置 ...

  4. Leetcode 1161 最大层内元素和

    一.题目 给你一个二叉树的根节点 root.设根节点位于二叉树的第1层,而根节点的子节点位于第2层,依此类推. 请返回层内元素之和 最大 的那几层(可能只有一层)的层号,并返回其中 最小 的那个. 示 ...

  5. 个性化的单芯片的回声消除(AEC)解决方案

    概述   这些年随着智能化产品的广泛应用,各种新型音频产品也层出不穷,在这个古老的领域,传统的回声消除方案一般是功耗高,成本非常高,集成性差.无法满足新产品新市场对回声消除的低成本低功耗个性化需求等特 ...

  6. Android 优雅的Activity回调代码封装

    原文地址: Android 优雅的Activity回调代码封装 - Stars-One的杂货小窝 之前提到Jetpack架构组件学习(3)--Activity Results API使用 - Star ...

  7. java的对象内存和数据类型

    一.三种情况的对象内存图 (1)Java内存分配介绍: 栈: 队: 方法区(jdk7):加载字节码文件.(从jdk8开始取消方法区,新增元空间,把原来方法区的多种功能进行拆分,有的功能放到堆中,有的功 ...

  8. App启动页面优化

    目录介绍 01.存在白屏问题 1.1 问题描述 1.2 问题分析 02.解决白屏的办法 2.1 解决方案分析 2.2 第一种解决方案 2.3 第二种解决方案 2.4 注意要点 03.Applicati ...

  9. App启动流程

    目录介绍 1.什么是Zygote进程 1.1 简单介绍 1.2 各个进程的先后顺序 1.3 进程作用说明 2.Zygote进程的启动流程 2.1 源码位置 2.2 ZygoteInit类的main方法 ...

  10. 【Docker】Windows将docker下载的镜像存放到其他盘

    1.在D盘创建一个存放docker虚拟机的文件夹,如下面图中所示: 2.创建好以后,找到桌面右下角的docker图标,在上面点右键,选择settings,打开docker的设置界面. 3.然后在doc ...