Google词向量word2vec的使用

 """

     1.在自然语言处理中常常使用预训练的word2vec，这个预训练的词向量可以使用google的GoogleNews-vectors-negative300.bin

     2.GoogleNews-vectors-negative300.bin是训练好的300维的新闻语料词向量

     3.本函数的作用就是把一个词转换成词向量，以供我们后期使用。没有在该word2vec中的词采用其他的方式构建，如采用均匀分布或者高斯分布等随机初始化

 """

 import numpy as np

 # loads 300x1 word vectors from file.

 def load_bin_vec(fname, vocab):

     word_vecs = {}

     with open(fname, "rb") as f:

         header = f.readline()

         vocab_size, layer1_size = map(int, header.split()) # 3000000 300

         binary_len = np.dtype('float32').itemsize * layer1_size #

         for line in range(vocab_size):

             word = []

             while True:

                 ch = f.read(1)

                 if ch == ' ':

                     word = ''.join(word)

                     break

                 if ch != '\n':

                     word.append(ch)

             if word in vocab:

                 word_vecs[word] = np.fromstring(f.read(binary_len), dtype='float32')

             else:

                 f.read(binary_len)

     return word_vecs

 # add random vectors of unknown words which are not in pre-trained vector file.

 # if pre-trained vectors are not used, then initialize all words in vocab with random value.

 def add_unknown_words(word_vecs, vocab, min_df=1, k=300):

     for word in vocab:

         if word not in word_vecs and vocab[word] >= min_df:

             word_vecs[word] = np.random.uniform(-0.25, 0.25, k)

 vectors_file = './GoogleNews-vectors-negative300.bin'

 vocab = ['I', 'can', 'do']

 vectors = load_bin_vec(vectors_file, vocab)  # pre-trained vectors

 add_unknown_words(vectors, vocab)

 print(vectors['I'])

 print('*'*40)

 print(vectors['can'])

 print('*'*40)

 print(vectors['do'])

Google词向量word2vec的使用的更多相关文章

关于Google词向量模型（googlenews-vectors-negative300.bin）的导入问题
起因项目中有如下代码: word2vec = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin', bi ...
词向量word2vec（图学习参考资料）
介绍词向量word2evc概念,及CBOW和Skip-gram的算法实现. 项目链接: https://aistudio.baidu.com/aistudio/projectdetail/500940 ...
词向量 word2vec
看的这一篇的笔记 http://licstar.net/archives/328 看不太懂. 要学的话,看这里吧,这里把一些资料做了整合: http://www.cnblogs.com/wuzhitj ...
词向量1.md
词向量我们以句子分类为例,我们使用深度学习模型对句子进行分类,本质上这个模型的接受的舒服需要是数值型.因为文字是人们抽象出来的一个概念,这个东西是不能被计算机直接理解的,我们需要人为的将这个文字转 ...
学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec
人工神经网络,借鉴生物神经网络工作原理数学模型. 由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息.信息检索领域,模型训练合理排序模型,输入特征,文档质量.文档点击历史.文档 ...
基于word2vec训练词向量(一)
转自:https://blog.csdn.net/fendouaini/article/details/79905328 1.回顾DNN训练词向量上次说到了通过DNN模型训练词获得词向量,这次来讲解 ...
使用word2vec训练中文词向量
https://www.jianshu.com/p/87798bccee48 一.文本处理流程通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词 ...
【word2vec】Distributed Representation——词向量
Distributed Representation 这种表示,它最早是 Hinton 于 1986 年提出的,可以克服 one-hot representation 的缺点. 其基本想法是: 通过训 ...
Word2Vec词向量（一）
一.词向量基础(一)来源背景 word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系.虽然源码是 ...

随机推荐

FastJson-fastjson的简单使用(alibaba)
原文章:http://blog.csdn.net/glarystar/article/details/6654494 原作者:张星的博客 maven配置: <dependency> < ...
GSAP JS基础教程--使用缓动函数
今天来了解一下缓动easeing函数. 开始,如果你还没有GSAP的类包,可以到GreenSock的官网去下载最新版本的类包,或者直接点击这里来下载学习之前,先来准备一下: <!DO ...
c++的字节对齐
win32平台下的微软C编译器对齐策略: 1)结构体变量的首地址能够被其最宽数据类型成员的大小整除.编译器在为结构体变量开辟空间时,首先找到结构体中最宽的数据类型,然后寻找内存地址能被该数据类型大小整 ...
C语言的声明的优先级规则
C语言的声明的优先级规则如下: A 声明从它的名字开始读取,然后按照优先级顺序依次读取 B 优先级从高到低依次是: B.1 声明中被括号括起来的那一部分 B.2 后缀操作符[圆括号 ()表示这 ...
重新生成RF的测试库API文档
在dos窗口下执行如下命令: 命令:python -m robot.libdoc 库名称生成的API文件名.html 例如:python -m robot.libdoc MongoDBLibrar ...
HttpClient（五）-- 模拟表单上传文件
1.maven依赖 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId ...
NFS 配置文件
NFS 配置文件是 /etc/exports,内容如下: [root@localhost ~]# cat /etc/exports /data 192.168.216.129/32(rw,sync,a ...
OSG3.4编译FFMPEG插件
0.加入你要读a.mp4,那个正确的写法是osg::Image* image = osgDB::readImageFile("a.mp4.ffmpeg"); 1.在github上下 ...
weblogic12C出现“java.lang.ArrayIndexOutOfBoundsException: 48188”
最近将10G的一个项目转移到12C出现数组越界的问题: 解决办法: jaxen-1.1.1.jarxom-1.0.jaricu4j-2.6.1.jar 把项目中这三个jar包删除后就可以正常部署了 ...
iOS - UIScrollView 相关属性代理详解
一.UIScrollView的属性和代理方法详解属性: - (void)viewDidLoad { [super viewDidLoad]; _scrollView.backgroundColor ...

Google词向量word2vec的使用

Google词向量word2vec的使用的更多相关文章

随机推荐

热门专题