tensorflow如何正确加载预训练词向量

使用预训练词向量和随机初始化词向量的差异还是挺大的，现在说一说我使用预训练词向量的流程。

　　一、构建本语料的词汇表，作为我的基础词汇

　　二、遍历该词汇表，从预训练词向量中提取出该词对应的词向量

　　三、初始化embeddings遍历，将数据赋值给tensor

样例代码：

 #-*- coding: UTF-8 -*-

 import numpy as np

 import tensorflow as tf

 '''本程序只是对word2vec进行了简单的预处理，应用到复杂模型中还需要根据实际情况做必要的改动'''

 class Wordlist(object):

     def __init__(self, filename, maxn = 100000):

         lines = map(lambda x: x.split(), open(filename).readlines()[:maxn])

         self.size = len(lines)

         self.voc = [(item[0][0], item[1]) for item in zip(lines, xrange(self.size))]

         self.voc = dict(self.voc)

     def getID(self, word):

         try:

             return self.voc[word]

         except:

             return 0

 def get_W(word_vecs, k=300):

     """

     Get word matrix. W[i] is the vector for word indexed by i

     """

     vocab_size = len(word_vecs)

     word_idx_map = dict()

     W = np.zeros(shape=(vocab_size+1, k), dtype='float32')

     W[0] = np.zeros(k, dtype='float32')

     i = 1

     for word in word_vecs:

         W[i] = word_vecs[word]

         word_idx_map[word] = i

         i += 1

     return W, word_idx_map

 def load_bin_vec(fname, vocab):

     """

     Loads 300x1 word vecs from Google (Mikolov) word2vec

     """

     i=0

     word_vecs = {}

     pury_word_vec = []

     with open(fname, "rb") as f:

         header = f.readline()

         print 'header',header

         vocab_size, layer1_size = map(int, header.split())

         print 'vocabsize:',vocab_size,'layer1_size:',layer1_size

         binary_len = np.dtype('float32').itemsize * layer1_size

         for line in xrange(vocab_size):

             word = []

             while True:

                 ch = f.read(1)

                 #print ch

                 if ch == ' ':

                     word = ''.join(word)

                     #print 'single word:',word

                     break

                 if ch != '\n':

                     word.append(ch)

                     #print word

             #print word

             if word in vocab:

                word_vecs[word] = np.fromstring(f.read(binary_len), dtype='float32')

                pury_word_vec.append(word_vecs[word])

                if i==0:

                    print 'word',word

                    i=1

             else:

                 f.read(binary_len)

        #np.savetxt('googleembedding.txt',pury_word_vec)

     return word_vecs,pury_word_vec

 def add_unknown_words(word_vecs, vocab, min_df=1, k=300):

     """

     For words that occur in at least min_df documents, create a separate word vector.

     0.25 is chosen so the unknown vectors have (approximately) same variance as pre-trained ones

     """

     for word in vocab:

         if word not in word_vecs and vocab[word] >= min_df:

             word_vecs[word] = np.random.uniform(-0.25,0.25,k)

 if __name__=="__main__":

     w2v_file = "GoogleNews-vectors-negative300.bin"#Google news word2vec bin文件

     print "loading data...",

     vocab = Wordlist('vocab.txt')#自己的数据集要用到的词表

     w2v,pury_word2vec = load_bin_vec(w2v_file, vocab.voc)

     add_unknown_words(w2v, vocab.voc)

     W, word_idx_map = get_W(w2v)

     '''embedding lookup简单应用'''

     Wa = tf.Variable(W)

     embedding_input = tf.nn.embedding_lookup(Wa, [0,1,2])#正常使用时要替换成相应的doc

     with tf.Session() as sess:

         sess.run(tf.global_variables_initializer())

         input = sess.run(Wa)

         #print np.shape(Wa)

tensorflow如何正确加载预训练词向量的更多相关文章

PyTorch在NLP任务中使用预训练词向量
在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...
pytorch中如何使用预训练词向量
不涉及具体代码,只是记录一下自己的疑惑. 我们知道对于在pytorch中,我们通过构建一个词向量矩阵对象.这个时候对象矩阵是随机初始化的,然后我们的输入是单词的数值表达,也就是一些索引.那么我们会根据 ...
文本分类实战（一）—— word2vec预训练词向量
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
word2vec预训练词向量
NLP中的Word2Vec讲解 word2vec是Google开源的一款用于词向量计算的工具,可以很好的度量词与词之间的相似性: word2vec建模是指用CBoW模型或Skip-gram模型来计算 ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...
[Pytorch]Pytorch加载预训练模型(转）
转自:https://blog.csdn.net/Vivianyzw/article/details/81061765 东风的地方 1. 直接加载预训练模型在训练的时候可能需要中断一下,然后继续训练 ...
使用Huggingface在矩池云快速加载预训练模型和数据集
作为NLP领域的著名框架,Huggingface(HF)为社区提供了众多好用的预训练模型和数据集.本文介绍了如何在矩池云使用Huggingface快速加载预训练模型和数据集. 1.环境 HF支持Pyt ...
Microsoft Visual Studio 2008 未能正确加载包“Visual Web Developer HTML Source Editor Package” | “Visual Studio HTM Editor Package”
在安装Microsoft Visual Studio 2008 后,如果Visual Studio 2008的语言版本与系统不一致时,比如:在Windows 7 English System 安装Vi ...
Visual Studio 2008 Package Load Failure:未能正确加载包“Microsoft.VisualStudio.Xaml”
在安装好Visual Studio 2008后,启动Visual Studio 2008 发现如下提示: 包加载失败未能正确加载包“Microsoft.VisualStudio.Xaml”( GUI ...

随机推荐

【C语言】数组名传递给函数，数组的sizeof变为4的原因
C语言中,数组名作为参数传递给函数时,退化为指针,sizeof对指针操作结果应该是4.例子如下: #include<iostream> using namespace std; void ...
django admin list_filter的使用
一.举例 class CategoryTreeRelatedFieldListFilter(admin.SimpleListFilter): title = _('课程章节') parameter_n ...
Java多线程的同步机制(synchronized)
一段synchronized的代码被一个线程执行之前,他要先拿到执行这段代码的权限,在 java里边就是拿到某个同步对象的锁(一个对象只有一把锁): 如果这个时候同步对象的锁被其他线程拿走了,他(这个 ...
Java如何检查日期格式是否正确？
在Java编程中,如何检查日期格式是否正确? 以下示例演示如何使用String类的matches()方法检查日期格式是否正确. package com.yiibai; public class Che ...
Windows平台使用RMAN命令自动删除Oracle过期归档日志的方法
自动删除Oracle过期归档日志的思路如下: 1.编写自动执行的bat脚本文件: 2.Windows设置定期执行计划 OracleArchLogClear.bat D:/Oracle/product/ ...
nginx-启动gzip、虚拟主机、请求转发、负载均衡
一.启用gzip 1 gzip on; 2 gzip_min_length 1k; 3 gzip_buffers 4 16k; 4 gzip_http_version ...
wvblk 把 xp、2003、win7（32位）装入 VHD
关键1:是[预安装]阶段F6加载wvblk驱动: or 在还原ghost镜像后,导入wvblk驱动. 关键1.5:对于 win7(32位)来说,还可以在设备管理器内,通过添加“过时”硬件的方式导入wv ...
Map字符串类型去掉空格处理
Iterator it = data.keySet().iterator(); for (; it.hasNext();) { if( data.get(key) instanceof Strin ...
[Laravel] 02 - Route and MVC
前言一.良心资料英文 Laravel 框架:https://laravel.com/ 教程:https://laracasts.com/series/ laravel-from-scratch-2 ...
[DLX精确覆盖] hdu 1603 A Puzzling Problem
题意: 给你n块碎片,这些碎片不能旋转.翻折. 问你能不能用当中的某些块拼出4*4的正方形. 思路: 精确覆盖裸题了建图就是看看每一个碎片在4*4中能放哪些位置,这个就作为行. 列就是4*4=16个 ...

tensorflow如何正确加载预训练词向量

tensorflow如何正确加载预训练词向量的更多相关文章

随机推荐

热门专题