pytorch --- word2vec 实现 --《Efficient Estimation of Word Representations in Vector Space》

论文来自Mikolov等人的《Efficient Estimation of Word Representations in Vector Space》

论文地址： 66666

论文介绍了2个方法，原理不解释...

skim code and comment https://github.com/graykode/nlp-tutorial:

# -*- coding: utf-8 -*-

# @time : 2019/11/9  12:53

import numpy as np

import torch

import torch.nn as nn

import torch.optim as optim

from torch.autograd import Variable

import matplotlib.pyplot as plt

dtype = torch.FloatTensor

# 3 Words Sentence

sentences = [ "i like dog", "i like cat", "i like animal",

              "dog cat animal", "apple cat dog like", "dog fish milk like",

              "dog cat eyes like", "i like apple", "apple i hate",

              "apple i movie book music like", "cat dog hate", "cat dog like"]

word_sequence = " ".join(sentences).split()

word_list = " ".join(sentences).split()

word_list = list(set(word_list))

word_dict = {w: i for i, w in enumerate(word_list)}

# Word2Vec Parameter

batch_size = 20  # To show 2 dim embedding graph

embedding_size = 2  # To show 2 dim embedding graph

voc_size = len(word_list)

# 产生 batch_size个，每个都是一个input和label, both are ont-hot vector

def random_batch(data, size):

    random_inputs = []

    random_labels = []

    random_index = np.random.choice(range(len(data)), size, replace=False)

    for i in random_index:

        random_inputs.append(np.eye(voc_size)[data[i][0]])  # target

        random_labels.append(data[i][1])  # context word

    return random_inputs, random_labels

# Make skip gram of one size window

skip_grams = []

# 从第2个word_sequence开始(index=1),预测index=0和index=2，也就是[index=1,index=0]和[index=1,index=2]的添加到skim_grams中

for i in range(1, len(word_sequence) - 1):

    target = word_dict[word_sequence[i]]

    context = [word_dict[word_sequence[i - 1]], word_dict[word_sequence[i + 1]]]

    for w in context:

        skip_grams.append([target, w])

# Model

class Word2Vec(nn.Module):

    def __init__(self):

        super(Word2Vec, self).__init__()

        # W and WT is not Traspose relationship

        self.W = nn.Parameter(-2 * torch.rand(voc_size, embedding_size) + 1).type(dtype) # voc_size > embedding_size Weight

        self.WT = nn.Parameter(-2 * torch.rand(embedding_size, voc_size) + 1).type(dtype) # embedding_size > voc_size Weight

    def forward(self, X):

        # X : [batch_size, voc_size]

        hidden_layer = torch.matmul(X, self.W) # hidden_layer : [batch_size, embedding_size]

        output_layer = torch.matmul(hidden_layer, self.WT) # output_layer : [batch_size, voc_size]

        return output_layer

model = Word2Vec()

criterion = nn.CrossEntropyLoss()

optimizer = optim.Adam(model.parameters(), lr=0.001)

# Training

for epoch in range(5000):

    input_batch, target_batch = random_batch(skip_grams, batch_size)

    input_batch = Variable(torch.Tensor(input_batch))

    target_batch = Variable(torch.LongTensor(target_batch))

    optimizer.zero_grad()

    output = model(input_batch)

    # output : [batch_size, voc_size], target_batch : [batch_size] (LongTensor, not one-hot)

    loss = criterion(output, target_batch)

    if (epoch + 1)%1000 == 0:

        print('Epoch:', '%04d' % (epoch + 1), 'cost =', '{:.6f}'.format(loss))

    loss.backward()

    optimizer.step()

# because

# input_size is [batch_size,voc_size] , ( a word is one-hot voctor(lenght is voc_size) )

# W is [voc_size,emmedding_size]

# a word*W ,result is same as:

# [1,0,0]*[w1,w4

#          w2,w5

#          w3,w6]

# so one word embedding vector is [w1,w4]

# 即: W[i][0],W[i][1]

for i, label in enumerate(word_list):

    W, WT = model.parameters()

    x,y = float(W[i][0]), float(W[i][1])

    plt.scatter(x, y)

    plt.annotate(label, xy=(x, y), xytext=(5, 2), textcoords='offset points', ha='right', va='bottom')

plt.show()

pytorch --- word2vec 实现 --《Efficient Estimation of Word Representations in Vector Space》的更多相关文章

Efficient Estimation of Word Representations in Vector Space 论文笔记
Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space ...
一天一经典Efficient Estimation of Word Representations in Vector Space
摘要本文提出了两种从大规模数据集中计算连续向量表示(Continuous Vector Representation)的计算模型架构.这些表示的有效性是通过词相似度任务(Word Similarit ...
Efficient Estimation of Word Representations in Vector Space (2013)论文要点
论文链接:https://arxiv.org/pdf/1301.3781.pdf 参考: A Neural Probabilistic Language Model (2003)论文要点 https ...
【Deep Learning学习笔记】Efficient Estimation of Word Representations in Vector Space_google2013
标题:Efficient Estimation of Word Representations in Vector Space 作者:Tomas Mikolov 发表于:ICLR 2013 主要内容: ...
论文翻译——Deep contextualized word representations
Abstract We introduce a new type of deep contextualized word representation that models both (1) com ...
Word Representations 词向量
常用的词向量方法word2vec. 一.Word2vec 1.参考资料: 1.1) 总览 https://zhuanlan.zhihu.com/p/26306795 1.2) 基础篇: 深度学习wo ...
word2vec 理论与实践
导读本文简单的介绍了Google 于 2013 年开源推出的一个用于获取 word vector 的工具包(word2vec),并且简单的介绍了其中的两个训练模型(Skip-gram,CBOW),以 ...
TensorFlow v2.0实现Word2Vec算法
使用TensorFlow v2.0实现Word2Vec算法计算单词的向量表示,这个例子是使用一小部分维基百科文章来训练的. 更多信息请查看论文: Mikolov, Tomas et al. " ...
文本深度表示模型Word2Vec
简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向 ...

随机推荐

Java操作Jxl实现数据交互。三部曲——《第一篇》
Java操作Jxl实现.xsl及.xsls两种数据表格进行批量导入数据到SQL server数据库. 本文实现背景Web项目:前台用的框架是Easyui+Bootstrap结合使用,需要引入相应的Js ...
C#实现EXCEL表格转DataTable
C#代码实现把Excel文件转化为DataTable,根据Excel的文件后缀名不同,用不同的方法来进行实现,下面通过根据Excel文件的两种后缀名(*.xlsx和*.xls)分别来实现.获取文件后缀 ...
从数组中取出n个不同的数组成子集 y 使 x = Σy
/** * 尝试获取arr子集 y 使 x=Σy * @param {Array} arr * @param {number} x * @param {Array} res */ f ...
KVM虚拟化基础
关于虚拟化什么是虚拟化在计算机技术中,虚拟化(技术)或虚拟技术(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源(CPU.内存.磁盘空间.网络适配器等),予以抽象. ...
【Four-Week-Task】四周学习CTF之第一周【寒假更新】
写在最前:为了更好地系统学习CTF(楞头冲很惨别问我怎么知道的除非你是天才),决定先看再学,先正向再逆向. /* 出版排版规范中,标题序号等级为:第一级,一.二.三.(用顿号):第二级,(一).( ...
Java中SMB的相关应用
目录 SMB 服务操作 Ⅰ SMB简介 Ⅱ SMB配置 2.1 Windows SMB Ⅲ 添加SMB依赖 Ⅳ 路径格式 Ⅴ 操作共享 Ⅵ 登录验证 SMB 服务操作 Ⅰ SMB简介 SMB(全称 ...
Http请求特殊符号变空格
Http请求特殊符号变空格今天在调试客户端向服务器传递参数时,url中的参数值出现+,空格,/,?,%,#,&等特殊符号的时候就自动变成空格,在服务器端无法获得正确的参数值.解决方法如下: ...
spring动态修改bean
spring动态修改bean @RequestMapping("ok") public Object test2(){ ApplicationContext application ...
GC原理---垃圾收集算法
垃圾收集算法 Mark-Sweep(标记-清除算法) 标记清除算法分为两个阶段,标记阶段和清除阶段.标记阶段任务是标记出所有需要回收的对象,清除阶段就是清除被标记对象的空间. 优缺点:实现简单,容易产 ...
JSTL （标准标签库）
JSTL(标准标签库) 作用: Web程序员能够利用JSTL和EL来开发Web程序,取代传统直接在页面上嵌入Java程序(Scripting)的做法,以提高程序的阅读性.维护性和方便性. 使用方法:J ...

pytorch --- word2vec 实现 --《Efficient Estimation of Word Representations in Vector Space》

pytorch --- word2vec 实现 --《Efficient Estimation of Word Representations in Vector Space》的更多相关文章

随机推荐

热门专题