pytorch中词向量生成的原理

pytorch中的词向量的使用

在pytorch我们使用nn.embedding进行词嵌入的工作。

具体用法就是:

import torch

word_to_ix={'hello':0,'world':1}

embeds = torch.nn.Embedding(2,5)

hello_idx=torch.LongTensor([word_to_ix['hello']])

hello_embed = embeds(hello_idx)

print(hello_embed)

print(embeds.weight)

tensor([[ 0.6584,  0.2991, -1.2654,  0.9369,  0.6088]], grad_fn=<EmbeddingBackward>)

Parameter containing:

tensor([[ 0.6584,  0.2991, -1.2654,  0.9369,  0.6088],

        [ 0.1922,  1.5374,  0.5737, -0.8007, -0.4896]], requires_grad=True)

在torch.nn.Embedding的源代码中，它是这么解释，

This module is often used to store word embeddings and retrieve them using indices.

The input to the module is a list of indices, and the output is the corresponding

word embeddings.

对于这个，我的理解是这样的torch.nn.Embedding 是一个矩阵类，当我传入参数之后，我可以得到一个矩阵对象，比如上面代码中的

embeds = torch.nn.Embedding(2,5) 通过这个代码，我就获得了一个两行三列的矩阵对象embeds。这个时候，矩阵对象embeds的输入就是一个索引列表（当然这个列表

应该是longtensor格式，得到的结果就是对应索引的词向量）

我们这里有一点需要格外注意，在上面的结果中，有个这个东西 requires_grad=True

我在开始接触pytorch的时候，对embedding的一个疑惑就是它是如何定义自动更新的。因为现在我们得到的这个词向量是随机初始化的结果，

在后续神经网络反向传递过程中，这个参数是需要更新的。

这里我想要点出一点来，就是词向量在这里是使用标准正态分布进行的初始化。我们可以通过查看源代码来进行验证。

在源代码中

if _weight is None:

            self.weight = Parameter(torch.Tensor(num_embeddings, embedding_dim)) ##定义一个Parameter对象

            self.reset_parameters() #随后对这个对象进行初始化

...

...

def reset_parameters(self): #标准正态进行初始化

        init.normal_(self.weight)

        if self.padding_idx is not None:

            with torch.no_grad():

                self.weight[self.padding_idx].fill_(0)

pytorch中词向量生成的原理的更多相关文章

Pytorch中的自动求导函数backward()所需参数含义
摘要:一个神经网络有N个样本,经过这个网络把N个样本分为M类,那么此时backward参数的维度应该是[N X M] 正常来说backward()函数是要传入参数的,一直没弄明白backward需要传 ...
新手如何入门pytorch？
我最近的文章中,专门为想学Pytorch的新手推荐了一些学习资源,包括教程.视频.项目.论文和书籍.希望能对你有帮助:一.PyTorch学习教程.手册 (1)PyTorch英文版官方手册:https: ...
新手必备 | 史上最全的PyTorch学习资源汇总
目录: PyTorch学习教程.手册 PyTorch视频教程 PyTorch项目资源 - NLP&PyTorch实战 - CV&PyTorch实战 PyTorch论 ...
TFIDF<细读>
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文 ...
【目标检测】YOLO：
PPT 可以说是讲得相当之清楚了... deepsystems.io 中文翻译: https://zhuanlan.zhihu.com/p/24916786 图解YOLO YOLO核心思想:从R-CN ...
3D点云重建原理及Pytorch实现
3D点云重建原理及Pytorch实现 Pytorch: Learning Efficient Point Cloud Generation for Dense 3D Object Reconstruc ...
空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)
想直接看公式的可跳至第三节 3.公式修正一.为什么需要SPP 首先需要知道为什么会需要SPP. 我们都知道卷积神经网络(CNN)由卷积层和全连接层组成,其中卷积层对于输入数据的大小并没有要求,唯一对 ...
PyTorch－Adam优化算法原理，公式，应用
概念:Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重.Adam 最开始是由 OpenAI 的 Diederik Kingma 和多伦多大学的 Jim ...
一文看懂Transformer内部原理（含PyTorch实现）
Transformer注解及PyTorch实现原文:http://nlp.seas.harvard.edu/2018/04/03/attention.html 作者:Alexander Rush 转 ...

随机推荐

基于HTTP协议之WEB消息实时推送技术原理及实现
很早就想写一些关于网页消息实时推送技术方面的文章,但是由于最近实在忙,没有时间去写文章.本文主要讲解基于 HTTP1.1 协议的 WEB 推送的技术原理及实现.本人曾经在工作的时候也有做过一些用到网页 ...
XHTML教会我的一些东西-2
不知道写些什么,每次看完视频之后都按照里面的方法把相应的代码写了一遍.感觉问题不大,可能是我没去写那些复杂的代码,没有去思考其他一些新颖的架构. 在自己写代码和看视频的过程中,我明白了,一定要注意每一 ...
从零开始的全栈工程师——js篇（js的异步）
js中的异步 Javascript语言的执行环境是"单线程"(single thread,就是指一次只能完成一件任务.如果有多个任务,就必须排队,前面一个任务完成,再执行后面一个任 ...
Struts2_总结
还未学习的内容,如果到时候要用到,再去学.1.Lamda 表达式(很复杂,很少用)2.验证框架(默认验证方法 validation.方法开始前验证.开始后验证)3.UI标签(用的不多)4.类型转换中的 ...
seleniumCSS用法
http://sauceio.com/index.php/2009/10/selenium-tip-of-the-week-start-improving-your-locators/ http:// ...
Spring Boot入门程序-STS
使用Eclipse EE 中的 Spring Tool插件,完成第一个Spring Boot应用程序的创建. 一.安装Spirng Tool插件在 Eclipse EE Oxygen版本,安装“S ...
Homestead 安装 phpMyAdmin 作为数据库管理客户端 — Laravel 实战 iBrand API 教程
简介 phpMyAdmin 是一个以PHP为基础,以Web-Base方式架构在网站主机上的MySQL的数据库管理工具,让管理者可用Web接口管理MySQL数据库.借由此Web接口可以成为一个简易方式输 ...
SINAMICS S120/S120 EPOS 基本定位修改方向
步骤修改 P1821 (在线修改需要P10=3) 修改完成,copy ram to rom / load to PG
ARM实验4—按键轮询实验
key_poll按键轮询实验实验内容: 通过FS_4412开发板上的按键控制LED灯并打印信息. 实验目的: 熟悉开发环境的使用. 掌握猎户座4412处理器的GPIO接口, 实验平台: FS4412 ...
如何获得C4C里某个code字段对应的描述信息
通过我这篇文章介绍的方法使用C4C OData服务去取服务订单数据(Sales Order): 如何用代码的方式取出SAP C4C销售订单创建后所有业务伙伴的数据 https://www.jiansh ...

pytorch中词向量生成的原理

pytorch中词向量生成的原理的更多相关文章

随机推荐

热门专题