A Neural Probabilistic Language Model (2003)论文要点

论文链接：http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf

解决n-gram语言模型（比如tri-gram以上）的组合爆炸问题，引入词的分布式表示。

通过使得相似上下文和相似句子中词的向量彼此接近，因此得到泛化性。

相对而言考虑了n-gram没有的更多的上下文和词之间的相似度。

使用浅层网络（比如1层隐层）训练大语料。

feature vector维度通常在100以内，对比词典大小通常在17000以上。

C是全局共享的向量数组。

最大化正则log似然函数：

非归一化的log似然：

hidden units num = h

word feature vector dimension = m

context window width = n

output biases b: |V|

hidden layer biases d: h

hidden to output weights U: |V|*h

word feature vector to output weights W: |V|*(n-1)*m

hidden layer weights H: h*(n-1)*m

word reature vector group C: |V|*m

Note that in theory, if there is a weight decay on the weights W and H but not on C, then W and H could converge towards zero while C would blow up. In practice we did not observe such behavior when training with stochastic gradient ascent.

每次训练大部分参数不需要更新。

训练算法：

可改进点：

1. 分成子网络并行训练

2. 输出词典|V|改成树结构，预测每层的条件概率：计算量|V| -> log|V|

3. 梯度重视特别的样本，比如含有歧义词的样本

4. 引入先验知识（词性等）

5. 可解释性

6. 一词多义（一个词有多个词向量）

A Neural Probabilistic Language Model (2003)论文要点的更多相关文章

A Neural Probabilistic Language Model
A Neural Probabilistic Language Model,这篇论文是Begio等人在2003年发表的,可以说是词表示的鼻祖.在这里给出简要的译文 A Neural Probabili ...
pytorch ---神经网络语言模型 NNLM 《A Neural Probabilistic Language Model》
论文地址:http://www.iro.umontreal.ca/~vincentp/Publications/lm_jmlr.pdf 论文给出了NNLM的框架图: 针对论文,实现代码如下: # -* ...
从代码角度理解NNLM（A Neural Probabilistic Language Model）
其框架结构如下所示: 可分为四个部分: 词嵌入部分输入隐含层输出层我们要明确任务是通过一个文本序列(分词后的序列)去预测下一个字出现的概率,tensorflow代码如下: 参考:https: ...
Efficient Estimation of Word Representations in Vector Space (2013)论文要点
论文链接:https://arxiv.org/pdf/1301.3781.pdf 参考: A Neural Probabilistic Language Model (2003)论文要点 https ...
NLP问题特征表达基础 - 语言模型（Language Model）发展演化历程讨论
1. NLP问题简介 0x1:NLP问题都包括哪些内涵人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
论文分享|《Universal Language Model Fine-tuning for Text Classificatio》
https://www.sohu.com/a/233269391_395209 本周我们要分享的论文是<Universal Language Model Fine-tuning for Text ...
#论文阅读# Universial language model fine-tuing for text classification
论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结文章研究了一些在general corous上pretrain LM,然后把得到的model t ...
【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships
KLMo:建模细粒度关系的知识图增强预训练语言模型 (KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Graine ...
Recurrent Neural Network Language Modeling Toolkit代码学习
Recurrent Neural Network Language Modeling Toolkit 工具使用点击打开链接本博客地址:http://blog.csdn.net/wangxingin ...

随机推荐

Golang的一个CLI框架
因为机缘巧合,因为希望能在VPS中使用百度网盘,了解到了一个开源的项目BaiduPCS-Go,可以用来直接存取访问百度网盘,做的相当不错而且看ISSUES,作者可能还是个学生,很强的样子.稍微看了下 ...
Golang 单例模式 singleton pattern
在Java中,单例模式的实现主要依靠类中的静态字段.在Go语言中,没有静态类成员,所以我们使用的包访问机制和函数来提供类似的功能.来看下下面的例子: package singleton ...
LeetCode.1089-重复的0(Duplicate Zeros)
这是小川的第392次更新,第423篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第255题(顺位题号是1089).给定一个固定长度的整数数组arr,复制每次出现的零,将剩 ...
flask 之(四) --- 扩展|缓存|会话
扩展蓝图内置扩展 (实现的是路由的拆分) '''----------- app.py -------------''' from flask import Flask from users_view ...
Java中的锁-悲观锁、乐观锁，公平锁、非公平锁，互斥锁、读写锁
总览图如果文中内容有错误,欢迎指出,谢谢. 悲观锁.乐观锁悲观锁.乐观锁使用场景是针对数据库操作来说的,是一种锁机制. 悲观锁(Pessimistic Lock):顾名思义,就是很悲观,每次去拿数 ...
CMMI将能力成熟度分为5个级别
CMMI将能力成熟度分为5个级别(初始级,已管理级,已定义级,量化管理级,优化级) ．初始级此时软件过程是无序的,有时甚至是混乱的,对过程几乎没有定义,成功取决于个人努力.管理是反应式的. ．可管 ...
C#追加日志文件
追加日志文件 using System; using System.IO; class DirAppend { public static void Main() { using (StreamWri ...
（4.15）mysql备份还原——物理备份之XtraBackup的下载与安装
关键词:mysql物理备份,XtraBackup,XtraBackup安装,XtraBackup下载实践链接:https://www.cnblogs.com/gered/p/11147193.htm ...
python多线程学习（一）
python多线程.多进程初探原先刚学Java的时候,多线程也学了几天,后来一直没用到.然后接触python的多线程的时候,貌似看到一句"python多线程很鸡肋",于是乎直接 ...
MVVM 和 VUE三要素：响应式、模板引擎、渲染
MVVM 和 VUE三要素:响应式.模板引擎.渲染:https://blog.csdn.net/weixin_37644989/article/details/94409430

A Neural Probabilistic Language Model (2003)论文要点

A Neural Probabilistic Language Model (2003)论文要点的更多相关文章

随机推荐

热门专题