word embedding 精要整理

word embedding

具体含义：词的实数向量化表示，可以通过向量相似性度量语义相似性，相似性原理是上下文的一致性

Embedding在数学上表示一个maping, f: X -> Y，也就是一个function,通俗的翻译是单词嵌入，把X所属空间的单词映射为到Y空间的多维向量，word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达。

分布式表示 distributed representation

分布式表示的理论基础：上下文相似的词，语义也相似 Harris 在 1954 年提出的分布假说（ distributional hypothesis）为这一设想提供了理论基础：上下文相似的词，其语义也相似。

基于矩阵：矩阵的每一行表示词的上下文分布，上下文相似，语义相似。矩阵向量的空间距离即代表了相似性

基于神经网络：通过神经网络对上下文，以及上下文与目标词之间的关系进行建模

词向量如何生成：

用一个神经网络来训练。一个训练的样本输入是一个词和另外一个词的one-hot形式，而样本的标签是这两个词的关系，如果他们两经常出现在一起（根据skip-gram方法），则标签为1，反之为0。训练得到的网络中的权重就是词向量。网络倒数第二层的权重。

词向量表示

离散表示：one_hot 方法、TF-IDF方法，N-gram方法，从维度，权重，语序上构建词向量，但随着预料增多，都会出现维度膨胀，数据稀疏，计算量大的问题。

分布式表示：word2vec ，wordvec是词向量的一种，wordvec包含cbow和skip_gram

word embedding 精要整理的更多相关文章

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
Word Embedding与Word2Vec
http://blog.csdn.net/baimafujinji/article/details/77836142 一.数学上的“嵌入”(Embedding) Embed这个词,英文的释义为, fi ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
预训练语言模型的前世今生 - 从Word Embedding到BERT
预训练语言模型的前世今生 - 从Word Embedding到BERT 本篇文章共 24619 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embeddi ...
Word Embedding/RNN/LSTM
Word Embedding Word Embedding是一种词的向量表示,比如,对于这样的"A B A C B F G"的一个序列,也许我们最后能得到:A对应的向量为[0.1 ...
深度学习word embedding猜测性别初探
根据用户的一些特征数据,如果能推测出用户的性别借此提高产品的服务质量.广告的精准性等都是极好的. 机器学习方法有很多,而且一般都可以达到不错的效果,比如svm或神经网络等. 本文使用的代码参考——&l ...
Word Embedding理解
一直以来感觉好多地方都吧Word Embedding和word2vec混起来一起说,所以导致对这俩的区别不是很清楚. 其实简单说来就是word embedding包含了word2vec,word2ve ...
建模角度理解word embedding及tensorflow实现
http://www.jianshu.com/p/d44ce1e3ec2f 1. 前言本篇主要介绍关键词的向量表示,也就是大家熟悉的word embedding.自Google 2013 年开源wo ...
DeepNLP的核心关键/NLP词的表示方法类型/NLP语言模型 /词的分布式表示/word embedding/word2vec
DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇.序一.DeepNLP的核心关键:语言表示(Representation) 二.NL ...

随机推荐

js 禁止右击保存图片，禁止拖拽图片
禁止鼠标右键保存图片 <img src="" oncontextmenu="return false;"> 禁止鼠标拖动图片 <img src ...
shell脚本 set命令
rabbitmq AmqpClient 使用Fanout 交换机投递与接收消息，C++代码示例
fanout交换器重点内容非常简单.它只会将接收到的所有消息广播发送到它所知道的所有队列. 投递消息到交换机: #include "SimpleAmqpClient/SimpleAmqpCl ...
clickhouse核心引擎MergeTree子引擎
在clickhouse使用过程中,针对数据量和查询场景,MergeTree是最常用也是较为合适的表引擎.针对特定的业务,MergeTree的子引擎可以针对不同的业务而定,但都基于MergeTree引擎 ...
Vue学习笔记【2】——Vue指令之 - v-cloak、v-text和v-html
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
js 邮箱，手机电话验证
var mail=/^([a-zA-Z0-9_\.\-])+\@(([a-zA-Z0-9\-])+\.)+([a-zA-Z0-9]{2,4})+$/; var tel=/^(\d3,4|\d{3,4} ...
数字IT基础-数据采集总线
摘要: 日志服务是阿里自产自用的产品,在双十一.双十二和新春红包期间承载阿里云/蚂蚁全站.阿里电商板块.云上几千商家数据链路,每日处理来自百万节点几十PB数据,峰值流量达到每秒百GB, 具备稳定.可靠 ...
Angularjs 1.3在页面中输出带Html标记的文本
如何Angularjs1.3在页面中输出带Html标记的文本基于安全考虑,Angularjs不允许用ng-bind或者{{}}的方法输出html文本. 在实际的应用中,比如信息管理系统,用在线编辑器 ...
js设计模式——4.迭代器模式
js设计模式——4.迭代器模式代码演示 /*js设计模式——迭代器模式*/ class Iterator { constructor(container) { this.list = contain ...
ionic学习使用笔记（一）版本更新及创建项目时遇到的问题解决
最近开始用ionic开发项目,虽然去年的时候用ionic 2.0 开发过公司的项目,不过现在的ionic已经升级到了ionic framework 3.0 了.而且还有个 ionic-cli . 使用 ...

word embedding 精要整理

word embedding 精要整理的更多相关文章

随机推荐

热门专题