向量语义

词汇语义

语义概念(sense or concept)是单词含义(word sense)的组成部分，词原型可以是多义的。
同义词是指：在某些或者全部的上下文中，单词之间有相同或近似含义
可能没有完全相同含义的同义词例子！

即使在很多情况下(上下文语境)，单词间的含义是相同的。

但仍然有可能因为礼貌(politeness)，俚语(slang)，流派(genre)等其他因素导致不会完全相同。

向量语义

将语义定义为基于分布的一个空间向量
一个单词 = 一个向量

同义词定义为语义空间中相邻的词

通过查看文本数据中的附近词来自动构建向量空间
词向量可以称为词嵌入(embeddings)，因为该向量嵌入在一个向量空间中。
两种词嵌入
- Tf-idf:
  
  主要用于信息检索的一种常用模型
  
  会生成较为稀疏的词向量
  
  单词由附近单词计数有关的简单函数来表示
- Word2vec:
  
  会生成较为稠密的词向量
  
  通过训练一个分类器来预测一个单词出现在某一语境中的概率，来生成表示

相似度度量

两个向量的点积是一个标量

\[\text{dot product}(v,w)=v \cdot w=\sum_{i=1}^{N}v_iw_i
\]
- 点积的结果如果值越大，说明两个向量之间在相同维度上有较大的值。因此，点积可以作为一种向量之间相似度度量的方法。
- 点积适合高纬度向量，如果向量维度越高，点积的结果值也会越高。
余弦相似度

\[\cos(v,w) = \frac{v \cdot w}{|v||w|} = \frac{\sum_{i=1}^{N}v_iw_i}{\sqrt{\sum_{i=1}^{N}v_i^2}\sqrt{\sum_{i=1}^{N}w_i^2}}
\]
- 基于向量a和b的点积：
  
  \[a \cdot b = |a||b| \cos{\theta}
  \]
- $-1$表示两个向量在相反方向；$+1$表示两个向量方向一致；$0$表示两个向量正交。

TF-IDF

单词t在文档d中的$tf-idf$值表示为

\[w_{t,d} = tf_{t,d} \times idf_t
\]

$tf_{t,d}$有两中计算方式，一种是$tf_{t,d} = count(t,d)$，但更常见的是用log函数对计数进行处理：

\[tf_{t,d} = \log_{10}(count(t,d)+1)
\]

$df_t$代表单词t在多少个文档中出现，N表示数据集中文档的总数，有

\[idf_t = \log_{10}(\frac{N}{df_t})
\]

word2vec

word2vec 的直觉是，我们不会计算每个单词 w 在例如杏子附近出现的频率，而是在二进制预测任务上训练分类器。

给定一组正采样和负采样，以及一组初始词向量，

算法的学习目标是将这些初始向量训练为：

•最大化目标词和上下文词对(w , cpos )的相似性，

•最小化反例中目标词与反例上下文词对 (w , cneg) 的相似性。

sigmoid函数

\[y = \sigma(z) = \frac{1}{1 + e^{-z}}
\]

值域为 $[0,1]$

将点积转化为概率

$P(+|w,c) = \sigma(c \cdot w) = \frac{1}{1 + \exp(-c \cdot w)}$
$P(-|w,c) = 1 - P(+|w,c) = \sigma(-c \cdot w) = \frac{1}{1 + \exp(c \cdot w)}$
假设上下文单词相互独立，并且将它们的概率相乘：

\[\begin{aligned}
P(+|w, c_{1:L}) = \Pi_{i=1}^{L} \sigma(c_i \cdot w)\\
\log P(+|w, c_{1:L}) = \sum_{i=1}^{L} \log \sigma(c_i \cdot w)
\end{aligned}
\]
将损失函数（公式6.34）各项偏导数进行求解，并使得推导结果分别为公式6.35,6.36,6.37。

\[\begin{aligned}
L_{CE} &= - \log{[P(+|w, c_{pos}) \Pi_{i=1}^k P(-|w, c_{neg_i})]} \\
&= - [\log{P(+|w,c_{pos})}+\sum_{i=1}^k \log{P(-|w,c_{neg_i})}] \\
&= -[\log{\sigma(c_{pos} \cdot w)} + \sum_{i=1}^k \log{\sigma(-c_{neg_i} \cdot w)}]
\end{aligned}
\tag{6.34}
\]

\[\frac{\partial L_{CE}}{\partial c_{pos}} = [\sigma(c_{pos} \cdot w)-1]w \tag{6.35}
\]

\[\frac{\partial L_{CE}}{\partial c_{neg}} = [\sigma(c_{neg} \cdot w)]w \tag{6.36}
\]

\[\frac{\partial L_{CE}}{\partial c_{w}} = [\sigma(c_{pos} \cdot w)-1]c_{pos}+\sum_{i=1}^k [\sigma(c_{neg_i} \cdot w)]c_{neg_i} \tag{6.37}
\]

解

We'll start by finding the partial derivative with respect to $c_{pos}$:

\[\frac{\partial L_{CE}}{\partial c_{pos}}=\frac{\partial}{\partial c_{pos}} = (-[\log{\sigma(c_{pos}·w)}+\sum_{i=1}^{k} \log{\sigma(-c_{neg_i}·w)}])
\]

Using the chain rule, we have:

\[\frac{\partial L_{CE}}{\partial c_{pos}} = -\frac{1}{\sigma(c_{pos}·w)} \frac{\partial}{\partial c_{pos}} \sigma(c_pos·w)
\]

Recall that the derivate of the sigmoid function with respect to $x$ is given by:

\[\frac{\partial}{\partial x} \sigma(x) = \sigma(x)(1-\sigma(x))
\]

Applying this to our equation, we get:

\[\frac{\partial L_{CE}}{\partial c_{pos}} = -\frac{1}{\sigma(c_{pos}·w)}·\sigma(c_{pos}·w)·(1-\sigma(c_{pos}·w))·w
\]

Simplifying further:

\[\frac{\partial L_{CE}}{\partial c_{pos}} = [\sigma(c_{pos}·w)-1]w \tag{6.35}
\]

Next, we find the partial derivative with respect to $c_{neg}$:

\[\frac{\partial L_{CE}}{\partial c_{neg}}=\frac{\partial}{\partial c_{neg}} = (-[\log{\sigma(c_{pos}·w)}+\sum_{i=1}^{k} \log{\sigma(-c_{neg_i}·w)}])
\]

Using the chain rule and the derivative of the sigmoid function, we have:

\[\frac{\partial L_{CE}}{\partial c_{neg}} = \sum_{i=1}^{k} \frac{1}{\sigma(-c_{neg_i}·w)} \frac{\partial}{\partial c_{neg}} \sigma(-c_{neg_i}·w)
\]

Simplifying further:

\[\frac{\partial L_{CE}}{\partial c_{neg}} = [\sigma(c_{neg}·w)]w \tag{6.36}
\]

Using the chain rule and the derivative of the sigmoid function, we have:

\[\frac{\partial L_{CE}}{\partial w} = - \frac{1}{\sigma(c_{pos}·w)} · \frac{\partial}{\partial w} \sigma(c_{pos}·w) - \sum_{i = 1}^{k} \frac{1}{\sigma(-c_{neg_i}·w)} \frac{\partial}{\partial w} \sigma(-c_{neg_i}·w)
\]

Using the derivative of the sigmoid function, we have:

\[\frac{\partial}{\partial w} \sigma(c_{pos}·w) = \sigma(c_{pos}·w)·(1-\sigma(c_{pos}·w))·c_{pos}\]

and

\[\frac{\partial}{\partial w} \sigma(-c_{neg_i}·w) = \sigma(-c_{neg_i}·w)·(1-\sigma(-c_{neg_i}·w))·(-c_{neg_i})
\]

Simplifying further, we have

\[\frac{\partial L_{CE}}{\partial w} = [\sigma(c_{pos}·w)-1]c_{pos}+\sum_{i=1}^{k}[\sigma(c_{neg_i}·w)]c_{neg_i} \tag{6.37}
\]

NLP复习之向量语义的更多相关文章

NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）
有很多改进版的word2vec,但是目前还是word2vec最流行,但是Glove也有很多在提及,笔者在自己实验的时候,发现Glove也还是有很多优点以及可以深入研究对比的地方的,所以对其进行了一定的 ...
NLP︱高级词向量表达（三）——WordRank（简述）
如果说FastText的词向量在表达句子时候很在行的话,GloVe在多义词方面表现出色,那么wordRank在相似词寻找方面表现地不错. 其是通过Robust Ranking来进行词向量定义. 相关p ...
NLP︱高级词向量表达（二）——FastText（简述、学习笔记）
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper: ...
NLP之词向量
1.对词用独热编码进行表示的缺点向量的维度会随着句子中词的类型的增大而增大,最后可能会造成维度灾难2.任意两个词之间都是孤立的,仅仅将词符号化,不包含任何语义信息,根本无法表示出在语义层面上词与词之 ...
NLP获取词向量的方法（Glove、n-gram、word2vec、fastText、ELMo 对比分析）
自然语言处理的第一步就是获取词向量,获取词向量的方法总体可以分为两种两种,一个是基于统计方法的,一种是基于语言模型的. 1 Glove - 基于统计方法 Glove是一个典型的基于统计的获取词向量的方 ...
深度学习之NLP获取词向量
1.代码 def clean_text(text, remove_stopwords=False): """ 数据清洗 """ text = ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
NLP︱词向量经验总结（功能作用、高维可视化、R语言实现、大规模语料、延伸拓展）
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运 ...
nlp语义理解的一点儿看法
nlp领域里,语义理解仍然是难题! 给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想.通常情况下,人在理解语义时头脑中会搜寻与之相关的知识.知识图谱的创始人人为,构成 ...
NLP点滴——文本相似度
[TOC] 前言在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...

随机推荐

HTML一键打包APK工具1.9.5更新，新增一机一码功能
HMTL网址打包APK,可以把本地HTML项目, Egret游戏,网页游戏,或者网站打包为一个安卓应用APK文件,无需编写任何代码,也无需配置安卓开发环境,支持在最新的安卓设备上安装运行. 打包软件会 ...
Solution -「ZJOI 2014」力
Descrption Link. 对于每一个 $i$,求出: \[\sum_{j=1}^{i-1}\frac{a_{j}}{(i-j)^{2}}-\sum_{j=i+1}^{n}\frac{a_{ ...
Ubuntu 22.04上安装docker方法及oracle 11g方法
1.切换到管理员登录 ubt2204@ubt2204-Virtual-Machine:~/database$ su Password: 2.执行安装docker命令 root@ubt2204-Virt ...
报错Intel MKL FATAL ERROR: Cannot load libmkl_core.so.的一种解决方法
问题今天上80服务器跑mdistiller的代码时,意外发现torch.numpy都不能用了T_T 以torch为例,出现如下报错情况以numpy为例,出现如下报错情况我们先看看报错信息,这个报 ...
Java 队列Queue的一些基本操作与概念!!!!!!!!
首先Java中的队列(Queue)是一种先进先出的数据结构. 其中常见的一些基本操作与方法,包括: 1.创建队列对象.例如:ArrayDeque.LinkedList等. 2.入队操作.将元素添加到队 ...
CF755C
题目简化和分析: 这题不用说怎么分析了吧,这一看就是个并查集求连通分量个数的经典模板. 我们需要将 $i$ 和 $p_i$ 进行合并. 遍历每个 $i$ 与 $i+1$ 是否属于同一个 ...
.NET高性能开发-位图索引（一）
首先来假设这样一个业务场景,大家对于飞机票应该不陌生,大家在购买机票时,首先是选择您期望的起抵城市和时间,然后选择舱等(公务舱.经济舱),点击查询以后就会出现航班列表,随意的点击一个航班,可以发现有非 ...
go语言写http踩得坑
1.在运行http时,报错:panic: listen tcp: address xxxx: missing port in address, 初始代码如下 func HelloWordHander ...
python中面向对象有什么特点
一:问题 python中面向对象有什么特点? 二:回答 python同其他面向对象语言一样,有3个特征:封装.继承.重写简单理解就是:封装:把一系列属性和操作封装到一个方法里面,这样想要实现某种效果 ...
JAVAweek5
学习内容进制 1.(十进制):752=2*10(0)+5*10(1)0+7*10(2)=752 (二进制):1011(二进制的数)=1*2(0)+1*2(1)+0*2(2)+1*2(3) = 1 ...

NLP复习之向量语义

向量语义

词汇语义

向量语义

两种词嵌入

相似度度量

TF-IDF

word2vec

sigmoid函数

将点积转化为概率

NLP复习之向量语义的更多相关文章

随机推荐

热门专题