word2vec

WordEmbedding

对词汇进行多维度的描述，形成一个密集的矩阵。这样每两个词之间的相似性可以通过进行内积的大小体现出来。越大说明距离越远，则越不相似。

Analogies（类比）：将男-女和国王-女王做类比，比如将表示‘男’的词向量与‘女’的词向量相减，同理国王和女王也相减，得出来的矩阵近乎相等，则说明这两个对比在某种维度上是相似的。

Cosine similarities: 求解相似度。给出男、女、国王，找到女王的索引。

初始化E，与one-hot矩阵相称，得到对应的embedding。将各个词（一个batch）的embedding做线性变换，且经过softmax后得到某个词的embedding，做交叉熵。再反向传播更新E。

##两种模型
word2vec包含跳字Skip-Gram模型和连续词袋CBOW模型。
**跳字模型**：基于中心词来生成背景词。
**连续词袋模型假设**：基于背景词来生成中心词。

数据处理

二次采样

文本数据中一般会出现一些高频词，如英文中的“the”“a”和“in”。通常来说，在一个背景窗口中，一个词（如“chip”）和较低频词（如“microprocessor”）同时出现比和较高频词（如“the”）同时出现对训练词嵌入模型更有益。因此，训练词嵌入模型时可以对词进行二次采样 [2]。

具体来说，数据集中每个被索引词\(w_i\)将有一定概率被丢弃，该丢弃概率为

\[P(w_i) = \max\left(1 - \sqrt{\frac{t}{f(w_i)}}, 0\right),
\]

其中 \(f(w_i)\) 是数据集中，词\(w_i\)的个数与总词数之比，常数\(t\)是一个超参数（实验中设为\(10^{-4}\)）。可见，只有当\(f(w_i) > t\)时，我们才有可能在二次采样中丢弃词\(w_i\)，并且越高频的词被丢弃的概率越大，低频词会被完整的保留下来。

提取中心词和背景词

将与中心词距离不超过背景窗口大小的词作为它的背景词。下面定义函数提取出所有中心词和它们的背景词。它每次在整数1和max_window_size（最大背景窗口）之间随机均匀采样一个整数作为背景窗口大小。

def get_centers_and_contexts(dataset, max_window_size):

    centers, contexts = [], []

    for st in dataset:

        if len(st) < 2:  # 每个句子至少要有2个词才可能组成一对“中心词-背景词”

            continue

        centers += st

        for center_i in range(len(st)):

            window_size = random.randint(1, max_window_size)

            indices = list(range(max(0, center_i - window_size),

                                 min(len(st), center_i + 1 + window_size)))

            indices.remove(center_i)  # 将中心词排除在背景词之外

            contexts.append([st[idx] for idx in indices])

    return centers, contexts

下面我们创建一个人工数据集，其中含有词数分别为7和3的两个句子。设最大背景窗口为2，打印所有中心词和它们的背景词。

tiny_dataset = [list(range(7)), list(range(7, 10))]

print('dataset', tiny_dataset)

for center, context in zip(*get_centers_and_contexts(tiny_dataset, 2)):

    print('center', center, 'has contexts', context)

输出：

dataset [[0, 1, 2, 3, 4, 5, 6], [7, 8, 9]]

center 0 has contexts [1, 2]

center 1 has contexts [0, 2, 3]

center 2 has contexts [1, 3]

#...

负采样

我们使用负采样来进行近似训练。对于一对中心词和背景词，我们随机采样\(K\)个噪声词（实验中设\(K=5\)）。根据word2vec论文的建议，噪声词采样概率\(P(w)\)设为\(w\)词频与总词频之比的0.75次方 [2]。

choices(population, weights=None, *, cum_weights=None, k=1)：从population中进行K次随机选取，每次选取一个元素（注意会出现同一个元素多次被选中的情况），weights是相对权重值，population中有几个元素就要有相对应的weights值，cum_weights是累加权重值，例如，相对权重〔10, 5, 30，5〕相当于累积权重〔10, 15, 45，50〕。在内部，在进行选择之前，相对权重被转换为累积权重，因此提供累积权重节省了工作。返回一个列表。

这部分的populiation我一直有点疑问。不过要是想解释得通的话，大概就是：在该数据集中，没有重复的word序列长度为9000多，同时我们已经把它key-value相对应好了，并且sub下存储的是二次采样后的数据集的所对应word的序列。

所以population取值味sampling_weights的长度，而sampling_weights也代表了每个词出现的相对频率。

choices函数，根据相对概率，从population中抽取一个值，总共抽取100,000次，肯定会有重复的数字。

假设矩阵第一行，长度为5，所以本行的噪声词为25个。i = 25

然后来到下一行，长度还是为5，就再接着读取25个。结束时 i = 50。

之后以此类推。。

如果候选词全都被选择完了了，那么重新再生成1e5个。

def get_negatives(all_contexts, sampling_weights, K):

    all_negatives, neg_candidates, i = [], [], 0

    population = list(range(len(sampling_weights)))

    # 1 ～ 9000多

    for contexts in all_contexts:

        negatives = []

        #噪声词是本层长度的5倍！！这不是废话吗！

        #一个中心词会有多个配对的背景词，每个中心词选择5个背景词，那肯定就是5倍咯！

        while len(negatives) < len(contexts) * K:

          	#候选词不够了就补充

            if i == len(neg_candidates):

                # 根据每个词的权重（sampling_weights）随机生成k个词的索引作为噪声词。

                # 为了高效计算，可以将k设得稍大一点

                # candidate：选择100,000个词作为其候选的上下文。 干扰因素 相当于分类问题 0

                i, neg_candidates = 0, random.choices(

                    population, sampling_weights, k=int(1e5))

            #然后在nevigate个数不满足的情况下，从candidate中挑选前T个。最后再加入

            neg, i = neg_candidates[i], i + 1

            # 噪声词不能是背景词

            if neg not in set(contexts):

                negatives.append(neg)

        #最后再加入所有噪声词中，此时len(all_contexts) 对应了 len(all_contexts) * 5

        #即每个中心词对应5个噪声词。

        all_negatives.append(negatives)

    return all_negatives

  #该词词频 ** 0.75

sampling_weights = [counter[w]**0.75 for w in idx_to_token]

all_negatives = get_negatives(all_contexts, sampling_weights, 5)

跳字模型

嵌入层

获取词嵌入的层称为嵌入层，在PyTorch中可以通过创建nn.Embedding实例得到。嵌入层的权重是一个矩阵，其行数为词典大小（num_embeddings），列数为每个词向量的维度（embedding_dim）。我们设词典大小为20，词向量的维度为4。

如果每次取一个batch进行处理的话，那么词典大小也就相当于batchsize了

embed = nn.Embedding(num_embeddings=20, embedding_dim=4)

嵌入层的输入为词的索引。输入一个词的索引\(i\)，嵌入层返回权重矩阵的第\(i\)行作为它的词向量。下面我们将形状为(2, 3)的索引输入进嵌入层，由于词向量的维度为4，我们得到形状为(2, 3, 4)的词向量。

x = torch.tensor([[1, 2, 3], [4, 5, 6]], dtype=torch.long)

embed(x)

跳字模型的前向计算

在前向计算中，跳字模型的输入包含中心词索引center以及连结的背景词与噪声词索。引contexts_and_negatives。其中center变量的形状为(批量大小, 1, 1)，而contexts_and_negatives变量的形状为(批量大小, max_len, 1)。这两个变量先通过词嵌入层分别由词索引变换为词向量，再通过小批量乘法得到形状为(批量大小, 1, max_len)的输出。输出中的每个元素是中心词向量与背景词向量或噪声词向量的内积。

想了我好久一直没明白它们是干嘛使的。好像有点懂了。

先把center转化为词向量，它在转化过程中的参数是随机的，所以尽管它是个300维的向量，结果可能和我们期望的vector表示有很大的区别，所以需要在backpropagation中优化W参数。

与此同时，也要把背景词和噪声词的组合转化为词向量，同样也是300维的。求得两者的内积。

def skip_gram(center, contexts_and_negatives, embed_v, embed_u):

    v = embed_v(center)

    u = embed_u(contexts_and_negatives)

    #permute交换维度

    pred = torch.bmm(v, u.permute(0, 2, 1))

    return pred

损失函数的定义

我们可以通过掩码变量指定小批量中参与损失函数计算的部分预测值和标签：当掩码为1时，相应位置的预测值和标签将参与损失函数的计算；当掩码为0时，相应位置的预测值和标签则不参与损失函数的计算。掩码变量可用于避免填充项对损失函数计算的影响。

class SigmoidBinaryCrossEntropyLoss(nn.Module):

    def __init__(self): # none mean sum

        super(SigmoidBinaryCrossEntropyLoss, self).__init__()

    def forward(self, inputs, targets, mask=None):

        """

        input – Tensor shape: (batch_size, len)

        target – Tensor of the same shape as input

        """

        inputs, targets, mask = inputs.float(), targets.float(), mask.float()

        res = nn.functional.binary_cross_entropy_with_logits(inputs, targets, reduction="none", weight=mask)

        return res.mean(dim=1)

loss = SigmoidBinaryCrossEntropyLoss()

应用词嵌入模型

torch.topk()

torch.topk(input, k, dim=None, largest=True, sorted=True, out=None) -> (Tensor, LongTensor)

沿给定dim维度返回输入张量input中 k 个最大值。

如果不指定dim，则默认为input的最后一维。

如果为largest为 False ，则返回最小的 k 个值。

返回一个元组 (values,indices)，其中indices是原始输入张量input中测元素下标。

如果设定布尔值sorted 为_True_，将会确保返回的 k 个值被排序。

参数:

input (Tensor) – 输入张量

k (int) – “top-k”中的k

dim (int, optional) – 排序的维

largest (bool, optional) – 布尔值，控制返回最大或最小值

sorted (bool, optional) – 布尔值，控制返回值是否排序

out (tuple, optional) – 可选输出张量 (Tensor, LongTensor) output buffer

[ DLPytorch ] word2vec&词嵌入的更多相关文章

L25词嵌入进阶GloVe模型
词嵌入进阶在"Word2Vec的实现"一节中,我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型,并通过词向量的余弦相似度搜索近义词.虽然 Word2Vec 已经能够成 ...
词向量表示：word2vec与词嵌入
在NLP任务中,训练数据一般是一句话(中文或英文),输入序列数据的每一步是一个字母.我们需要对数据进行的预处理是:先对这些字母使用独热编码再把它输入到RNN中,如字母a表示为(1, 0, 0, 0, ...
词嵌入之Word2Vec
词嵌入要解决什么问题在自然语言系统中,词被看作最为基本的单元,如何将词进行向量化表示是一个很基本的问题,词嵌入(word embedding)就是把词映射为低维实数域向量的技术. 下面先介绍几种词的 ...
DeepLearning.ai学习笔记（五）序列模型 -- week2 自然语言处理与词嵌入
一.词汇表征首先回顾一下之前介绍的单词表示方法,即one hot表示法. 如下图示,"Man"这个单词可以用 \(O_{5391}\) 表示,其中O表示One_hot.其他单词同 ...
DLNg序列模型第二周NLP与词嵌入
1.使用词嵌入给了一个命名实体识别的例子,如果两句分别是“orange farmer”和“apple farmer”,由于两种都是比较常见的,那么可以判断主语为人名. 但是如果是榴莲种植员可能就无法 ...
NLP领域的ImageNet时代到来：词嵌入「已死」，语言模型当立
http://3g.163.com/all/article/DM995J240511AQHO.html 选自the Gradient 作者:Sebastian Ruder 机器之心编译计算机视觉领域 ...
ng-深度学习-课程笔记-16: 自然语言处理与词嵌入(Week2)
1 词汇表征(Word representation) 用one-hot表示单词的一个缺点就是它把每个词孤立起来,这使得算法对词语的相关性泛化不强. 可以使用词嵌入(word embedding)来解 ...
词嵌入向量WordEmbedding
词嵌入向量WordEmbedding的原理和生成方法 WordEmbedding 词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用WordEmbedding将一个单 ...
词向量词嵌入 word embedding
词嵌入 word embedding embedding 嵌入 embedding: 嵌入, 在数学上表示一个映射f:x->y, 是将x所在的空间映射到y所在空间上去,并且在x空间中每一个x有y ...

随机推荐

题解 UVA1335 【Beijing Guards】
UVA1335 Beijing Guards 双倍经验:P4409 [ZJOI2006]皇帝的烦恼如果只是一条链,第一个护卫不与最后一个护卫相邻,那么直接贪心,找出最大的相邻数的和. 当变成环,贪心 ...
Flask 教程第二十一章：用户通知
本文翻译自The Flask Mega-Tutorial Part XXI: User Notifications 这是Flask Mega-Tutorial系列的第二十一章,我将添加一个私有消息功能 ...
C/C++内存四区
内存模型图 32位CPU可寻址4G线性空间,每个进程都有各自独立的4G逻辑地址,其中0~3G是用户态空间,3~4G是内核空间,不同进程相同的逻辑地址会映射到不同的物理地址中.其逻辑地址其划分如下: 各 ...
honoka和格点三角形（牛客寒假训练营day1)
可以把面积为1的好三角形分成两类分开统计:两条边和两个坐标轴平行:只有一条边和某个坐标轴平行. 对于第一种情况,一定是1*2或者2*1的形式,一个1*2的矩形中含有4个不同的三角形.总数是4*((n- ...
最小生成树计数模板 hdu 4408
题意是给定n个点,m条边的无向图,求最小生成树的个数对p取模. 用kruscal计算最小生成树时,每次取连接了两个不同联通块的最小的边.也就是先处理d1条c1长度的边,再处理d2条c2长度的边.长度相 ...
寒假安卓app开发学习记录（5）
第一个项目运行成功! 今天主要是看视频 ,学习Android项目的目录结构.大概学习了一个小时左右.然后在网上学习和对比eclipse上的目录,了解每个目录的功能是什么. 了解了Android项目的目 ...
用 async/await 来处理异步（转）
昨天看了一篇vue的教程,作者用async/ await来发送异步请求,从服务端获取数据,代码很简洁,同时async/await 已经被标准化,是时候学习一下了. 先说一下async的用法,它作为一个 ...
iptables详解（3）：增删改存
总结一下iptables规则管理的增删改存命令: 1.添加规则: 1)在指定表的指定链的末尾添加一条规则,-A选项表示在末尾添加,-j表示采取的动作,例如DROP.REJECT.ACCEPT 命令语法 ...
RAID 0实验：mdadm
*独立冗余磁盘阵列---RAID0* RAID0: 把多块物理硬盘设备(至少两块)通过硬件或软件的方式串联在一起, 组成一个大的卷组,并将数据依次写入到各个物理硬盘中.任意一块硬盘发生故障将导致整 ...
python基础教程系列1-基础语法
最近在学习python,主要通过廖雪峰的python教程入门,看看自己能够花多少时间最快入门.通过写博客梳理自己的知识点,强化自己的记忆.总的学习思路是,快速学习一遍教程,然后做一些算法题目实践,再然 ...

[ DLPytorch ] word2vec&词嵌入