Tf中的NCE-loss实现学习【转载】

转自：http://www.jianshu.com/p/fab82fa53e16

1.tf中的nce_loss的API

def nce_loss(weights, biases, inputs, labels, num_sampled, num_classes,

             num_true=1,

             sampled_values=None,

             remove_accidental_hits=False,

             partition_strategy="mod",

             name="nce_loss")

假设nce_loss之前的输入数据是K维的，一共有N个类，那么

weight.shape = (N, K)
bias.shape = (N)
inputs.shape = (batch_size, K)
labels.shape = (batch_size, num_true)
num_true : 实际的正样本个数
num_sampled: 采样出多少个负样本
num_classes = N
sampled_values: 采样出的负样本，如果是None，就会用不同的sampler去采样。待会儿说sampler是什么。
remove_accidental_hits: 如果采样时不小心采样到的负样本刚好是正样本，要不要干掉
partition_strategy：对weights进行embedding_lookup时并行查表时的策略。TF的embeding_lookup是在CPU里实现的，这里需要考虑多线程查表时的锁的问题。

nce_loss的实现逻辑如下：

_compute_sampled_logits: 通过这个函数计算出正样本和采样出的负样本对应的output和label
sigmoid_cross_entropy_with_logits: 通过 sigmoid cross entropy来计算output和label的loss，从而进行反向传播。这个函数把最后的问题转化为了num_sampled+num_real个两类分类问题，然后每个分类问题用了交叉熵的损伤函数，也就是logistic regression常用的损失函数。TF里还提供了一个softmax_cross_entropy_with_logits的函数，和这个有所区别。

2.tf中word2vec实现

loss = tf.reduce_mean(

      tf.nn.nce_loss(nce_weights, nce_biases, embed, train_labels,

                     num_sampled, vocabulary_size))

它这里并没有传sampled_values，那么它的负样本是怎么得到的呢？继续看nce_loss的实现，可以看到里面处理sampled_values=None的代码如下：

if sampled_values is None:

      sampled_values = candidate_sampling_ops.log_uniform_candidate_sampler(

          true_classes=labels,

          num_true=num_true,

          num_sampled=num_sampled,

          unique=True,

          range_max=num_classes)

所以，默认情况下，他会用log_uniform_candidate_sampler去采样。那么log_uniform_candidate_sampler是怎么采样的呢？他的实现在这里：

他会在[0, range_max)中采样出一个整数k
P(k) = (log(k + 2) - log(k + 1)) / log(range_max + 1)

可以看到，k越大，被采样到的概率越小。那么在TF的word2vec里，类别的编号有什么含义吗？看下面的代码：

def build_dataset(words):

  count = [['UNK', -1]]

  count.extend(collections.Counter(words).most_common(vocabulary_size - 1))

  dictionary = dict()

  for word, _ in count:

    dictionary[word] = len(dictionary)

  data = list()

  unk_count = 0

  for word in words:

    if word in dictionary:

      index = dictionary[word]

    else:

      index = 0  # dictionary['UNK']

      unk_count += 1

    data.append(index)

  count[0][1] = unk_count

  reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))

  return data, count, dictionary, reverse_dictionary

可以看到，TF的word2vec实现里，词频越大，词的类别编号也就越小。因此，在TF的word2vec里，负采样的过程其实就是优先采词频高的词作为负样本。

在提出负采样的原始论文中, 包括word2vec的原始C++实现中。是按照热门度的0.75次方采样的，这个和TF的实现有所区别。但大概的意思差不多，就是越热门，越有可能成为负样本。

Tf中的NCE-loss实现学习【转载】的更多相关文章

tf中的run()与eval()【转载】
转自:https://blog.csdn.net/jiaoyangwm/article/details/79248535 1.eval() 其实就是tf.Tensor的Session.run() 的 ...
tf中计算图执行流程学习【转载】
转自:https://blog.csdn.net/dcrmg/article/details/79028003 https://blog.csdn.net/qian99/article/details ...
Java多线程学习(转载)
Java多线程学习(转载) 时间:2015-03-14 13:53:14 阅读:137413 评论:4 收藏:3 [点我收藏+] 转载 :http://blog ...
项目中使用Quartz集群分享--转载
项目中使用Quartz集群分享--转载在公司分享了Quartz,发布出来,希望大家讨论补充. CRM使用Quartz集群分享一:CRM对定时任务的依赖与问题二:什么是quartz,如何使用, ...
浅谈Java中的深拷贝和浅拷贝（转载）
浅谈Java中的深拷贝和浅拷贝(转载) 原文链接: http://blog.csdn.net/tounaobun/article/details/8491392 假如说你想复制一个简单变量.很简单: ...
ArcGIS中的坐标系定义与转换 (转载）
原文:ArcGIS中的坐标系定义与转换 (转载) 1.基准面概念: GIS中的坐标系定义由基准面和地图投影两组参数确定,而基准面的定义则由特定椭球体及其对应的转换参数确定,因此欲正确定义GIS系统坐 ...
如何设置Win7系统中的上帝模式GodMode（转载）
如何设置Win7系统中的上帝模式GodMode(转载) NT6系统中隐藏了一个秘密的“GodMode”,字面上译为“上帝模式”.God Mode其实就是一个简单的文件夹窗口,但包含了几乎所有系统的设置 ...
TF中conv2d和kernel_initializer方法
conv2d中的padding 在使用TF搭建CNN的过程中,卷积的操作如下 convolution = tf.nn.conv2d(X, filters, strides=[1,2,2,1], pad ...
(原)关于MEPG-2中的TS流数据格式学习
关于MEPG-2中的TS流数据格式学习 Author:lihaiping1603 原创:http://www.cnblogs.com/lihaiping/p/8572997.html 本文主要记录了, ...

随机推荐

spring框架排错
1.格式错误. http://www.springframework.org/schema/mvc http://www.springframework.org/schema/mvc/sp ...
day_10py 简单地名字管理系统
#!/usr/bin/env/python #-*-coding:utf-8-*- ''' 名字管理系统做程序迭代,由点到面一点一点来 ''' # 1.打印功能提示 print("=&qu ...
Men and women can't be 'just friends
Men and women can't be 'just friends' Can heterosexual men and women ever be "just friends" ...
GIAC深圳站 | 2018年不可错过的全球互联网架构大会！
2018年6月1~2日,GIAC 全球互联网架构大会将于深圳华侨城洲际酒店举行!GIAC全球互联网架构大会是由msup和高可用架构技术社区联合举办的面向架构师.技术负责人及高端技术从业人员的技术架构大 ...
终于知道什么情况下需要实现.NET Core中的IOptions接口
自从接触 IOptions 之后,一直纠结这样的问题:自己定义的 Options 要不要实现 IOptions 接口. 微软有的项目中实现了,比如 Caching 中的 MemoryCacheOpti ...
POJ 2259 - Team Queue - [队列的邻接表]
题目链接:http://poj.org/problem?id=2259 Queues and Priority Queues are data structures which are known t ...
HDU 4347 - The Closest M Points - [KDTree模板题]
本文参考: https://www.cnblogs.com/GerynOhenz/p/8727415.html kuangbin的ACM模板(新) 题目链接:http://acm.hdu.edu.cn ...
Spring <context:annotation-config> 与<context-component-scan> 的作用
<context:annotation-config> 与<context-component-scan> 的作用 <context:annotation-config& ...
【瞎搞题】gym226123 L. For the Honest Election
http://codeforces.com/gym/226123/problem/L 题解:手摸几组数据,发现一个规律:将n 质因数分解,答案就是每个质因数/2+1后再乘起来. 然后考虑2的情况: ...
Python使用xml.dom解析xml
在菜鸟教程上找了个关于电影信息的xml类型的文档,用python内置的xml.dom来解析提取一下信息. 先复习一下xml概念: XML 指可扩展标记语言(EXtensible Markup Lang ...