问题描述

这几天在用TensorFlow搭建一个神经网络来做一个binary classifier,搭建一个典型的神经网络的基本思路是:

  • 定义神经网络的layers(层)以及初始化每一层的参数
  • 然后迭代:
    • 前向传播(Forward propagation)
    • 计算cost(Compute cost)
    • 反向传播(Backward propagation)
    • 更新参数(Update parameters)
  • 使用训练好的参数去做预测

在训练的时候发现了一个很奇怪的现象:每一次迭代所有的cost都为0。一开始以为是参数初始化出了问题,花了好多时间在上面。后来仔细研究了一下发现是最后一层的输出函数用错了,我用的是tf.nn.softmax_cross_entropy_with_logits来计算cost。 我们知道softmax一般是用来做multiclass classifier的,也就是输出的类别要大于两个。对于一个binary classifier而言,很明显我们要用sigmoid函数也就是tf.nn.sigmoid_cross_entropy_with_logits来计算cost,于是问题解决。

为什么?

那么为什么在binary classifier中使用了softmax之后cost就一直是0呢?我们先来看一下softmax的公式:

s(z)j=ezj∑Kk=1ezks(z)j=ezj∑k=1Kezk

  • binary classifier的output是一维的(one-dimension 0/1),那么如果只有一个元素,那么s(z)就永远等于1,不管z的值是多少。
  • 恒定输出1之后,我们结合交叉熵的计算公式可知:
    • 如果true label是0,那么 -0*log(1) = 0
    • 如果true label是1,那么 -1*log(1) = 0

Tensorflow函数:tf.nn.softmax_cross_entropy_with_logits 讲解

 

首先把Tensorflow英文API搬过来:

tf.nn.softmax_cross_entropy_with_logits(_sentinel=None, labels=None, logits=None, dim=-1, name=None)

Computes softmax cross entropy between logits and labels.

Measures the probability error in discrete classification tasks in which the classes are mutually exclusive (each entry is in exactly one class). For example, each CIFAR-10 image is labeled with one and only one label: an image can be a dog or a truck, but not both.

NOTE: While the classes are mutually exclusive, their probabilities need not be. All that is required is that each row oflabels is a valid probability distribution. If they are not, the computation of the gradient will be incorrect.

If using exclusive labels (wherein one and only one class is true at a time), seesparse_softmax_cross_entropy_with_logits.

WARNING: This op expects unscaled logits, since it performs a softmax on logits internally for efficiency. Do not call this op with the output of softmax, as it will produce incorrect results.

logits and labels must have the same shape [batch_size, num_classes] and the same dtype (either float16,float32, or float64).

Note that to avoid confusion, it is required to pass only named arguments to this function.

Args:

  • _sentinel: Used to prevent positional parameters. Internal, do not use.
  • labels: Each row labels[i] must be a valid probability distribution.
  • logits: Unscaled log probabilities.
  • dim: The class dimension. Defaulted to -1 which is the last dimension.
  • name: A name for the operation (optional).

这个函数至少需要两个参数:labels, logits.

labels:为神经网络期望的输出

logits:为神经网络最后一层的输出

警告:这个函数内部自动计算softmax,然后再计算交叉熵代价函数,也就是说logits必须是没有经过tf.nn.softmax函数处理的数据,否则导致训练结果有问题。建议编程序时使用这个函数,而不必自己编写交叉熵代价函数。

下面是两层CNN识别mnist的softmax回归实验:

  1. #coding=utf-8
  2. import tensorflow as tf
  3. from tensorflow.examples.tutorials.mnist import input_data
  4. mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
  5. def compute_accuracy(v_xs,v_ys):
  6. global prediction
  7. y_pre=sess.run(prediction,feed_dict={xs:v_xs,keep_prob:1}) #这里的keep_prob是保留概率,即我们要保留的RELU的结果所占比例
  8. correct_prediction=tf.equal(tf.argmax(y_pre,1),tf.argmax(v_ys,1))
  9. accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
  10. result=sess.run(accuracy,feed_dict={xs:v_xs,ys:v_ys,keep_prob:1})
  11. return result
  12. def weight_variable(shape):
  13. inital=tf.truncated_normal(shape,stddev=0.1)     #stddev爲標準差
  14. return tf.Variable(inital)
  15. def bias_variable(shape):
  16. inital=tf.constant(0.1,shape=shape)
  17. return tf.Variable(inital)
  18. def conv2d(x,W):    #x爲像素值,W爲權值
  19. #strides[1,x_movement,y_movement,1]
  20. #must have strides[0]=strides[3]=1
  21. #padding=????
  22. return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='SAME')#
  23. def max_pool_2x2(x):
  24. # strides[1,x_movement,y_movement,1]
  25. return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')#ksize二三维为池化窗口
  26. #define placeholder for inputs to network
  27. xs=tf.placeholder(tf.float32,[None,784])/255
  28. ys=tf.placeholder(tf.float32,[None,10])
  29. keep_prob=tf.placeholder(tf.float32)
  30. x_image=tf.reshape(xs, [-1,28,28,1]) #-1为这个维度不确定,变成一个4维的矩阵,最后为最里面的维数
  31. #print x_image.shape                 #最后这个1理解为输入的channel,因为为黑白色所以为1
  32. ##conv1 layer##
  33. W_conv1=weight_variable([5,5,1,32]) #patch 5x5,in size 1 是image的厚度,outsize 32 是提取的特征的维数
  34. b_conv1=bias_variable([32])
  35. h_conv1=tf.nn.relu(conv2d(x_image,W_conv1)+b_conv1)# output size 28x28x32 因为padding='SAME'
  36. h_pool1=max_pool_2x2(h_conv1)      #output size 14x14x32
  37. ##conv2 layer##
  38. W_conv2=weight_variable([5,5,32,64]) #patch 5x5,in size 32 是conv1的厚度,outsize 64 是提取的特征的维数
  39. b_conv2=bias_variable([64])
  40. h_conv2=tf.nn.relu(conv2d(h_pool1,W_conv2)+b_conv2)# output size 14x14x64 因为padding='SAME'
  41. h_pool2=max_pool_2x2(h_conv2)      #output size 7x7x64
  42. ##func1 layer##
  43. W_fc1=weight_variable([7*7*64,1024])
  44. b_fc1=bias_variable([1024])
  45. #[n_samples,7,7,64]->>[n_samples,7*7*64]
  46. h_pool2_flat=tf.reshape(h_pool2,[-1,7*7*64])
  47. h_fc1=tf.nn.relu(tf.matmul(h_pool2_flat,W_fc1)+b_fc1)
  48. h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob)  #防止过拟合
  49. ##func2 layer##
  50. W_fc2=weight_variable([1024,10])
  51. b_fc2=bias_variable([10])
  52. #prediction=tf.nn.softmax(tf.matmul(h_fc1_drop,W_fc2)+b_fc2)
  53. prediction=tf.matmul(h_fc1_drop,W_fc2)+b_fc2
  1. #h_fc1_drop=tf.nn.dropout(h_fc1,keep_prob)  #防止过拟合
  2. #the errro between prediction and real data
  3. #cross_entropy = tf.reduce_mean(-tf.reduce_sum(ys*tf.log(prediction),reduction_indices=[1]))
  1. cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=ys, logits=prediction)
  2. train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
  3. sess=tf.Session()
  4. sess.run(tf.global_variables_initializer())
  5. for i in range(1000):
  6. batch_xs,batch_ys=mnist.train.next_batch(100)
  7. sess.run(train_step,feed_dict={xs:batch_xs,ys:batch_ys,keep_prob:0.5})
  8. if i%50 ==0:
  9. accuracy = 0
  10. for j in range(10):
  11. test_batch = mnist.test.next_batch(1000)
  12. acc_forone=compute_accuracy(test_batch[0], test_batch[1])
  13. #print 'once=%f' %(acc_forone)
  14. accuracy=acc_forone+accuracy
  15. print '测试结果:batch:%g,准确率:%f' %(i,accuracy/10)

实验结果为:

  1. 测试结果:batch:0,准确率:0.090000
  2. 测试结果:batch:50,准确率:0.788600
  3. 测试结果:batch:100,准确率:0.880200
  4. 测试结果:batch:150,准确率:0.904600
  5. 测试结果:batch:200,准确率:0.927500
  6. 测试结果:batch:250,准确率:0.929800
  7. 测试结果:batch:300,准确率:0.939600
  8. 测试结果:batch:350,准确率:0.942100
  9. 测试结果:batch:400,准确率:0.950600
  10. 测试结果:batch:450,准确率:0.950700
  11. 测试结果:batch:500,准确率:0.956700
  12. 测试结果:batch:550,准确率:0.956000
  13. 测试结果:batch:600,准确率:0.957100
  14. 测试结果:batch:650,准确率:0.958400
  15. 测试结果:batch:700,准确率:0.961500
  16. 测试结果:batch:750,准确率:0.963800
  17. 测试结果:batch:800,准确率:0.965000
  18. 测试结果:batch:850,准确率:0.966300
  19. 测试结果:batch:900,准确率:0.967800
  20. 测试结果:batch:950,准确率:0.967700

迭代次数没有太多,否则准确率还会提高。

TensorFlow训练神经网络cost一直为0的更多相关文章

  1. 吴裕雄 python 神经网络——TensorFlow训练神经网络:不使用滑动平均

    import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NODE = 784 ...

  2. 吴裕雄 python 神经网络——TensorFlow训练神经网络:不使用隐藏层

    import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NODE = 784 ...

  3. 吴裕雄 python 神经网络——TensorFlow训练神经网络:不使用激活函数

    import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NODE = 784 ...

  4. 吴裕雄 python 神经网络——TensorFlow训练神经网络:不使用指数衰减的学习率

    import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NODE = 784 ...

  5. 吴裕雄 python 神经网络——TensorFlow训练神经网络:不使用正则化

    import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NODE = 784 ...

  6. 吴裕雄 python 神经网络——TensorFlow训练神经网络:全模型

    import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_NODE = 784 ...

  7. 吴裕雄 python 神经网络——TensorFlow训练神经网络:花瓣识别

    import os import glob import os.path import numpy as np import tensorflow as tf from tensorflow.pyth ...

  8. 吴裕雄 python 神经网络——TensorFlow训练神经网络:MNIST最佳实践

    import os import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data INPUT_N ...

  9. Tensorflow训练神经网络

    以下代码摘自<Tensorflow实战Google 深度学习框架>. 由于这段代码包含了激活函数去线性化,多层神经网络,指数衰减学习率,正则化防止过拟合,滑动平均稳定模型等手段,涵盖了神经 ...

随机推荐

  1. ubuntu ifconfig只有lo没有ens33的问题

    如果ifconfig只显示了lo, ifconfig -a 却正常显示ens33.那么可以按照如下的操作: service network-manager stop rm /var/lib/Netwo ...

  2. Win10解决无法访问其他机器共享的问题

    Win10解决无法访问其他机器共享的问题     你不能访问此共享文件夹,因为你组织的安全策略阻止未经身份验证的来宾访问.这些策略可帮助保护你的电脑免受网络上不安全设备或恶意设备的威胁. 管理员身份执 ...

  3. spring RequestMapping 包含http的部分以及各部分详解

    @RequestMapping有四个参数,分别为:1.value:表示请求URL2.method:表示请求方法3.params:表示请求参数4.headers:表示请求头 [例如]:@RequestM ...

  4. OpenNI2 + NiTE2开发教程

    发现了一个非常不错的关于自然交互OpeNI2+NiTE2的资源,非常感谢Heresy,这里分享链接: OpenNI 2.x 教学文章(转载自:Heresy博客,地址:https://kheresy.w ...

  5. POP3_收取QQ邮箱邮件的问题

    今天纠结了一天的时间,使用pop3协议收取qq邮箱中邮件时,因为一个特别坑爹的问题重新写n次,最后发现是因为qq邮箱设置了独立邮箱密码,必须的用独立邮箱密码登陆才行,/(ㄒoㄒ)/~~!!!! 但今天 ...

  6. FireDAC 下的 Sqlite [12] - 备忘录(草草结束这个话题了)

    该话题的继续延伸主要就是 SQL 的语法了, 草草收场的原因是现在的脑筋已经进入了 IntraWeb 的世界. 相关备忘会随时补充在下面: //连接多个数据库的参考代码: FDConnection1. ...

  7. USBDM Coldfire V2,3,4/DSC/Kinetis Debugger and Programmer -- MC9S08JS16

    Introduction The attached files provide a port of a combined TBLCF/DSC code to a MC9S08JS16 processo ...

  8. 【Oracle】-【LRU和DBWR】-LRU算法与DBWR中的应用

    Oracle体系结构中经常看到LRU算法,Least Recently Used,也有叫“最近最少使用页面置换算法”,简单讲,Oracle会将内存中最近不用的数据库移出内存以腾出空间来加载另外的数据. ...

  9. 看opengl 写代码(4) 画一个圆

    opengl 编程指南 P30 以下代码 是 用 直线 连起来 画一个圆. // circle.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" ...

  10. Java进程线程理解

    一个进程包括由操作系统分配的内存空间,包含一个或多个线程.一个线程不能独立的存在,它必须是进程的一部分.一个进程一直运行,直到所有的非守护线程都结束运行后才能结束. 多线程能满足程序员编写高效率的程序 ...