tensorflow：实战Google深度学习框架第四章01损失函数

深度学习：两个重要特性：多层和非线性

线性模型：任意线性模型的组合都是线性模型，只通过线性变换任意层的全连接神经网络与单层神经网络没有区别。

激活函数：能够实现去线性化（神经元的输出通过一个非线性函数）。

多层神经网络：能够解决异或问题，深度学习有组合特征提取的功能。

使用激活函数和偏置项的前向传播算法

import tensorflow as tf

a = tf.nn.relu(tf.matmul(x,w1) + biases1)

y = tf.nn.relu(tf.matmul(a,w2) + biases2)

常用的激活函数：tf.nn.relu, tf.sigmoid, tf.tanh

二、损失函数（loss faction）

1、经典损失函数：分类问题：交叉熵，回归问题：均方误差

交叉熵：刻画两个概率分布之间的距离，交叉熵越小，概率分布越接近，给定两个概率分布p和q，通过q表示p的交叉熵（概率分布q来表达概率分布p的困难程度，p：正确答案，q：代表预测值）：

神经网络的输出不一定是概率分布，Softmax回归就是将神经网络的输出变成概率分布常用的方法

交叉熵的代码实现：

cross_entropy = -tf.reduce_mean(y_*tf.log(tf.clip_by_value(y,1e-10,1.0)))#y_代表正确结果，y代表预测结果

#第一个运算tf.clip_by_value函数可以将张量的数值限制在一个范围内，这样可以避免一些运算错误

#例如

import tensorflow as tf

sess = tf.Session()

v=tf.constant([[1.0,2.0,3.0],[4.0,5.0,6.0]])

print(tf.clip_by_value(v,2.5,4.5).eval(session=sess))

#输出[[ 2.5  2.5  3. ],[ 4.   4.5  4.5]]，将小于2.5的数替换为2.5,将大于4.5的数替换为4.5

#第二个运算tf.log函数，这个函数完成对张量中所有元素依次取对数。

v = tf.constant([1.0,2.0,3.0])

print(tf.log(v).eval(session=sess))

#输出为[ 0.          0.69314718  1.09861231]

#第三个运算乘法，在交叉熵代码中将矩阵使用“*”操作相乘，这是元素之间直接相乘，矩阵乘法需要tf.matmul函数完成

v1 = tf.constant([[1.0,2.0],[3.0,4.0]])

v2 = tf.constant([[5.0,6.0],[7.0,8.0]])

print((v1 * v2).eval(session=sess))#元素相乘

#输出为[[  5.  12.] [ 21.  32.]]

print(tf.matmul(v1,v2).eval(session=sess))#矩阵相乘

#输出[[ 19.  22.] [ 43.  50.]]

#前三步结果为：n*m的矩阵，其中n为一个batch的样例数量，m为分类的类别数量。根据交叉熵公式，要将每行m个结果相加得到所有样例的交叉熵，再对这n行取平均得到一个batch的平均交叉熵

#由于分类问题类别不变

sess.close()

配合softmax函数使用：

cross_entropy = tf.nn.softmax_cross_entropy_with_logits(y,y_)

若只有一个正确答案，使用下面函数加速计算：

cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(y,y_)

回归问题解决的是具体数值的预测，一般只有一个输出节点，最常用的损失函数是均方误差（MSE）：

代码实现：

mse = tf.reduce_mean(tf.square(y_-y))

2、自定义损失函数

# 不同的损失函数会对训练模型产生重要影响

import tensorflow as tf

from numpy.random import RandomState

# 1. 定义神经网络的相关参数和变量

batch_size = 8

x = tf.placeholder(tf.float32, shape=(None, 2), name="x-input")

y_ = tf.placeholder(tf.float32, shape=(None, 1), name='y-input')

w1= tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1))

y = tf.matmul(x, w1)

# 2. 设置自定义的损失函数

# 定义损失函数使得预测少了的损失大，于是模型应该偏向多的方向预测。

loss_less = 10

loss_more = 1

loss = tf.reduce_sum(tf.where(tf.greater(y, y_), (y - y_) * loss_more, (y_ - y) * loss_less))

train_step = tf.train.AdamOptimizer(0.001).minimize(loss)

# 3. 生成模拟数据集

rdm = RandomState(1)

X = rdm.rand(128,2)

Y = [[x1+x2+(rdm.rand()/10.0-0.05)] for (x1, x2) in X]

# 4. 训练模型

with tf.Session() as sess:

    init_op = tf.global_variables_initializer()

    sess.run(init_op)

    STEPS = 5000

    for i in range(STEPS):

        start = (i*batch_size) % 128

        end = (i*batch_size) % 128 + batch_size

        sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})

        if i % 1000 == 0:

            print("After %d training step(s), w1 is: " % (i))

            print(sess.run(w1), "\n")

    print("[loss_less=10 loss_more=1] Final w1 is: \n", sess.run(w1))

'''

After 0 training step(s), w1 is:

[[-0.81031823]

 [ 1.4855988 ]] 

After 1000 training step(s), w1 is:

[[ 0.01247113]

 [ 2.13854504]] 

After 2000 training step(s), w1 is:

[[ 0.45567426]

 [ 2.17060685]] 

After 3000 training step(s), w1 is:

[[ 0.69968736]

 [ 1.84653103]] 

After 4000 training step(s), w1 is:

[[ 0.89886677]

 [ 1.29736042]] 

[loss_less=10 loss_more=1] Final w1 is:

 [[ 1.01934707]

 [ 1.04280913]]

 '''

# 5. 重新定义损失函数，使得预测多了的损失大，于是模型应该偏向少的方向预测

loss_less = 1

loss_more = 10

loss = tf.reduce_sum(tf.where(tf.greater(y, y_), (y - y_) * loss_more, (y_ - y) * loss_less))

train_step = tf.train.AdamOptimizer(0.001).minimize(loss)

with tf.Session() as sess:

    init_op = tf.global_variables_initializer()

    sess.run(init_op)

    STEPS = 5000

    for i in range(STEPS):

        start = (i*batch_size) % 128

        end = (i*batch_size) % 128 + batch_size

        sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})

        if i % 1000 == 0:

            print("After %d training step(s), w1 is: " % (i))

            print(sess.run(w1), "\n")

    print("[loss_less=1 loss_more=10] Final w1 is: \n", sess.run(w1))

'''

After 0 training step(s), w1 is:

[[-0.81231821]

 [ 1.48359871]] 

After 1000 training step(s), w1 is:

[[ 0.18643527]

 [ 1.07393336]] 

After 2000 training step(s), w1 is:

[[ 0.95444274]

 [ 0.98088616]] 

After 3000 training step(s), w1 is:

[[ 0.95574027]

 [ 0.9806633 ]] 

After 4000 training step(s), w1 is:

[[ 0.95466018]

 [ 0.98135227]] 

[loss_less=1 loss_more=10] Final w1 is:

 [[ 0.95525807]

 [ 0.9813394 ]]

'''

# 6. 定义损失函数为MSE

loss = tf.losses.mean_squared_error(y, y_)

train_step = tf.train.AdamOptimizer(0.001).minimize(loss)

with tf.Session() as sess:

    init_op = tf.global_variables_initializer()

    sess.run(init_op)

    STEPS = 5000

    for i in range(STEPS):

        start = (i*batch_size) % 128

        end = (i*batch_size) % 128 + batch_size

        sess.run(train_step, feed_dict={x: X[start:end], y_: Y[start:end]})

        if i % 1000 == 0:

            print("After %d training step(s), w1 is: " % (i))

            print(sess.run(w1), "\n")

    print("[losses.mean_squared_error]Final w1 is: \n", sess.run(w1))

'''

After 0 training step(s), w1 is:

[[-0.81031823]

 [ 1.4855988 ]] 

After 1000 training step(s), w1 is:

[[-0.13337614]

 [ 1.81309223]] 

After 2000 training step(s), w1 is:

[[ 0.32190299]

 [ 1.52463484]] 

After 3000 training step(s), w1 is:

[[ 0.67850214]

 [ 1.25297272]] 

After 4000 training step(s), w1 is:

[[ 0.89473999]

 [ 1.08598232]] 

[losses.mean_squared_error]Final w1 is:

 [[ 0.97437561]

 [ 1.0243336 ]]

'''

tensorflow：实战Google深度学习框架第四章01损失函数的更多相关文章

tensorflow：实战Google深度学习框架第四章02神经网络优化（学习率，避免过拟合，滑动平均模型）
1.学习率的设置既不能太小,又不能太大,解决方法:使用指数衰减法例如: 假设我们要最小化函数 y=x2y=x2, 选择初始点 x0=5x0=5 1. 学习率为1的时候,x在5和-5之间震荡. im ...
Tensorflow 实战Google深度学习框架第五章 5.2.1Minister数字识别源代码
import os import tab import tensorflow as tf print "tensorflow 5.2 " from tensorflow.examp ...
[Tensorflow实战Google深度学习框架]笔记4
本系列为Tensorflow实战Google深度学习框架知识笔记,仅为博主看书过程中觉得较为重要的知识点,简单摘要下来,内容较为零散,请见谅. 2017-11-06 [第五章] MNIST数字识别问题 ...
1 如何使用pb文件保存和恢复模型进行迁移学习（学习Tensorflow 实战google深度学习框架）
学习过程是Tensorflow 实战google深度学习框架一书的第六章的迁移学习环节. 具体见我提出的问题:https://www.tensorflowers.cn/t/5314 参考https:/ ...
TensorFlow+实战Google深度学习框架学习笔记（5）----神经网络训练步骤
一.TensorFlow实战Google深度学习框架学习 1.步骤: 1.定义神经网络的结构和前向传播的输出结果. 2.定义损失函数以及选择反向传播优化的算法. 3.生成会话(session)并且在训 ...
学习《TensorFlow实战Google深度学习框架 (第2版) 》中文PDF和代码
TensorFlow是谷歌2015年开源的主流深度学习框架,目前已得到广泛应用.<TensorFlow:实战Google深度学习框架(第2版)>为TensorFlow入门参考书,帮助快速. ...
TensorFlow实战Google深度学习框架-人工智能教程-自学人工智能的第二天-深度学习
自学人工智能的第一天 "TensorFlow 是谷歌 2015 年开源的主流深度学习框架,目前已得到广泛应用.本书为 TensorFlow 入门参考书,旨在帮助读者以快速.有效的方式上手 T ...
TensorFlow实战Google深度学习框架1-4章学习笔记
目录第1章深度学习简介第2章 TensorFlow环境搭建第3章 TensorFlow入门第4章深层神经网络第1章深度学习简介对于许多机器学习问题来说,特征提取不是一件简单的事情 ...
TensorFlow实战Google深度学习框架10-12章学习笔记
目录第10章 TensorFlow高层封装第11章 TensorBoard可视化第12章 TensorFlow计算加速第10章 TensorFlow高层封装目前比较流行的TensorFlow ...

随机推荐

jquery特效（2）—选项卡
最近公司有个页面正好用到了选项卡,我就写了一下,感觉还不错,都挺简单的. 下面来看动态效果: 一.主体程序 <!DOCTYPE html> <html> <head> ...
CentOS（Linux） - 安装软件笔记（总） - 开发环境安装顺序及汇总
1.安装java环境参考文章 CentOS7.1 使用资源搜集 2.需要可视化管理服务器时,需要先安装VPSmate 参考文章 CentOS(Linux) - 安装软件笔记(一) - VPSMate ...
Educational Codeforces Round 2 C. Make Palindrome —— 贪心 + 回文串
题目链接:http://codeforces.com/contest/600/problem/C C. Make Palindrome time limit per test 2 seconds me ...
ffmpeg 的一些学习网站
http://blog.csdn.net/leixiaohua1020/article/category/1360795 雷霄骅(leixiaohua1020)的专栏 http://dranger.c ...
ios 使用json
1.从https://github.com/stig/json-framework/中下载json框架:json-framework 2.解压下载的包,将class文件夹下的所有文件导入到当前工程下. ...
用php描述二分查找法
//二分查找 $arr = array(0,1,2,3,4,5,6,7,8,9); function bin_sch($array, $low, $high, $k){ if ($low <= ...
Persistent connections CONN_MAX_AGE django
Persistent connections¶ Persistent connections avoid the overhead of re-establishing a connection to ...
利用Powershell在IIS上自动化部署网站
本文主要讲如何通过Powershell在IIS上自动化部署ASP.NET网站,而不涉及Powershell的基本语法,如果没有Powershell基础的同学也可以把本文作为学习Powershell的基 ...
hibernate 学习五 hibernate核心接口
一 Configuration接口 Configuration对象只存在于系统的初始化阶段.配置相关. 配置文件可以使用默认的路径,也可以指定路径. Configuration config = ne ...
linux中消息队列<一>
1 概念 (1)链表式结构组织,存放于内核. (2)通过队列标识来引用. (3)通过一个消息类型来索引指定的数据 2 创建消息队列 #include <sys/msg.h> int msg ...

tensorflow：实战Google深度学习框架第四章01损失函数

tensorflow：实战Google深度学习框架第四章01损失函数的更多相关文章

随机推荐

热门专题