深度学习 (DeepLearning) 基础 [2]---神经网络常用的损失函数 Introduce 在上一篇"深度学习 (DeepLearning) 基础 [1]---监督学习和无监督学习"中我们介绍了监督学习和无监督学习相关概念.本文主要介绍神经网络常用的损失函数. 以下均为个人学习笔记,若有错误望指出. 神经网络常用的损失函数 pytorch损失函数封装在torch.nn中. 损失函数反映了模型预测输出与真实值的区别,模型训练的过程即让损失函数不断减小,最终得到可以拟合预测训练样…
一.疑问 二.知识点 1. 损失函数可视化 ​ 损失函数一般都是定义在高维度的空间中,这样要将其可视化就很困难.然而办法还是有的,在1个维度或者2个维度的方向上对高维空间进行切片,例如,随机生成一个权重矩阵,该矩阵就与高维空间中的一个点对应.然后沿着某个维度方向前进的同时记录损失函数值的变化.换句话说,就是生成一个随机的方向并且沿着此方向计算损失值,计算方法是根据不同的值来计算.这个过程将生成一个图表,其x轴是值,y轴是损失函数值.同样的方法还可以用在两个维度上,通过改变来计算损失值,从而给出二…
+ mu) * v # 位置更新变了形式 对于NAG(Nesterov's Accelerated Momentum)的来源和数学公式推导,我们推荐以下的拓展阅读: Yoshua Bengio的Advances in optimizing Recurrent Networks,Section 3.5. Ilya Sutskever's thesis (pdf)在section 7.2对于这个主题有更详尽的阐述. 学习率退火 在训练深度网络的时候,让学习率随着时间退火通常是有帮助的.可以这样理解:…
) # 对数据进行零中心化(重要) cov = np.dot(X.T, X) / X.shape[0] # 得到数据的协方差矩阵 数据协方差矩阵的第(i, j)个元素是数据第i个和第j个维度的协方差.具体来说,该矩阵的对角线上的元素是方差.还有,协方差矩阵是对称和半正定的.我们可以对数据协方差矩阵进行SVD(奇异值分解)运算. U,S,V = np.linalg.svd(cov) U的列是特征向量,S是装有奇异值的1维数组(因为cov是对称且半正定的,所以S中元素是特征值的平方).为了去除数据相…
神经网络推荐博客: 深度学习概述 神经网络基础之逻辑回归 神经网络基础之Python与向量化 浅层神经网络 深层神经网络 前言 首先声明,以下内容绝大部分转自知乎智能单元,他们将官方学习笔记进行了很专业的翻译,在此我会直接copy他们翻译的笔记,有些地方会用红字写自己的笔记,本文只是作为自己的学习笔记.本文内容官网链接:Optimization Note , 1) # 含3个数字的随机输入向量(3x1) h1 = f(np.dot(W1, x) + b1) # 计算第一个隐层的激活数据(4x1)…
import tensorflow as tf from numpy.random import RandomState batch_size = 8 x = tf.placeholder(tf.float32, shape=(None, 2), name="x-input") y_ = tf.placeholder(tf.float32, shape=(None, 1), name='y-input') w1= tf.Variable(tf.random_normal([2, 1],…
回顾上一节中,介绍了图像分类任务中的两个要点: 假设函数.该函数将原始图像像素映射为分类评分值. 损失函数.该函数根据分类评分和训练集图像数据实际分类的一致性,衡量某个具体参数集的质量好坏. 现在介绍第三个要点,也是最后一个关键部分:最优化Optimization.最优化是寻找能使得损失函数值最小化的参数 W 的过程,一旦理解了这三个部分是如何相互运作的,我们将会回到第一个要点,然后将其拓展为一个远比线性函数复杂的函数:首先是神经网络,然后是卷积神经网络.而损失函数和最优化过程这两个部分将会保持…
神经网络入手[上] [x] 神经网络的核心部分 [x] Keras介绍 [ ] 使用Keras解决简单问题:分类和回归 神经网络剖析 神经网络的训练与下列对象相关: 网络层Layers,网络层结合形成神经网络模型: 输入数据以及对应标签: 损失函数,定义用来学习的反馈信号: 优化方法,定义学习过程. 关系图: 网络层堆叠形成网络模型,网络模型由输入数据得到预测值.损失函数比较预测值与实际值,得到损失函数值:用来评估预测结果的好坏:优化方法用损失值来更新网络模型的权重系数. 网络层:神经网络模型的…
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Optimization Note,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,堃堃和李艺颖进行校对修改.译文含公式和代码,建议PC端阅读. 原文如下 内容列表: 简介 损失函数可视化 最优化 策略#1:随机搜索 策略#2:随机局部搜索 策略#3:跟随梯度 译者注:上篇截止处 梯度计算 使用有限差值进行数值计算 微分计算梯度 梯度下降 小结 简介 在上一节中,我们介绍了图像分类任务中的两个关键部分: 基于参数的评…