cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记

1. Loss function是用来量化评估当前预测的好坏，loss function越小表明预测越好。

几种典型的loss function：

1）Multiclass SVM loss：一般的SVM是针对0、1两类标签，现在是把它拓展到n类标签。它的物理意义是：现在要预测一个样本的标签，根据之前训练出的权重求出这个样本在所有标签的得分，正确的标签的得分如果大于其他标签的得分（往往还会加一个safety margin，就是要求要足够大），则loss function不增加；否则loss function就会增加其他标签的得分超过正确标签的得分的差值。这种loss function的取值从0到无穷大。在初始化训练的时候，权重W往往被设计成很小的随机数，所以计算出的每个标签的得分都接近0，在这种情况下，如果标签数为n，正确的标签和其他标签比较了n-1次，每次比较的得分差值都小于safety margin（假设safety margin是1），则loss function的值为n-1，

2） Softmax (cross-entropy) loss ：在深度学习里很常用。把计算出的分数带入到softmax函数里，这个描述了“概率”，最终的loss function就是对softmax函数取负log。这里的概率加了引号是因为这只是一种对0~1之间取值且累加和为1的变量的诠释。事实上，当正则化项的权重增加时，优化出的W会变小，对于每个类别softmax loss会更接近。所以softmax loss对不同类别的排序才重要，具体数值并不重要。

两种loss funciton的实际表现差不多，不同的人有不同偏好。这两种loss function的差别，对于SVM loss来说，标签贴对就可以了，继续增加得分并不会减小loss，因为反正都已经取0了；但对于Softmax loss来说，正确标签的得分越高越好，错误标签的得分越低越好。

2. 正则化（Regularization）。同样的loss值会对应很多组不同的权重W，正则化描述了对参数的某种偏好，例如奥卡姆剃刀原则。这时候Loss function = Data loss + Regularzation。可以这么理解正则化：比如用多项式拟合数据，有两种方式抑制过拟合，一种是直接限定多项式的次数，另一种是不限定次数，但是在loss function里增加跟次数相关的一项，它会使算法更倾向于找低次数的多项式。正则化就是后一种方式。正则化可以帮助解决过拟合的问题。一般正则化项只包含W，不包含b。

3. 优化的关键是求导，有两种方式求导，一是数值方法，二是解析方法。实际应用中，用解析的方式求导，用数值的方式验证求导是否正确。每一步的迭代距离（learning rate）是hyperparameter，需要提前设定，Justin Johson说他调参的时候永远是最先检查learning rate是否大体正确。

4. Stochastic Gradient Descent （SGD）：loss function是所有特征相加，当特征非常多的时候，计算就会很慢（比如图像，每个像素都是一个特征），这时候可以用一个子集（一般32/64/128个特征）来计算。

5. 图像特征：

1）Color Histogram，评估各种颜色在图像中的比重。

2）Histogram of Oriented Gradients (HoG)，把图像分成一个个小方格，在每个小方格内提取边，设定边有9种朝向，评估图像局部的边界特征。物体识别中很有用。

3）Bags of Words，把图像分成一个个小方格（或者提取特征点后在特征点附近取小方格），每个方格可以用一个编码来描述，编码需要自己设计，所有的编码组成一个词典。这是从自然语言处理中衍生过来的。

cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记的更多相关文章

cs231n spring 2017 lecture3 Loss Functions and Optimization
1. Loss function是用来量化评估当前预测的好坏,loss function越小表明预测越好. 几种典型的loss function: 1)Multiclass SVM loss:一般的S ...
cs231n spring 2017 lecture7 Training Neural Networks II 听课笔记
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture6 Training Neural Networks I 听课笔记
1. 激活函数: 1)Sigmoid,σ(x)=1/(1+e-x).把输出压缩在(0,1)之间.几个问题:(a)x比较大或者比较小(比如10,-10),sigmoid的曲线很平缓,导数为0,在用链式法 ...
cs231n spring 2017 lecture4 Introduction to Neural Networks 听课笔记
1. Backpropagation:沿着computational graph利用链式法则求导.每个神经元有两个输入x.y,一个输出z,好多层这种神经元连接起来,这时候已知∂L/∂z,可以求出∂L/ ...
cs231n spring 2017 lecture9 CNN Architectures 听课笔记
参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的sh ...
cs231n spring 2017 lecture9 CNN Architectures
参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的sh ...
CS231n笔记 Lecture 3 Loss Functions and Optimization
这一讲总体上就是引入Loss Function的概念,以及让大家对优化有一个初步的认识,和其他课程里面说的内容大同小异. Loss function Multiclass svm loss multi ...
cs231n spring 2017 lecture13 Generative Models 听课笔记
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture11 Detection and Segmentation 听课笔记
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种"Unpooling"." ...

随机推荐

mongodb命令行基础语法
首先是安装并配置mongodb,这个请自行百度,安装完成后打开cmd命令输入mongo.我们现在先做一个例子吧,假设有一个班级叫c1,里面有若干个人,里面的人有姓名.年龄.性别和班级,我们分别对他们进 ...
apache泛域名解析
<VirtualHost *:80> DocumentRoot "E:\work\phpStudy\WWW\ncpx\web" ServerName ncp ...
java进程脱离终端运行
关于 java 进程脱离终端放入后台运行的问题,首先想到是使用nohup命令: 研究了一下tomcat启动脚本.jenkins.war启动方式以及其他linux命令,结论是在目前的linux系统上不使 ...
shell 踩坑记
变量赋值时,等号两边不能有空格: 在判断表达式中,不论是 [ -n "$1" ] 还是 [ -f "$1" ] 都要在变量两侧加上双引号: 在使用与或非判断式 ...
python中顺序查找分析和实现
顺序查找算法是一种很基本的查找算法,该算法的复杂度一般是最大是O(n),假如加上顺序查找,算法的复杂度还要降一倍,为O(n/2). Python的代码实现如下所示: def sequential_s ...
一个超级简单的demo带你走进redux的大坑
先上代码 import React, { Component } from 'react'; import ReactDOM from 'react-dom'; import { createStor ...
使用alembic进行数据库版本管理
前言随着项目业务需求的不断变更,数据库的表结构修改难以避免,此时就需要对数据库的修改加以记录和控制,便于项目的版本管理和随意的升级和降级. Alembic就可以很好的解决这个问题.Alembic是S ...
css布局--垂直居中
1. 使用table-cell和vertical-align实现垂直居中 html <div class="parent">使用table-cell和vertical- ...
Go Language 开发环境搭建
[前言] Go语言是Google公司2009年发布的新一代的开发语言,其最大的亮点是原生自带并发,在合适的场合使用合适的代码,我们的系统将会更加完美.下面我们进行go语言的安装和配置. 一.下载安装 ...
Java学习笔记14（面向对象七：final、static）
final:意为最终,不可变,是一个修饰词有时候一个类地功能被开发好了,不想让子类重写,修改,这里就会用到final关键字 final修饰类: 不可以被继承,但是可以继承其他类示例: public ...

cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记

cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记的更多相关文章

随机推荐

热门专题