cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记

1. Loss function是用来量化评估当前预测的好坏，loss function越小表明预测越好。

几种典型的loss function：

1）Multiclass SVM loss：一般的SVM是针对0、1两类标签，现在是把它拓展到n类标签。它的物理意义是：现在要预测一个样本的标签，根据之前训练出的权重求出这个样本在所有标签的得分，正确的标签的得分如果大于其他标签的得分（往往还会加一个safety margin，就是要求要足够大），则loss function不增加；否则loss function就会增加其他标签的得分超过正确标签的得分的差值。这种loss function的取值从0到无穷大。在初始化训练的时候，权重W往往被设计成很小的随机数，所以计算出的每个标签的得分都接近0，在这种情况下，如果标签数为n，正确的标签和其他标签比较了n-1次，每次比较的得分差值都小于safety margin（假设safety margin是1），则loss function的值为n-1，

2） Softmax (cross-entropy) loss ：在深度学习里很常用。把计算出的分数带入到softmax函数里，这个描述了“概率”，最终的loss function就是对softmax函数取负log。这里的概率加了引号是因为这只是一种对0~1之间取值且累加和为1的变量的诠释。事实上，当正则化项的权重增加时，优化出的W会变小，对于每个类别softmax loss会更接近。所以softmax loss对不同类别的排序才重要，具体数值并不重要。

两种loss funciton的实际表现差不多，不同的人有不同偏好。这两种loss function的差别，对于SVM loss来说，标签贴对就可以了，继续增加得分并不会减小loss，因为反正都已经取0了；但对于Softmax loss来说，正确标签的得分越高越好，错误标签的得分越低越好。

2. 正则化（Regularization）。同样的loss值会对应很多组不同的权重W，正则化描述了对参数的某种偏好，例如奥卡姆剃刀原则。这时候Loss function = Data loss + Regularzation。可以这么理解正则化：比如用多项式拟合数据，有两种方式抑制过拟合，一种是直接限定多项式的次数，另一种是不限定次数，但是在loss function里增加跟次数相关的一项，它会使算法更倾向于找低次数的多项式。正则化就是后一种方式。正则化可以帮助解决过拟合的问题。一般正则化项只包含W，不包含b。

3. 优化的关键是求导，有两种方式求导，一是数值方法，二是解析方法。实际应用中，用解析的方式求导，用数值的方式验证求导是否正确。每一步的迭代距离（learning rate）是hyperparameter，需要提前设定，Justin Johson说他调参的时候永远是最先检查learning rate是否大体正确。

4. Stochastic Gradient Descent （SGD）：loss function是所有特征相加，当特征非常多的时候，计算就会很慢（比如图像，每个像素都是一个特征），这时候可以用一个子集（一般32/64/128个特征）来计算。

5. 图像特征：

1）Color Histogram，评估各种颜色在图像中的比重。

2）Histogram of Oriented Gradients (HoG)，把图像分成一个个小方格，在每个小方格内提取边，设定边有9种朝向，评估图像局部的边界特征。物体识别中很有用。

3）Bags of Words，把图像分成一个个小方格（或者提取特征点后在特征点附近取小方格），每个方格可以用一个编码来描述，编码需要自己设计，所有的编码组成一个词典。这是从自然语言处理中衍生过来的。

cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记的更多相关文章

cs231n spring 2017 lecture3 Loss Functions and Optimization
1. Loss function是用来量化评估当前预测的好坏,loss function越小表明预测越好. 几种典型的loss function: 1)Multiclass SVM loss:一般的S ...
cs231n spring 2017 lecture7 Training Neural Networks II 听课笔记
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很 ...
cs231n spring 2017 lecture6 Training Neural Networks I 听课笔记
1. 激活函数: 1)Sigmoid,σ(x)=1/(1+e-x).把输出压缩在(0,1)之间.几个问题:(a)x比较大或者比较小(比如10,-10),sigmoid的曲线很平缓,导数为0,在用链式法 ...
cs231n spring 2017 lecture4 Introduction to Neural Networks 听课笔记
1. Backpropagation:沿着computational graph利用链式法则求导.每个神经元有两个输入x.y,一个输出z,好多层这种神经元连接起来,这时候已知∂L/∂z,可以求出∂L/ ...
cs231n spring 2017 lecture9 CNN Architectures 听课笔记
参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的sh ...
cs231n spring 2017 lecture9 CNN Architectures
参考<deeplearning.ai 卷积神经网络 Week 2 听课笔记>. 1. AlexNet(Krizhevsky et al. 2012),8层网络. 学会计算每一层的输出的sh ...
CS231n笔记 Lecture 3 Loss Functions and Optimization
这一讲总体上就是引入Loss Function的概念,以及让大家对优化有一个初步的认识,和其他课程里面说的内容大同小异. Loss function Multiclass svm loss multi ...
cs231n spring 2017 lecture13 Generative Models 听课笔记
1. 非监督学习监督学习有数据有标签,目的是学习数据和标签之间的映射关系.而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构. 2. 生成模型(Generative Models) 已知训练数 ...
cs231n spring 2017 lecture11 Detection and Segmentation 听课笔记
1. Semantic Segmentation 把每个像素分类到某个语义. 为了减少运算量,会先降采样再升采样.降采样一般用池化层,升采样有各种"Unpooling"." ...

随机推荐

Sphinx学习笔记（一）
最近负责一个项目,需要用到全文检索,我的环境大体如下: 1.数据保存在MySQL中 2.需要支持中文检索 3.尽可能的简单选择了Sphinx,至于solr和E ...
DataBase MongoDB高级知识
MongoDB高级知识一.mongodb适合场景: 1.读写分离:MongoDB服务采用三节点副本集的高可用架构,三个数据节点位于不同的物理服务器上,自动同步数据.Primary和Secondary ...
c语言项目流程开发三部曲
一.这一部曲是紧接第二部没有介绍完的内容,主要是函数接口实体的实现,代码比较多,如果没有看前两部曲的先去看看,再来看这里,不然不好理解,话不说多上代码, #define _CRT_SECURE_NO_ ...
bzoj 2588 Count on a tree
Description 给定一棵N个节点的树,每个点有一个权值,对于M个询问(u,v,k),你需要回答u xor lastans和v这两个节点间第K小的点权.其中lastans是上一个询问的答案,初始 ...
虚拟机创建流程中neutron代码分析（三）
前言: 当neutron-server创建了port信息,将port信息写入数据库中.流程返回到nova服务端,接着nova创建的流程继续走.在计算节点中neutron-agent同样要完成很多的工作 ...
hashlib 简单加密
import hashlib def md5(arg):#这是加密函数 md5_pwd = hashlib.md5(bytes('meac',encoding='utf-8')) md5_pwd.up ...
安装两个JDK后配置环境变量没用？
在实际开发中,由于项目的需要,可能JDK的版本是不同的.比如我们前一个项目所需JDK版本是1.6的,项目完成后,下一个项目JDK版本又是需要1.7的,为了防止由于切换项目我们需要频繁的安装卸载JDK, ...
用Python玩转微信（一）
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 今天偶然看见 ...
IDLE3.6.3 Mac版不支持中文输入解决办法
最近安装了IDLE 3.6.3版本但是在IDLE中要输入中文注释时发现虽然输入法切换到了中文,但输入的还是英文.然后我在IDLE外试了下,输入中文没问题,于是就确认应该是IDLE的问题. 网上查询到 ...
执行PHP脚本时遇到 mysql_connect(): Headers and client library minor version mismatch的解决方法
把服务器从Windows迁移到了centos7.2,配置好PHP运行环境后,项目运行正常. 但在命令行中运行一个PHP脚本时,遇到了标题中显示的错误使用 php -i | grep Client 得 ...

cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记

cs231n spring 2017 lecture3 Loss Functions and Optimization 听课笔记的更多相关文章

随机推荐

热门专题