课时6 线性分类器损失函数与最优化（上）

多类SVM损失：这是一个两分类支持向量机的泛化

SVM损失计算了所有不正确的例子，将所有不正确的类别的评分，与正确类别的评分之差加1，将得到的数值与0作比较，取两者中的最大值。然后将所有的数值进行求和。用平均值来代替不会影响结果。

这些评分都是无标度的，因为我们可以随便选择W，让它成比例地增大或者减小，然后分数也随之成比例地变化。所以分数的大小和它的量度的选择紧密相关，将安全系数的值设为1在某种程度上来说只是一个随意的选择。

在实际的数据集中使用这个损失函数，可能会有一些我们不太希望的性质。我们现在有整个W空间，并且根据这个损失函数他们的工作方式都是相同的，我们希望对于所有W而言有一部分的W是有优先权的，这一优先权基于我们希望W拥有的特点，不用去管数据集，只关心使W达到最优的特点。

正则化

可以用它来处理我们的损失函数，加上了一项正则化函数R(W)，而R(W)衡量了W的好坏，我们不仅仅想要数据拟合得更好，也希望能优化W，所以我们找到了一些方法来证明他们是确实有效的，事实上，正则化是为了权衡你的训练损失和你用于测试集的泛化损失，所以正则化是一系列通过损失来使目标相加的技术。

L2正则化要做的就是尽可能地展开w权重，以便于考虑到所有输入特征或者说所有的像素，并且尽可能地利用这些维度

为什么要用正则化？

假设你有多组权重可以得到相同分数，我们想以某种方式选出最好的。

Softmax分类器

也就是一般化的逻辑斯蒂回归，他是在这些分数的基础上表明损失的一种不同的函数形式，这种解释就是说他是在这些分数基础上实现的，这些分数不是随机的，也不是表明某种边界。从一个问题出发，我们有特定的解读方式，这种方式有一定的规则，这些分数是对应不同类未经标准化的对数概率。

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6的更多相关文章

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时3
课时3 计算机视觉历史回顾与介绍下 ImageNet有5000万张图片,全部都是人工清洗过得,标注了超过2万个分类. CS231n将聚焦于视觉识别问题,图像分类关注的是大图整体:物体检测告诉你东西具体 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时1
课时1 计算机视觉历史回顾与介绍上 CS231n:这一一门关于计算机视觉的课程,基于一种专用的模型架构,叫做神经网络(更细一点说,是卷积神经网络CNN).计算机视觉是人工智能领域中发展最为迅猛的一个分 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时26&&27
课时26 图像分割与注意力模型(上) 语义分割:我们有输入图像和固定的几个图像分类,任务是我们想要输入一个图像,然后我们要标记每个像素所属的标签为固定数据类中的一个使用卷积神经,网络为每个小区块进行 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时24&&25
课时24 深度学习开源库使用介绍(上) Caffe 被用于重新实现AlexNet,然后用AlexNet的特征来解决其他事情用C++书写的,可以去GitHub上面读取源代码主要四个类: Blob可以 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时8&&9
课时8 反向传播与神经网络初步(上) 反向传播在运算连路中,这是一种通过链式法则来进行递推的计算过程,这个链路中的每一个中间变量都会对最终的损失函数产生影响. 链式法则通常包含两部分,局部梯度和后一层 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时12&&13
课时12 神经网络训练细节part2(上) 训练神经网络是由四步过程组成,你有一个完整的数据集图像和标签,从数据集中取出一小批样本,我们通过网络做前向传播得到损失,告诉我们目前分类效果怎么样.然后我们 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时11
课时11 神经网络训练细节part1(下) 2010年,Glorot等人写的论文,我们称之为Xavier初始化,他们关注了神经元的方差表达式.他们推荐一种初始化方式,那就是对每个神经元的输入进行开根号 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时10
课时10 神经网络训练细节part1(上) 没有大量的数据也不会有太多影响,只需要找一个经过预训练的卷积神经网络然后进行调整从数据集中抽样一小批数据, 将数据运入卷积神经网络中来计算损失值通过反向 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时7
课时7 线性分类器损失函数与最优化(下) 我们为什么要最大化对数概率而非直接最大化概率? 你在做逻辑斯蒂回归时,如果你只是想要最大化概率,那你使用log是无意义的.因为log函数是单调函数,最大化概率 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时14&&15
课时14 卷积神经网络详解(上) CNN处理的是一些数据块,在这之间有很多层,一系列的层将输入数据变换为输出数据,所以完成操作的中间量不仅是NN时候讲的那些向量,而是立体结构,有宽,高和深度,在整个计 ...

随机推荐

转: DNS 原理入门 (from 阮一峰)
转自:http://www.ruanyifeng.com/blog/2016/06/dns.html DNS 原理入门作者: 阮一峰日期: 2016年6月16日 DNS 是互联网核心协议之一. ...
用df命令显示磁盘使用量和占用率。
使用“df -k”命令,以k为单位显示磁盘使用量和占用率. root@gsg43:/tmp# df -kFilesystem 1K-blocks Used Available Use% ...
重新认识一遍JavaScript
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
C++中结构和类的区别
首先从从语言角度来看,c语言是一种结构化的语言,便于按照模块化的方式来组织程序,易于程序员的调试和维护,而对于c++来说,我么可以认为它是标准c的超集.实际上所有的c程序也是c++程序.但两者之间还是 ...
(转)C中的volatile用法
volatile 影响编译器编译的结果,指出,volatile 变量是随时可能发生变化的,与volatile变量有关的运算,不要进行编译优化,以免出错,(VC++ 在产生release版可执行码时会进 ...
用python编写的定向arp欺骗工具
刚学习了scapy模块的一些用法,非常强大,为了练手,利用此模块编写了一个arp欺骗工具,其核心是构造arp欺骗包.加了一个-a参数用于进行全网欺骗,先暂不实现.代码如下: #--*--coding= ...
VC编码规范（转）
1 项目风格 1.1 项目取名在VC之中,项目名为最后可执行文件名,所以项目名最好以最终的可执行文件名一致. 1.2 项目目录设置为保证VC项目的备份方便.快 ...
bash shell和进程
1 exec builtin 不创建子shell,在原进程的上启动新的脚本,但是它会把老shell的环境清理掉,所以,它从原shell中什么也不继承,在一个干净的环境中执行新的脚本.执行完之后退出当前 ...
用jetty起maven工程debug报source not found
之前基本都是tomcat启maven本工程惯性的处理方式是直接点击lookup source 直接先删除default工程然后选择导入java project 找到源码所在的工程但是一般情况下 ...
read appSettings in configuration file by XElement with xmlns
https://docs.microsoft.com/en-us/dotnet/csharp/programming-guide/concepts/linq/how-to-write-queries- ...

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

课时6 线性分类器损失函数与最优化（上）

正则化

为什么要用正则化？

Softmax分类器

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6的更多相关文章

随机推荐

热门专题

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6的更多相关文章