[CS231n-CNN] Linear classification II, Higher-level representations, image features, Optimization, stochastic gradient descent

课程主页：http://cs231n.stanford.edu/

loss function:

－Multiclass SVM loss:

表示实际应该属于的类别的score。因此，可以发现，如果实际所属的类别score越小，那么loss function算出来的就会越大，这样才符合常理。

最后取平均：

＊问题：

1⃣️：

因为include j＝y_i其实就是最后加上常数1，对结果没有任何影响。

2⃣️：

因为mean和sum成正比，因此对最后的结果都没影响，所以为了方便计算，无需求mean。

这两种loss function结果会有所区别，但两者都可以。第一种更常见。

min：0（最完美的）

max：正无穷（最不完美的）

和都很小，所以结果会是number_of_classes - 1.

如果每个的都分队的话，w无论乘以多少倍（w不唯一），结果都是一样的。

在w不唯一的情况下，我们如何得到我们最想要的一组w的值呢？因此，我们需要一种方法可以measure niceness of w.

正则化的目的是防止过拟合。

－引出：Weight Regularisation

我们不仅仅想要w能够很好的拟合数据，而且还想得到更好的w。

motivation：

w1只与一个feature有关，忽略了其他的feature。虽然w1和w2的值相同。(详细的介绍参考cs229)

__________________________________________________________________________________________________________

－Softmax function(a different form loss function：)

（之前用的是svm，即：）

计算方法：

＊问题：

min:0 (全部分对)

max:无穷大（严重分错）

所以，最大值和最小值是一样的，也符合常理。

比较：

问题：

10是正确的score。

如果把第三个数据[10,-100,100]稍微变一下，两种loss function会有什么样的变化？

svm：会保持不变，因为根据公式里，只要(-x)-(100)+1<0,它都会被认为是0.所以，对结果不会产生任何影响。

softmax：会产生better loss。

有学生提问：为什么是svm中是＋1，可以改为0吗？

回答：必须要一个正数（详细解释请看cs229，margin）

demo : http://vision.stanford.edu/teaching/cs231n/linear-classify-demo/

_________________________________________________________________________________________________________________________________

-Optimization

因为参数有成千上万个，如果改变一个参数计算一次loss的话，会非常耗时。

引出微积分（莱布尼茨和牛顿发现的）：

通过直接计算导数就可以了。

总结：

更有效的方法：不把所有的训练数据拿来训练，而是每次随机抽取部分数据拿来训练。虽然每次的结果会有波动，但是总的趋势是下降的。

下面的那种不需要feature extraction，直接training出10numbers。

[CS231n-CNN] Linear classification II, Higher-level representations, image features, Optimization, stochastic gradient descent的更多相关文章

线性回归、梯度下降（Linear Regression、Gradient Descent）
转载请注明出自BYRans博客:http://www.cnblogs.com/BYRans/ 实例首先举个例子,假设我们有一个二手房交易记录的数据集,已知房屋面积.卧室数量和房屋的交易价格,如下表: ...
Linear Regression and Gradient Descent (English version)
1.Problem and Loss Function Linear Regression is a Supervised Learning Algorithm with input matrix ...
[CS231n-CNN] Image classification and the data-driven approach, k-nearest neighbor, Linear classification I
课程主页:http://cs231n.stanford.edu/ Task: Challenges: _________________________________________________ ...
Higher level thinking
「Higher level thinking」-- 出自 Ray Dalio 的<Principles>(PDF 原文:Principles by Ray Dalio) Higher le ...
从损失函数优化角度：讨论“线性回归（linear regression）”与”线性分类（linear classification）“的联系与区别
1. 主要观点线性模型是线性回归和线性分类的基础线性回归和线性分类模型的差异主要在于损失函数形式上,我们可以将其看做是线性模型在多维空间中“不同方向”和“不同位置”的两种表现形式损失函数是一种优 ...
斯坦福机器学习视频笔记 Week1 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
斯坦福机器学习视频笔记 Week1 线性回归和梯度下降 Linear Regression and Gradient Descent
最近开始学习Coursera上的斯坦福机器学习视频,我是刚刚接触机器学习,对此比较感兴趣:准备将我的学习笔记写下来, 作为我每天学习的签到吧,也希望和各位朋友交流学习. 这一系列的博客,我会不定期的更 ...
machine learning (7)---normal equation相对于gradient descent而言求解linear regression问题的另一种方式
Normal equation: 一种用来linear regression问题的求解Θ的方法,另一种可以是gradient descent 仅适用于linear regression问题的求解,对其 ...
Logistic Regression Using Gradient Descent -- Binary Classification 代码实现
1. 原理 Cost function Theta 2. Python # -*- coding:utf8 -*- import numpy as np import matplotlib.pyplo ...

随机推荐

centos网卡错误Device eth0 does not seem to be present
在使用vmware及VirtualBox迁移linux系统过程中,发现部署后的linux系统无法启动网卡报错为 Bringing up interface eth0: Device eth0 doe ...
Atitit.软件开发提升稳定性总结
Atitit.软件开发提升稳定性总结 #----影响稳定性几个类别 3 1. 资源和内存泄漏溢出 3 2. 数据库/文件死锁 3 3. 类库冲突 3 4. 热更新热部署(业务可用性 3 5. 程序崩溃 ...
paip.快捷方式分组管理最佳实践ObjectDock
paip.快捷方式分组管理最佳实践ObjectDock /////挑选:除了od,还有个Berokyo ,但是bk无crash..只能使用1月.. Jumplist_Launcher_v7.2_rep ...
Android 学习之异常总结--java.lang.IllegalStateException:Could not execute method of the activity
在android学习过程中通常会遇到java.lang.IllegalStateException:Could not execute method of the activity这个错误:非法状态的 ...
gulp学习笔记1
gulp系列学习笔记: 1.gulp学习笔记1 2.gulp学习笔记2 3.gulp学习笔记3 4.gulp学习笔记4 1.安装gulp 首先我们需要node环境,nodejs安装这里就不说了,不懂的 ...
javaWEB项目感受
1.WEB-INF下的内容是受保护的,不能直接访问,可以通过转发的方式访问. 2.OGNL技术: 对象图像导航语言,是一种功能强大的表达式语言.可以让我们用非常简单的表达式访问对象层. OGNL引擎访 ...
如何在windows7上安装启明星系统。
启明星系统提供多种安装方式.安装包里自带了setup.exe.每个程序的 install下有在线安装(例如请假应用程序为book,则默认为 http://localhost/book/install ...
取消 virtualStore 注册表[启用和禁止 UAC虚拟化]
近日发现,在win2008R2 x64下运行的服务器程序,其注册表读取路径为: [HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\SZDomain\itvc1] 但是经 ...
扩展ViewFlow避免和ViewPager滑动冲突，同时支持无限循环，并完美和CircleFlowIndicator结合
首先,为了避免滑动冲突,我们要继承ViewFlow,重写onInterceptTouchEvent public class MyViewFlow extends ViewFlow { private ...
U盘安装ubuntu,一直提示start booting from usb device…[转]
找到U盘中syslinux文件夹下的syslinux.cfg文件,在default vesamenu.c32前面加一个#号就可以了. 我的syslinux.cfg文件修改后如下,够简单吧!!!!建议用 ...

[CS231n-CNN] Linear classification II, Higher-level representations, image features, Optimization, stochastic gradient descent

[CS231n-CNN] Linear classification II, Higher-level representations, image features, Optimization, stochastic gradient descent的更多相关文章

随机推荐

热门专题