cs231n --- 1：线性svm与softmax

cs231n：线性svm与softmax

参数信息：

权重 W：（D，C）

训练集 X：（N，D），标签 y：（N，1）

偏置量bias b：（C,1)

N：训练样本数；　　D：样本Xi 的特征维度，Xi = [ Xi₁，Xi₂，...，Xi_D]；　　C：类别数量

正则化系数 λ ：控制正则化的强度

delta / Δ : 间隔

linear svm：

对训练样本（Xi，yi）,其对应每个类别的得分为：

　　score = W*Xi+ b

是长度为C的矢量，以s表示 score， s = [s₁, s₂, s₃, ..., s_C] = [W₁*Xi, W₂*Xi, W₃*Xi, ..., W_C*Xi]

Xi对应的损失(hinge loss)：

　　loss[i] = ∑_j≠yi max（0，s_j- s_yi+ delta）

总的损失，加入正则化项 R(W)：

　　 loss = (1/N)*Σ^N_i=1loss[i] + R(W) = (1/N)*Σ^N_i=1 ∑_j≠yi max（0，s_j- s_yi+ delta）+ λ*Σ_iΣ_j W_i,j²

softmax:

对训练样本（Xi，yi）, 利用 yi 构造长度为C的矢量 p = [0, 0, 0, ..., 1, ...]，第 yi 位置为 1，其余为 0，

先计算每个类别的得分：

　　score = W*Xi+ b ，与上同

但是softmax继续对得分进行归一化处理，得到 Xi 在每个类别的概率：

　　h = exp(s) / Σexp(s)，

即有 h = [h₁, h₂, ..., h_C]，h_j = exp(s_j) / Σ^C_k=1 exp(s_k)

Xi对应的损失(交叉熵损失 cross-entropy loss)：

　　loss[i] = -∑log( p*h) = -∑^C_j=1 log(p_j*h_j)= -log(h_yi)

总的损失，加入正则化项 R(W)：

　　loss = (1/N)* Σ^N_i=1loss[i] + R(W) = -(1/N)*Σ^N_i=1 log{ exp(s_yi) / Σ^N_k=1 exp(s_k) } + λ*Σ_iΣ_j W_i,j²

softmax 梯度计算：

对 loss 关于 w 进行求导即可得到梯度∂L/∂w_j ，w = [w1, w2, w3, ... , wC]，w_j 是 Dx1的列向量

∂L / ∂w_j = -(1/N) * Σ^N_i=1X_i*[ 1{yⁱ=j} - h_j ]

梯度方向即是，w沿着梯度变化时，loss值变化最快的方向。利用梯度对loss进行优化，

（求w）从而最小化 loss

利用SGD训练

W := W - ∂L / ∂w_j

算法程序：

1. 随机初始化 w

2. 迭代（一定次数或者前后两次迭代是 loss 差值小于阈值）

repeat {

　　2.1 计算 loss，计算梯度∂L / ∂w_j

　　2.2 更新w

　　　　w := w - 2. 计算梯度∂L / ∂w_j

}

讨论：

1. linear svm的关键在于将样本的正类别得分score[yi]与负类别得分score[-]区分开，只要正、负类别得分的差值大于 delta，就认为样本的分类结果正确，分类损失loss = 0；

它并不关心正负类别得分的细节，比如，对于某三分类，正类别是 1 （delta = 1），在svm看来，得分s1 = [ 10， 9， 9] 与得分s2 = [10, -10, -10] 结果是一样的，都能够得到正确分类结果，所以二者的损失都是 0；

2. softmax 不仅要求样本的正、负类别概率（其实是将类别得分score归一化后用概率表示）能够区分开，而且还想尽力使它们之间的差值越大越好；softmax即使对样本正确进行分类，其分类损失 loss 也不为0，正、负类别的概率差值越大，其损失 loss就越小。比如，同样的三分类，正类别是 1，在softmax看来，得分s1 = [ 10， 9， 9] 与得分 s2 = [10, -10, -10] 分类结果虽然是一样的，但是他们的损失却不一样，

loss[s1] = -log( [1,0,0] * [0.57611688, 0.21194156, 0.21194156] ) = 0.5514，

loss[s2] = -log( [1,0,0] * [ 0.999999996, 0.000000002, 0.000000002] ) = 0.000000004

所以softmax会认为s2比s1分类损失小。从而在分类中，softmax会尽力使正类概率大，而负类概率小

3. linear svm上述特性既是不足，也是优点，比如在分类时，在A类，B类已经有不同得分，可以分开的情况下，不必再花费精力尽力使A、B两类的得分差别变大。