Coursera在线学习---第五节.Logistic Regression

一、假设函数与决策边界

二、求解代价函数

这样推导后最后发现，逻辑回归参数更新公式跟线性回归参数更新方式一摸一样。

为什么线性回归采用最小二乘法作为求解代价函数，而逻辑回归却用极大似然估计求解？

解答：

1）因为线性回归采用最小二乘法作为代价函数，这个函数是一个凸函数，能够得到全局最优解。如下图所示，因为其二阶导数在每个维度的偏导都是一个大于等于0的常数，满足凸函数的充要条件。

2）但是在逻辑回归中却会出现问题，因为将逻辑回归的表达式带入到最小二乘函数中得到的是一个非凸函数的图像，那么就会存在多个局部最优解，无法像凸函数一样得到全局最优解。怎么办呢？再换一个损失函数，对数损失函数，或者说是极大似然估计求解代价函数，两个是一个意思。经求其二阶偏导也是恒大于等于0的值，所以满足凸函数的充要条件，能求得全局最优解。

3）再一个使用平方损失函数，梯度更新的速度会和 sigmod 函数的梯度相关，经过推导公式发现梯度多了一个sigmoid的导数乘项g(x)*(1-g(x))，sigmod 函数在定义域内的梯度都不大于0.25，导致训练速度会非常慢。

4）采用极大似然估计想要让每一个样本的预测都要得到最大的概率，即将所有的样本预测后的概率进行相乘都最大，也就是极大似然函数。

三、解决多分类问题

四、逻辑回归中Octave 一些实用指令

pos=find(y==1) 从y中查找出值为1的索引位置

mean(double(p==y))*100 计算预测的精确度(Accuracy)。double(p==y)将预测结果向量p与真实值向量y逐一对比，相同则置为1，不同则置为0，然后通过mean()函数计算一下均值，精确度就计算出来了。

double(p~=y) 向量p与真实值向量y逐一对比，相同则置为0，不同则置为1。与上述对比正好相反。

五、常用的评价分类器性能的指标

Precision：TP÷(TP+FP)，分类器预测出的正样本中，真实正样本的比例
Recall：TP÷(TP+FN)，在所有真实正样本中，分类器中能找到多少
Accuracy：(TP+TN)÷(TP+NP+TN+FN)，分类器对整体的判断能力，即正确预测的比例

Coursera在线学习---第五节.Logistic Regression的更多相关文章

Coursera在线学习---第七节.支持向量机(SVM)
一.代价函数对比逻辑回归与支持向量机代价函数. cost1(z)=-log(1/(1+e-z)) cost0(z)=-log(1-1/(1+e-z)) 二.支持向量机中求解代价函数中的C值相当于 ...
Coursera在线学习---第十节.大规模机器学习(Large Scale Machine Learning)
一.如何学习大规模数据集? 在训练样本集很大的情况下,我们可以先取一小部分样本学习模型,比如m=1000,然后画出对应的学习曲线.如果根据学习曲线发现模型属于高偏差,则应在现有样本上继续调整模型,具体 ...
Coursera在线学习---第六节.构建机器学习系统
备: High bias(高偏差) 模型会欠拟合 High variance(高方差) 模型会过拟合正则化参数λ过大造成高偏差,λ过小造成高方差一.利用训练好的模型做数据预测时,如果效果不好 ...
Coursera在线学习---第四节.过拟合问题
一.解决过拟合问题方法 1)减少特征数量 --人为筛选 --靠模型筛选 2)正则化(Regularization) 原理:可以降低参数Θ的数量级,使一些Θ值变得非常之小.这样的目的既能保证足够的特征变 ...
[机器学习] Coursera ML笔记 - 逻辑回归（Logistic Regression）
引言机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等.主要学习资料来自Standford Andrew N ...
VUE2.0实现购物车和地址选配功能学习第五节
第五节单件商品金额计算和单选全选功能 1.vue精髓在于操作data模型来改变dom,渲染页面,而不是直接去改变dom 2.加减改变总金额功能: html:<div class="c ...
深度学习 Deep LearningUFLDL 最新Tutorial 学习笔记 2：Logistic Regression
1 Logistic Regression 简述 Linear Regression 研究连续量的变化情况,而Logistic Regression则研究离散量的情况.简单地说就是对于推断一个训练样本 ...
Coursera在线学习---第九节(1).异常数据检测(Anomaly Detection)
一.如何构建Anomaly Detection模型? 二.如何评估Anomaly Detection系统? 1)将样本分为6:2:2比例 2)利用交叉验证集计算出F1值,可以用F1值选取概率阈值ξ,选 ...
Coursera在线学习---第一节.梯度下降法与正规方程法求解模型参数比较
一.梯度下降法优点:即使特征变量的维度n很大,该方法依然很有效缺点:1)需要选择学习速率α 2)需要多次迭代二.正规方程法(Normal Equation) 该方法可以一次性求解参数Θ 优点:1 ...

随机推荐

Java中TimeZone类的常用方法
一.TimeZone类的定义 TimeZone类是一个抽象类,主要包含了对于时区的各种操作,可以进行计算时间偏移量或夏令时等操作二.TimeZone类的常用方法 1.getAvailableIDs( ...
第144天：PS切图方法总结
一.切图方法分类 PhotoShop从CS版本演变到现在的CC版本,切图功能发生了比较大的变化,我们可以把PhotoShop CS版本时的切图功能称为传统切图,而从PhotoShop CC版本开始PS ...
LBP纹理特征[转自]
LBP方法(Local binary patterns)是一个计算机视觉中用于图像特征分类的一个方法.LBP方法在1994年首先由T. Ojala, M.Pietikäinen, 和 D. Harwo ...
当我们有多个类继承同一个父类这时候使用多态时候可以使用该父类的类型做引用不需要将object做引用
当我们有多个类继承同一个父类这时候使用多态时候可以使用该父类的类型做引用不需要将object做引用
【bzoj2351】[BeiJing2011]Matrix 二维Hash
题目描述给定一个M行N列的01矩阵,以及Q个A行B列的01矩阵,你需要求出这Q个矩阵哪些在原矩阵中出现过.所谓01矩阵,就是矩阵中所有元素不是0就是1. 输入输入文件的第一行为M.N.A.B,参见 ...
BZOJ3594 SCOI2014方伯伯的玉米田（动态规划+树状数组）
可以发现每次都对后缀+1是不会劣的.考虑dp:设f[i][j]为前i个数一共+1了j次时包含第i个数的LIS长度.则f[i][j]=max(f[i][j-1],f[k][l]+1) (k<i,l ...
【刷题】BZOJ 2142 礼物
Description 一年一度的圣诞节快要来到了.每年的圣诞节小E都会收到许多礼物,当然他也会送出许多礼物.不同的人物在小E 心目中的重要性不同,在小E心中分量越重的人,收到的礼物会越多.小E从商店 ...
BZOJ3771 Triple 【NTT + 容斥】
题目链接 BZOJ3771 题解做水题放松一下先构造\(A_i\)为\(x\)指数的生成函数\(A(x)\) 再构造\(2A_i\)为指数的生成函数\(B(x)\) 再构造\(3A_i\)为指数的 ...
C++11新利器
C++11常用特性的使用经验总结 unordered_map可能用的会比较多省的写哈希表了. 但是浪费空间
【bzoj4811】由乃的OJ
Portal --> bzoj4811 Solution 这题可以用树剖+线段树做也可以用LCT做,不过大体思路是一样的 (接下来先讲的是树剖+线段树的做法,再提LCT的做法) 首先位 ...

Coursera在线学习---第五节.Logistic Regression

Coursera在线学习---第五节.Logistic Regression的更多相关文章

随机推荐

热门专题