12.支持向量机 觉得有用的话,欢迎一起讨论相互学习~Follow Me 12.6SVM总结 推荐使用成熟的软件包 用以解决 SVM 最优化问题的软件很复杂,且已经有研究者做了很多年数值优化.因此强烈建议使用高优化软件库中的一个,而不是尝试自己落实一些框架.有许多好的软件库,NG用得最多的两个是 liblinear 和 libsvm 归一化处理 Note 无论使用使用何种模型进行拟合,原始输入数据都需要进行归一化处理 需要指定的参数 即使用高度优化的软件包,有些参数还是需要自己做出指定的. 正则…
主要内容: 一.损失函数 二.决策边界 三.Kernel 四.使用SVM (有关SVM数学解释:机器学习笔记(八)震惊!支持向量机(SVM)居然是这种机) 一.损失函数 二.决策边界 对于: 当C非常大时,括号括起来的部分就接近于0,所以就变成了: 非常有意思的是,在最小化 1/2*∑θj^2的时候,最小间距也达到最大.原因如下: 所以: 即:如果我们要最小化1/2*∑θj^2,就要使得||θ||尽量小,而当||θ||最小时,又因为,所以p(i)最大,即间距最大. 注意:C可以看成是正则项系数λ…
本篇我们讨论如何运行或者运用SVM. 在高斯核函数之外我们还有其他一些选择,如:多项式核函数(Polynomial Kernel)字符串核函数(String kernel)卡方核函数( chi-square kernel)直方图交集核函数(histogram intersection kernel)等等... 这些核函数的目标也都是根据训练集和地标之间的距离来构建新特征,这些核函数需要满足Mercer's 定理,才能被支持向量机的优化软件正确处理. 多类分类问题 假设我们利用之前介绍的一对多方法…
对于之前的一个,二元分类问题,我们的数据看起来可能是像这样: 对于一个多类分类问题,我们的数据集或许看起来像这样: 我用3 种不同的符号来代表3 个类别,问题就是给出3 个类型的数据集,我们如何得到一个学习算法来进行分类呢?我们现在已经知道如何进行二元分类,可以使用逻辑回归,对于直线或许你也知道,可以将数据集一分为二为正类和负类.用一对多的分类思想,我们可以将其用在多类分类问题上.下面将介绍如何进行一对多的分类工作,有时这个方法也被称为"一对余"方法. 现在我们有一个训练集,好比上图表…
如果你准备研究机器学习的东西,或者构造机器学习应用程序,最好的实践方法不是建立一个非常复杂的系统,拥有多么复杂的变量:而是构建一个简单的算法,这样你可以很快地实现它. 构建一个学习算法的推荐方法为:1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势. 类偏斜情况表现为我们的训练集中有非常多的同一…
当我们有不止两种分类时(也就是…
12.支持向量机 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.2 大间距的直观理解- Large Margin Intuition 人们有时将支持向量机看作是大间距分类器.在这一部分,我将介绍其中的含义,这有助于我们直观理解 SVM 模型的假设是什么样的.以下图片展示的是SVM的代价函数: 最小化SVM代价函数的必要条件 如果你有一个正样本,y=1,则只有在z>=1时代价函数\(cost_1(z)\)才等于0.…
11. 机器学习系统的设计 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 11.3 偏斜类的误差度量 Error Metrics for Skewed Classes 偏斜类 Skewed Classes 类偏斜情况表现为训练集中有非常多的同一种类的实例,只有很少或没有其他类的实例 示例 例如我们希望用算法来预测癌症是否是恶性的,在我们的训练集中,只有0.5%的实例是恶性肿瘤.假设我们编写一个非学习而来的算法,在所有情…
http://www.cnblogs.com/xing901022/p/9332529.html 本章主要讲解了逻辑回归相关的问题,比如什么是分类?逻辑回归如何定义损失函数?逻辑回归如何求最优解?如何理解决策边界?如何解决多分类的问题? 更多内容参考 机器学习&深度学习 有的时候我们遇到的问题并不是线性的问题,而是分类的问题.比如判断邮件是否是垃圾邮件,信用卡交易是否正常,肿瘤是良性还是恶性的.他们有一个共同点就是Y只有两个值{0,1},0代表正类,比如肿瘤是良性的:1代表负类,比如肿瘤是恶性的…