前言: 这是一篇记录小刘学习机器学习过程的随笔. 正文: 支持向量机(SVM)是一组用于分类, 回归和异常值检测的监督学习方法. 在分类问题中,SVM就是要找到一个同时离各个类别尽可能远的决策边界即最大化margin(margin为图中2虚线的距离).这种尽可能远的思想能够提高模型的泛化能力. 虚线上的点是支持向量,实线是决策边界.此图为线性可分的情况. 求margin的最大值就相当于求d(支持向量到决策边界的距离)的最大值. 决策边界为wx-b=0 任意点到边界的距离为 为了方便计算,我们将2…
一.核函数(Kernel Function) 1)格式 K(x, y):表示样本 x 和 y,添加多项式特征得到新的样本 x'.y',K(x, y) 就是返回新的样本经过计算得到的值: 在 SVM 类型的算法 SVC() 中,K(x, y) 返回点乘:x' . y' 得到的值: 2)多项式核函数 业务问题:怎么分类非线性可分的样本的分类? 内部实现: 对传入的样本数据点添加多项式项: 新的样本数据点进行点乘,返回点乘结果: 多项式特征的基本原理:依靠升维使得原本线性不可分的数据线性可分: 升维的…
 机器学习-RBF高斯核函数处理 SVM高斯核函数-RBF优化 重要了解数学的部分: 协方差矩阵,高斯核函数公式. 个人建议具体的求法还是看下面的核心代码吧,更好理解,反正就我个人而言,烦躁的公式,还不如一段代码来的实际.本来想用Java的一个叫jblas的矩阵包,但是想了想,还是自己动手写一下吧.加深一下自己理解.实现的语言用的是java孪生兄弟Scala.我想应该不难懂.矩阵变换用二位数组将就. 以下代码建议用scala命令行调试 核心代码 def TransposedMatrix(a:Ar…
应用kernels来进行非线性分类 非线性分类:是否存在好的features的选择(而不是多项式)--f1,f2,f3.... 上图是一个非线性分类的问题,前面讲过,我们可以应用多项式(features)来构造hypothesis来解决复杂的非线性分类问题. 我们将x1,x2,x1x2.....替换成f1,f2,f3......,那么是否有更好的features的选择呢(而不是这些多项式做为features),因为我们知道以这些多项式做为features,次数较高,计算较复杂. 使用Kernel…
将所有的样本都选做landmarks 一种方法是将所有的training data都做为landmarks,这样就会有m个landmarks(m个trainnign data),这样features就是某个x(可以是trainning data/cross validation data/test data里面的)与这些landmarks之间的距离的远近程度的描述. landmarks选定后得出新的features向量 给出一个x,则通过这些landmarks来计算features向量,和之前的…
生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理.如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来.这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢? 有!其思想说来也简单,来用一个二维平面中的分类问题作例子,你一看就会明白.事先声明,下面这个例子是网络早就有的,我一时找不到原作者的正…
整理自: https://blog.csdn.net/woaidapaopao/article/details/77806273?locationnum=9&fps=1 带核的SVM为什么能分类非线性问题? RBF核一定是线性可分的吗? 常用核函数及核函数的条件 SVM的基本思想 是否所有的优化问题都可以转化为对偶问题 处理数据偏斜 1.带核的SVM为什么能分类非线性问题? 核函数的本质是两个函数的內积,而这个函数在SVM中可以表示成对于输入值的高维映射.注意核并不是直接对应映射,核只不过是一个…
前言: 上一篇比较详细的介绍了卡方检验和卡方分布.这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行.然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样就完美了. 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特征权重(TF/IDF)和特征提取        文本分类学习(四)特征选择之卡方检验 文本分类学习(五)机器学习SVM的前奏-特征提取(卡方检验续集) 一,回顾卡方检验 1.公式一: 先回顾一下卡方检验: 卡…
支持向量机(Support Vector Machine) SVM是一类按监督学习方式对数据进行二元分类的广义线性分类器,决策边界是对学习样本求解的最大边距超平面.只需要知道,SVM是一个有监督的分类器就可以. 介绍SVM首先要从核函数的介绍开始,SVM是一个处理线性可分离数据的线性分类器.对于下方右边的数据时,SVM不能很好的应对. 情况一:在对于线性不可分数据时,应该如何应对?将低维数据转换为高维数据可以将线性不可分数据转化为线性可分的数据.如下图所示: 情况二:当数据用直线不可分时: 原来…
遵循统一的机器学习框架理解高斯混合模型(GMM) 一.前言 我的博客仅记录我的观点和思考过程.欢迎大家指出我思考的盲点,更希望大家能有自己的理解. 本文参考了网络上诸多资料,特别是B站UPshuhuai008的视频,讲解东西也是我最喜欢的方式:从多个角度阐述和理解问题. 二.理解 统一的机器学习框架(MLA): 1.模型(Model) 2.策略(Loss) 3.算法(Algorithm) Model 题外话:所谓模型,就是建模的过程,也是我们对现实(已观测)的一种假设,比如前几篇介绍SVM,LR…