一.问题动机 异常检测(Anomaly detection)问题是机器学习算法的一个常见应用.这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题. 给定数据集…
对于异常检测算法,使用特征是至关重要的,下面谈谈如何选择特征: 异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:…
主成分分析(PCA)是最常见的降维算法. 在PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都投射到该向量上时,我们希望投射平均均方误差能尽可能地小.方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度. 下面给出主成分分析问题的描述:问题是要将…
一.开发与评价一个异常检测系统 异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量…
主要内容: 一.模型介绍 二.算法过程 三.算法性能评估及ε(threshold)的选择 四.Anomaly detection vs Supervised learning 五.Multivariate Gaussian 一.模型介绍 如何检测一个成品是否异常? 假设红交叉表示正常的样本点,如果抽取到的成品其位于正常样本点的范围之内,则可认为其正常:如果成品的位置远离正常样本点,则可认为其出现异常. 为了更加明确“正常样本点”的范围,我们添加圈圈以划定区域,如: 此时,选择一个threshol…
如何应用高斯分布开发异常检测算法呢? 异常检测算法: 对于给定的数据集…
主要内容: 一.损失函数 二.决策边界 三.Kernel 四.使用SVM (有关SVM数学解释:机器学习笔记(八)震惊!支持向量机(SVM)居然是这种机) 一.损失函数 二.决策边界 对于: 当C非常大时,括号括起来的部分就接近于0,所以就变成了: 非常有意思的是,在最小化 1/2*∑θj^2的时候,最小间距也达到最大.原因如下: 所以: 即:如果我们要最小化1/2*∑θj^2,就要使得||θ||尽量小,而当||θ||最小时,又因为,所以p(i)最大,即间距最大. 注意:C可以看成是正则项系数λ…
一.多元高斯分布简介 假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据.其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界. 下图中是两个相关特征,洋红色的线(根据ε 的不同其范围可大可小)是一般的高斯分布模型获得的判定边界,很明显绿色的X 所代表的数据点很可能是异常值,但是其…
http://www.cnblogs.com/xing901022/p/9374258.html 本章讲述的是一个复杂的机器学习系统,通过它可以看到机器学习的系统是如何组装起来的:另外也说明了一个复杂的流水线系统如何定位瓶颈与分配资源. 更多内容参考 机器学习&深度学习 OCR的问题就是根据图片识别图片中的文字: 这种OCR识别的问题可以理解成三个步骤: 文本检测 字符切分 字符识别 文本检测 文本的检测可以用行人的检测来做,思路差不多. 我们定义几个固定大小尺寸的窗口,从照片的左上角开始扫描.…
12.支持向量机 觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.5 SVM参数细节 标记点选取 标记点(landmark)如图所示为\(l^{(1)},l^{(2)},l^{(3)}\),设核函数为 高斯函数 ,其中设预测函数y=1 if \(\theta_0+\theta_{1}f_1+\theta_{2}f_2+\theta_{3}f_3\ge0\) 在实际中需要用 很多标记点 ,那么如何选取 标记点(lan…