【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 15—Anomaly Detection异常检测
Lecture 15 Anomaly Detection 异常检测
15.1 异常检测问题的动机 Problem Motivation
异常检测(Anomaly detection)问题是机器学习算法的一个常见应用。这种算法虽然主要用于无监督学习问题,但从某些角度看,它又类似于一些监督学习问题。
举例: 当飞机引擎从生产线上流出时需要进行QA(质量控制测试),数据集包含引擎的一些特征变量,比如运转时产生的热量,或者振动等。当有一个新的飞机引擎从生产线上流出,它具有特征变量 xtest 。异常检测问题就是:希望知道这个新的飞机引擎是否有某种异常。如下图:

训练出的模型,需要能够根据 xtest 的位置告诉我们其属于一组数据的可能性 p(xtest)。

在上图中,蓝色圈内的数据属于该组数据的可能性较高;而越偏远,属于该组数据的可能性就越低。 这种方法称为密度估计,表达如下:

常见的异常检测问题如下:
例1:欺诈检测,通过 p(x) < ε 检测非正常用户。例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。根据这些特征构建一个模型,可以用来识别不符合该模式的用户。
例2:检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,CPU 的负载,网络的通信量等。根据这些特征构建模型,用来判断某些计算机是否可能出错了。

15.2 高斯分布 Gaussian Distribution
高斯分布,也称为正态分布。

通常如果变量 x 符合高斯分布 x∼N(μ, σ2 ) 则其概率密度函数为 :

高斯分布样例如下图(其中 μ 决定中心点的位置, σ2 决定曲线的高度):

通过已有数据集 x ,可以预测总体的均值 μ 和方差 σ2 ,计算方法如下:



注:机器学习中对于方差通常除以 m,而统计学中会除以(m − 1)。这两个公式在理论和数学特性上稍有不同,但在实际使用中的区别几乎可以忽略不计。
15.3 异常检测算法 Algorithm
1 密度估计
现在我们应用高斯分布开发异常检测算法。 对于给定的数据集 x ,针对每一个特征计算均值 μ 和方差 σ2 的估计值。然后,当出现一个新的训练实例,可以根据模型计算其对应的 p(x),这个过程也叫做密度估计(Density estimation),公式如下:

(注:每个特征 xi 都对应不同的高斯分布)

当p(x) < ε时,判断为异常。
2 异常检测算法

3 举例
下图中的 2D 图形是一个具有两个特征的训练集及其两个特征的分布情况,3D 图形表示密度估计函数,z轴为根据两个特征对xtest估计出的p(x)值。

我们选择一个 ε=0.02,将p(x) = ε作为决策边界,当p(x) > ε时预测为正常数据,否则为异常。
15.4 开发和评价一个异常检测系统
1 划分数据
异常检测算法是一个无监督学习算法。但事实上,如果我们拥有一些带标记的数据,为了检验算法是否有效。可以在最开始将其看作一个监督学习算法。将已有数据分开,从中选择一部分正常数据作为训练集,剩下的正常数据和异常数据混合构成交叉检验集和测试集。

2 举例
有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数据:
6000 台正常引擎的数据作为Training set;
2000 台正常引擎和 10 台异常引擎的数据作为CV set
2000 台正常引擎和 10 台异常引擎的数据作为Test set

还有一些人把同样一组数据既用作CV集,也用作Test集。Andrew不推荐这样做。
3 具体的算法评价方法
1) 根据测试集数据,估计特征的平均值和方差并构建p(x)函数
2) 对CV set,尝试使用不同的 ε 值作为阈值,并预测数据是否异常,根据 F1 值或者查准率与查全率的比例来选择 ε
3) 选出 ε 后,针对Test集进行预测,计算异常检验系统的F1值,或者查准率与查全率之比

15.5 异常检测与监督学习对比 Anomaly Detection vs. Supervised Learning
之前构建的异常检测系统也使用了带标记的数据,与监督学习有些相似。下面对异常检测和监督学习进行对比:

15.6 选择特征 Choosing What Features to Use
1 特征转换
特征的选择对异常检测算法至关重要。假设特征不符合高斯分布,算法也能够工作,但最好还是将数据转换成高斯分布,例如: 使用对数函数 x = log(x + c),其中 c为非负常数; 或者 x = xc ,c为 0-1 之间的一个分数。
(注:在 python 中,通常用 np.log1p() 函数,即 log(x + 1),可以避免出现负数结果,反向函数就是 np.expm1())

2 误差分析
一些异常的数据可能也会有较高的p(x)值,因而被算法认为是正常的。 可以使用误差分析帮我们分析是否存在问题。也许从问题中发现需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。

通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小)。例如增加两个特征值的比例。
例如,在检测计算机状况的例子中,可以用 CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。如下图:

15.7 多元高斯分布 Multivariate Gaussian Distribution (Optional)
1 多元高斯分布的定义
假如我们有两个相关的特征,其值域范围比较宽。一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,得到的判定边界范围比较大。
例如下图中是两个相关特征,粉色的线(根据 ε 的不同其范围可大可小)是原始高斯分布模型获得的判定边界,绿色的 X 点很可能是异常值,但其p(x)值却仍然在正常范围内。
如果使用多元高斯分布,获得蓝色曲线所示的判定边界,范围更小,判定结果会更准确。

回顾下一般的高斯分布模型,通过分别计算每个特征对应的几率,将其累乘起来,得到 p(x)。
而多元高斯分布模型将构建特征的协方差矩阵,使用所有的特征一次性计算出 p(x)。 首先,计算所有特征的平均值,然后再计算协方差矩阵:

其中: μ 是一个向量,其每一个单元都是原特征矩阵中一行数据的均值。
最后我们计算多元高斯分布的p(x):

其中: |Σ|是矩阵的行列式,在 Matlab 中用det(sigma) 计算; Σ-1 是逆矩阵。
2 协方差矩阵对模型的影响
协方差对角线上的值影响图像的平缓程度,逆对角线上的值影响图像的角度(正值为顺时针旋转45度,负值为逆时针45度)。

图像从左往右:
a. 一般的高斯分布模型
b. 令特征 1 拥有较小的偏差,同时保持特征 2 的偏差
c. 令特征 2 拥有较大的偏差,同时保持特征 1 的偏差
d. 在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性
e. 在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性
3 均值 µ 对中心点的影响

15.8 使用多元高斯分布进行异常检测
1 使用多元高斯分布来进行异常检测
步骤:
1) 计算出均值 µ 和协方差矩阵 Σ
2)对新实例 x, 根据公式计算其 p(x) 的值,如果小于 ε 则异常。

2 原始高斯分布模型 和 多元高斯分布模型

可以看出:对于一个多元高斯分布模型,如果其协方差矩阵只有正对角线上元素非零,则退化为原始高斯分布模型。


原高斯分布模型被广泛使用,如果特征之间在某种程度上相互关联,可以通过构造新特征的方法来捕捉这些相关性。
如果训练集不是太大,并且没有太多的特征,可以使用多元高斯分布模型。
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 15—Anomaly Detection异常检测的更多相关文章
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 16—Recommender Systems 推荐系统
Lecture 16 Recommender Systems 推荐系统 16.1 问题形式化 Problem Formulation 在机器学习领域,对于一些问题存在一些算法, 能试图自动地替你学习到 ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 14—Dimensionality Reduction 降维
Lecture 14 Dimensionality Reduction 降维 14.1 降维的动机一:数据压缩 Data Compression 现在讨论第二种无监督学习问题:降维. 降维的一个作用是 ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 13—Clustering 聚类
Lecture 13 聚类 Clustering 13.1 无监督学习简介 Unsupervised Learning Introduction 现在开始学习第一个无监督学习算法:聚类.我们的数据没 ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 12—Support Vector Machines 支持向量机
Lecture 12 支持向量机 Support Vector Machines 12.1 优化目标 Optimization Objective 支持向量机(Support Vector Machi ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 11—Machine Learning System Design 机器学习系统设计
Lecture 11—Machine Learning System Design 11.1 垃圾邮件分类 本章中用一个实际例子: 垃圾邮件Spam的分类 来描述机器学习系统设计方法.首先来看两封邮件 ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 10—Advice for applying machine learning 机器学习应用建议
Lecture 10—Advice for applying machine learning 10.1 如何调试一个机器学习算法? 有多种方案: 1.获得更多训练数据:2.尝试更少特征:3.尝试更多 ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 1_Introduction and Basic Concepts 介绍和基本概念
目录 1.1 欢迎1.2 机器学习是什么 1.2.1 机器学习定义 1.2.2 机器学习算法 - Supervised learning 监督学习 - Unsupervised learning 无 ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 18—Photo OCR 应用实例:图片文字识别
Lecture 18—Photo OCR 应用实例:图片文字识别 18.1 问题描述和流程图 Problem Description and Pipeline 图像文字识别需要如下步骤: 1.文字侦测 ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...
随机推荐
- .NET 中 GetProcess 相关方法的性能
.NET 的 Process 类中提供了查找进程的若干方法,其中部分方法还比较消耗性能.如果你试图优化查找进程相关方法的性能,可能本文分享的一些耗时数据可以作为参考. 性能比较 Process 类 ...
- WPF 中使用附加属性,将任意 UI 元素或控件裁剪成圆形(椭圆)
不知从什么时候开始,头像流行使用圆形了,于是各个平台开始追逐显示圆形裁剪图像的技术.WPF 作为一个优秀的 UI 框架,当然有其内建的机制支持这种圆形裁剪. 不过,内建的机制仅支持画刷,而如果被裁剪的 ...
- 【java基础】java中ArrayList,LinkedList
[一]ArrayList 一ArrayList的内部结构 (1)ArrayList内部维护的是一个Object数组 (2)ArrayList数组扩容后数组的长度的公式:旧的数组长度+(旧数组长度> ...
- 【java基础】java中Object对象中的Hashcode方法的作用
以下是关于HashCode的官方文档定义: hashcode方法返回该对象的哈希码值.支持该方法是为哈希表提供一些优点,例如,java.util.Hashtable 提供的哈希表. hashCode ...
- 日志框架--(二)JDK Logging
前言 从jdk1.4起,JDK开始自带一套日志系统.JDK Logger最大的优点就是不需要任何类库的支持,只要有Java的运行环境就可以使用.相对于其他的日志框架,JDK自带的日志可谓是鸡肋,无论易 ...
- Youtube 视频下载
Youtube 视频下载 由于特殊原因,需要下载 Youtube 的视频. https://www.clipconverter.cc/
- Django ORM哪些操作
一般操作 看专业的官网文档,做专业的程序员! 必知必会13条 <1> all(): 查询所有结果 <2> filter(**kwargs): 它包含了与所给筛选条件相匹配的对象 ...
- VirtulBox安装虚拟机(鼠标点击时)0x00000000指令引用的0x00000000内存该内存不能为written错误解决方案
这个错误并不是所有人都会用到,我用的是WIN7系统,公司的电脑.查找了很多原因后,发现的确是由于系统主题被破解过的原因. 手工恢复风险太高.通过下面的工具就可以直接恢复.UniversalThemeP ...
- Spring链接汇总
Spring Boot专题 基础入门内容 SpringBoot快速入门 Why Spring Boot 使用Intellij中的Spring Initializr来快速构建Spring Boot/Cl ...
- CMD中文显示为乱码
中文显示为乱码 临时解决方案: 在 CMD 中运行 chcp 936. 永久解决方案: 打开不正常的 CMD 或命令提示符窗口后,单击窗口左上角的图标,选择弹出的菜单中的“默认值”,打开如下图的对话框 ...