异常值检测 —— MAD（median absolute deviation）

未雨愁眸 2024-10-23 06:15:48 原文

MAD 定义为，一元序列 Xi" role="presentation">XiXi 同其中位数偏差的绝对值的中位数（deviation，偏差本身有正有负）；

MAD=median(|Xi−median(X)|)" role="presentation">MAD=median(|Xi−median(X)|)MAD=median(|Xi−median(X)|)

1. MAD 用于异常点的检测

假定数据服从正态分布，我们让异常点（outliers）落在两侧的 50% 的面积里，让正常值落在中间的 50% 的区域里：

P(|X−μ|≤MAD)=P(|X−μ|σ≤MADσ)=P(Z≤MADσ)=1/2" role="presentation">P(|X−μ|≤MAD)=P(|X−μ|σ≤MADσ)=P(Z≤MADσ)=1/2P(|X−μ|≤MAD)=P(|X−μ|σ≤MADσ)=P(Z≤MADσ)=1/2

其中 P(Z≤MADσ)=Φ(MADσ)−Φ(−MADσ)=1/2" role="presentation">P(Z≤MADσ)=Φ(MADσ)−Φ(−MADσ)=1/2P(Z≤MADσ)=Φ(MADσ)−Φ(−MADσ)=1/2，又由 Φ(−a)=1−Φ(a)" role="presentation">Φ(−a)=1−Φ(a)Φ(−a)=1−Φ(a)，可 Φ(MAD/σ)=3/4" role="presentation">Φ(MAD/σ)=3/4Φ(MAD/σ)=3/4 ⇒ MAD/σ=Φ−1(3/4)" role="presentation">MAD/σ=Φ−1(3/4)MAD/σ=Φ−1(3/4)，查表可知，MAD/σ" role="presentation">MAD/σMAD/σ=0.6749。

from scipy.stats import norm

def mad_based_outlier(points, thresh=3.5):

    if type(points) is list:

        points = np.asarray(points)

    if len(points.shape) == 1:

        points = points[:, None]

    med = np.median(points, axis=0)

    abs_dev = np.absolute(points - med)

    med_abs_dev = np.median(abs_dev)

    mod_z_score = norm.ppf(0.75) * abs_dev / med_abs_dev

    return mod_z_score > thresh

2. MAD 与基于分位数方法的对比

MAD 的方法相对于分位数方法的一大优势即在于 MAD 方法对样本大小是不敏感也即是稳定的鲁棒的一种评价指标。

def percentile_based_outlier(data, threshold=95):

    diff = (100 - threshold) / 2.0

    minval, maxval = np.percentile(data, [diff, 100 - diff])

    return (data < minval) | (data > maxval)

Pythonic way of detecting outliers in one dimensional observation data

异常值检测 —— MAD（median absolute deviation）的更多相关文章

Median absolute deviation | Singular Value Decomposition奇异值分解 | cumulative sums |
Consider the data (1, 1, 2, 2, 4, 6, 9). It has a median value of 2. The absolute deviations about 2 ...
kaggle信用卡欺诈看异常检测算法——无监督的方法包括：基于统计的技术，如BACON *离群检测多变量异常值检测基于聚类的技术；监督方法：神经网络 SVM 逻辑回归
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...
异常值检测方法（Z-score,DBSCAN,孤立森林）
机器学习_深度学习_入门经典(博主永久免费教学视频系列) https://study.163.com/course/courseMain.htm?courseId=1006390023&sh ...
【Udacity】异常值检测/删除
Outlier Detection
异常值检测（Detecting Outliers）
Most statistical approaches to outlier detection are based on building a probability distribution mo ...
<数据挖掘导论>读书笔记2
1.频率和众数 frequency(vi)=具有属性值vi的对象数/m 分类属性的众数mode是具有最高频率的值. 2.百分位数 3.位置度量:均值和中位数 4.散布度量:极差和方差绝对平均偏差 A ...
Abnormal Detection（异常检测）和 Supervised Learning（有监督训练）在异常检测上的应用初探
1. 异常检测 VS 监督学习 0x1:异常检测算法和监督学习算法的对比总结来讲: . 在异常检测中,异常点是少之又少,大部分是正常样本,异常只是相对小概率事件 . 异常点的特征表现非常不集中,即异 ...
时间序列异常检测算法S-H-ESD
1. 基于统计的异常检测 Grubbs' Test Grubbs' Test为一种假设检验的方法,常被用来检验服从正太分布的单变量数据集(univariate data set)\(Y\) 中的单个异 ...
python 数据可视化 -- 清理异常值
中位数绝对偏差(Median Absolute Deviation, MAD)用来描述单变量(包含一个变量)样本在定量数据中可变性的一种标准.常用来度量统计分布,因为它会落在一组稳健的统计数据中,因此 ...

随机推荐

C# 语法特性 - 泛型（C#2.0）
泛型将类型参数的概念引入了 .NET Framework. 泛型主要有两个优点: 1.编译时可以保证类型安全. 2.不用做类型转换,获得一定的性能提升. 泛型方法.泛型委托.泛型接口除了泛型类之 ...
FJUT16级第一周寒假作业题解G题
题目链接:http://210.34.193.66:8080/vj/Contest.jsp?cid=160#P6 涨姿势题1 TimeLimit:1000MS MemoryLimit:128000K ...
Django之路由分配系统
前言: Django大致工作流程 1.客户端发送请求(get/post)经过web服务器.Django中间件. 到达路由分配系统 2.路由分配系统根据提取 request中携带的的url路径(path ...
TortioseSVN切换账号教程
TorioseSVN如果不记住用户名密码那么基本每样连接服务器的操作都要重新请求认证这很麻烦,所以我们一般选择记住用户认证信息. 但记住用户认证信息后以后每次登录都后台自动以该用户身份登录,不像QQ自 ...
EventBus简单封装
前言以前每个页面与每个页面业务逻辑传递让你不知所措,一个又一个接口回调,让你晕头转向,一个又一个参数让你混乱不堪.EventBus一个耦合度低的让你害怕的框架. 什么是EventBus EventB ...
vue 添加vux
1.命令添加vux npm install vux --save 2.在build/webpack.base.conf.js中配置 const vuxLoader = require('vux-loa ...
R中sort(), rank(), order()
在R中,和排序相关的函数主要有三个:sort(),rank(),order(). sort(x)是对向量x进行排序,返回值排序后的数值向量.rank()是求秩的函数,它的返回值是这个向量中对应元素的“ ...
Vue + Element UI 实现权限管理系统（工具模块封装）
封装 axios 模块封装背景使用axios发起一个请求是比较简单的事情,但是axios没有进行封装复用,项目越来越大,会引起越来越多的代码冗余,让代码变得越来越难维护.所以我们在这里先对 axi ...
自定义xadmin后台首页
登陆xadmin后台,首页默认是空白,可以自己添加小组件,xadmin一切都是那么美好,但是添加小组件遇到了个大坑,快整了2个礼拜,最终实现想要的界面.初始的页面如图: 本机后台显示这个页面正常,do ...
WPF 基于Adorner实现类似Popup效果
1. 什么是Adorner 装饰器是一种特殊类型的FrameworkElement,可用来向用户提供可视提示. 装饰器有很多用途,可用来向元素添加功能句柄,或者提供有关某个控件的状态信息. 2. ...