作者：韩信子@ShowMeAI

数据分析实战系列：https://www.showmeai.tech/tutorials/40

机器学习实战系列：https://www.showmeai.tech/tutorials/41

本文地址：https://www.showmeai.tech/article-detail/331

声明：版权所有，转载请联系平台与作者并注明出处

收藏ShowMeAI查看更多精彩内容

数据漂移

The Only Constant in Life Is Change. 世界上唯一不变的就是变化本身。

这是一句来自希腊的哲学家赫拉克利特写的话，它很简单但却道出了世界的真理之一。在数据科学与机器学习领域，这句话同样是非常有意义的，在生产中部署机器学习模型的许多实际应用中，数据通常会随着时间的推移而变化，因此之前构建的模型会随着时间的推移而变得不准确，效果大打折扣，这就是典型的数据漂移问题。

真实案例

2022年3月17日至4月6日，信用报告机构 Equifax 的系统出现问题，导致 信用评分不正确，影响到百万级别的消费者，并导致了针对公司的法律索赔和集体诉讼，业内专家称，这个问题的根源就是数据漂移。

数据漂移

何为数据漂移

当我们在使用数据科学方法解决场景问题时，得到方案之后，在实际生产环境中，如果我们拿到的实时预测数据，分布与用于训练模型的训练数据分布有差异时，就发生了『数据漂移』，而它的后果就是预估不再准确，效果下降甚至直接影响公司的收益。

简单的例子，例如用『口罩政策』之前的互联网数据建模，对『口罩政策』实施时的用户行为预估，那一定会有偏差；又如我们用日常数据建模，构建电商推荐系统，在 618 和双11当天预测，可能也会有偏差，模型效果下降。

训练数据和生产数据之间的差异可能是由多种因素造成的。可能本来使用的训练数据就不合适。

例如，如果使用美国道路数据集训练和检测道路状况，应用在中国的道路上，效果就会差非常多，这也是明显的数据漂移。

现代互联网时代，没分每秒都迅速产生海量大数据，我们的数据源呈现爆炸式增长也更容易会有变化。我们并不能每次都提前预判到『数据漂移』问题，甚至有时候我们会遇到特殊的网络攻击，基于『数据漂移』的知识进行调整和切换攻击方式。

例如，我们基于历史数据构建了效果非常良好的垃圾邮件检测功能，但攻击者可能在某个时候改变发送垃圾邮件的行为，因为送入模型的数据发生了变化，我们原本构建的模型可能真的会被『欺骗』。

因此，很重要的是，我们需要有一套比对和检测的机制，可以及时发现『数据漂移』，并对其进行处理。

检测方法概述

有很多数据漂移的检测方法，最简单的方式是基于统计方法来比较『训练数据』（称为基线或参考）和『实时数据』（生产数据）的分布，如果两个分布之间有着显着差异，我们就判断为发生数据漂移。

最流行的统计检验方法包括 Kolmogorov-Smirnov 检验、卡方检验、 Jensen-Shannon 散度、 Wasserstein 距离。另一类方法是使用机器学习模型来监控数据质量。我们也可以把两类方法混合使用。

实际生产环境中，统计的方法使用得很多，它们简单且有很不错的效果。下面 ShowMeAI 就基于代码告诉大家如何进行『数据漂移』检测。

代码实现

数据漂移检测

我们在这里会使用到 evidently 这个非常简单易用的工具库，它是一个专门针对『数据漂移』问题构建的工具库，可以对数据 / 标签 / 模型表现等进行检测，不仅可以输出报告，还可以启动实时看板监控。

下面导入工具库

import pandas as pd

from sklearn import datasets

from evidently.dashboard import Dashboard

from evidently.dashboard.tabs import DataDriftTab, CatTargetDriftTab

evidently的使用步骤如下，我们会先加载数据，然后做漂移分析和检测，最后可以构建看板进行分析结果的呈现。

我们使用sklearn自带的 iris 数据集作为示例来给大家讲解，我们把对应的数据和标签读取出来。

iris = datasets.load_iris()

iris_frame = pd.DataFrame(iris.data, columns = iris.feature_names)

iris_frame['target'] = iris.target

我们把完整的数据集切分为训练集和测试集，对其进行对比和数据漂移分析，最后构建仪表盘看板：

iris_data_drift_report = Dashboard(tabs=[DataDriftTab(verbose_level=verbose),

                                         CatTargetDriftTab(verbose_level=verbose)])

iris_data_drift_report.calculate(iris_frame[:75], iris_frame[-new_samples:], column_mapping = None)

iris_data_drift_report.show(mode="inline")

注意到参数verbose，它是布尔值，用于控制显示仪表板的详细程度。上述代码中我们设置为 False，会得到一个报告如下，里面详细分析了训练集和测试集的『特征字段』和『标签』的分布差异情况：

我们也可以通过下列代码去打开看板和存储html报告。

iris_target_drift_dashboard.show()

iris_target_drift_dashboard.save('iris_target_drift.html')

参考资料

Equifax issued wrong credit scores for millions of consumers：https://www.cnn.com/2022/08/03/business/equifax-wrong-credit-scores/index.html
Kolmogorov-Smirnov 检验：https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
卡方检验：https://en.wikipedia.org/wiki/Chi-squared_test
Jensen-Shannon 散度：https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence
Wasserstein 距离：https://en.wikipedia.org/wiki/Wasserstein_metric

2022！影响百万用户金融信用评分，Equifax被告上法庭，罪魁祸首——『数据漂移』！⛵的更多相关文章

【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分
背景如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应 ...
MongoDB的真正性能-实战百万用户
阅读目录一.第一个问题:Key-Value数据库可以有好多的Key,没错,但对MongoDB来说,大错特错二.第二个问题:FindOne({_id:xxx})就快么? 三.第三个问题:精细的使用U ...
笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记源于CDA-DSC课程,由常国珍老师主讲 ...
3分钟搞明白信用评分卡模型&模型验证
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广 ...
WOE:信用评分卡模型中的变量离散化方法（生存分析）
WOE:信用评分卡模型中的变量离散化方法 2016-03-21 生存分析在做回归模型时,因临床需要常常需要对连续性的变量离散化,诸如年龄,分为老.中.青三组,一般的做法是ROC或者X-tile等等. ...
信用评分卡Credit Scorecards （1-7）
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 python风控评分卡建模和风控常识 https://study.163.com/course/introductio ...
评分模型的检验方法和标准&信用评分及实现
评分模型的检验方法和标准通常有:K-S指标.交换曲线.AR值.Gini数等.例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成 ...
逻辑回归原理_挑战者飞船事故和乳腺癌案例_Python和R_信用评分卡（AAA推荐）
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...
信用评分卡（A卡/B卡/C卡）的模型简介及开发流程｜干货
https://blog.csdn.net/varyall/article/details/81173326 如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户 ...
信用评分卡 (part 7 of 7)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...

随机推荐

第五十三篇：Vue安装Element ui
好家伙,之前写的一篇过时了,用不了了,更新一波 (已新建一个vue项目) 1. 在项目目录下执行:npm i element-ui -S 2. 在main.js中写入 import ElementUI ...
[SDR] GNU Radio 系列教程（一） —— 什么是 GNU Radio
目录 1.GNU Radio 是什么 2.我为什么要用 GNU Radio 3.数字信号处理 3.1 一点信号理论 3.2 将数字信号处理应用于无线电传输 4.基于流程图的模块化数字信号处理方法本文 ...
mysql杂记漫谈
Hello,大家好,我是烤鸭,这几天消失了一下,主要是线上系统出了点小bug和sql性能问题,在努力搬砖,就把之前的设计模式系列放了一下下,正好趁这个复习巩固了一下sql执行计划和sql优化等相关的东 ...
linux下搭建ftp文件服务器
linux下搭建ftp文件服务器一.搭建步骤(以在centos7中搭建为例) 1.首先检查一下系统中是否已经安装了vsftpd软件 # 查看是否安装vsftpd rpm -q vsftpd rpm ...
使用mbr2gpt将MBR磁盘转换为GPT磁盘
随着越来越多的新PC的到来,UEFI启动渐渐的取代了BIOS启动方式.不过UEFI需要从GPT磁盘启动,原来的MBR磁盘不行.如果你更换了硬件,只想把磁盘拿到新平台上用又不想重装系统的话就麻烦了.以前 ...
《Java基础——构造器（构造方法）》
Java基础--构造器(构造方法) 总结: 1.构造器名应与类名相同,且无返回值. 2."new 方法"的本质就是在调用构造器. 3.构造器的作用--初始化对象的值. ...
基于OpenHarmony的智能喝水提醒器
一.硬件说明 Neptune OpenHarmony物联网IOT模组Wi-Fi&蓝牙双模开发板.超声波模块.蜂鸣器模块.杜邦线若干开发板相关资料:https://gitee.com/hiho ...
Django 之复制粘贴必备命令(补)
一.Django 常用命令 pip install django==3.2 pip show django pip list django-admin startproject mysite pyth ...
使用 Docker 安装 Elastic Stack 8.0 并开始使用
文章转载自:https://mp.weixin.qq.com/s/fLnIzbbqYfILS6uCvGctXw 运行 Elasticsearch docker network create elast ...
ElastAlert监控日志告警Web攻击行为---tomcat和nginx日志json格式
一.ELK安装 1.2 elk配置 logstash自定义配置文件,取名为filebeat_log.conf : input { beats { port => 5044 client_inac ...

2022！影响百万用户金融信用评分，Equifax被告上法庭，罪魁祸首——『数据漂移』！⛵

数据漂移

真实案例

数据漂移

何为数据漂移

检测方法概述

代码实现

数据漂移检测

参考资料

2022！影响百万用户金融信用评分，Equifax被告上法庭，罪魁祸首——『数据漂移』！⛵的更多相关文章

随机推荐

热门专题