前面两篇介绍了分类模型评估的两类方法，准确率分析和损失分析，
本篇介绍的杰卡德相似系数和马修斯相关系数为我们提供了不同的角度来观察模型的性能，
尤其在不平衡数据场景中，它们更能体现出其独特的价值。

接下来，让我们一起了解这两个评估指标的原理与特点。

1. 杰卡德相似系数

杰卡德相似系数（Jaccard similarity coefficient）用于衡量两个集合的相似度。
在分类模型中，通常将每个类别看作一个集合，然后计算模型预测结果与实际结果之间的杰卡德相似系数。

杰卡德相似系数能够直观地反映模型预测的准确性，并且对于不平衡数据集具有一定的鲁棒性。
它特别适用于二元分类问题，但也可以扩展到多类分类问题中。

1.1. 计算公式

\(J(y, \hat{y}) = \frac{|y \cap \hat{y}|}{|y \cup \hat{y}|}\)
其中，\(y\)是真实值，\(\hat y\)是预测值。

1.2. 使用示例

import numpy as np

from sklearn.metrics import jaccard_score

n = 100

k = 2

y_true = np.random.randint(0, k, n)

y_pred = np.random.randint(0, k, n)

s = jaccard_score(y_true, y_pred)

print("jaccard score：{}".format(s))

# 运行结果：

jaccard score：0.36585365853658536

上面的示例中，是针对二分类数据（k=2）来计算杰卡德相似系数的。

如果是多分类的数据，需要设置jaccard_score的average参数，否则会报错。
average参数主要有以下选项：

binary：仅当目标是二分类时才适用
micro：通过计算总的真阳性、假阴性和假阳性来计算全局指标
macro：计算每个标签的指标，并找到它们的未加权平均值
weighted：计算每个标签的指标，并找到其平均值，并按支持度（每个标签的真实实例数）加权
samples：计算每个实例的指标，并找到它们的平均值（仅对多标签分类有意义）

import numpy as np

from sklearn.metrics import jaccard_score

n = 100

k = 5

y_true = np.random.randint(0, k, n)

y_pred = np.random.randint(0, k, n)

s1 = jaccard_score(y_true, y_pred, average="micro")

s2 = jaccard_score(y_true, y_pred, average="macro")

s3 = jaccard_score(y_true, y_pred, average="weighted")

print("jaccard score：\nmicro：{}\nmacro：{}\nweighted：{}".format(s1, s2, s3))

# 运行结果：

jaccard score：

micro：0.0989010989010989

macro：0.09772727272727273

weighted：0.09639935064935062

上面的示例是多分类的情况，不设置 average参数的话，会报错。

2. 马修斯相关系数

马修斯相关系数（Matthews correlation coefficient）是一种用于衡量二分类模型性能的指标，
它考虑了真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）四个方面的信息。

马修斯相关系数对于不平衡数据集具有较好的适应性，并且能够综合考虑模型的真正例率和真负例率。
与准确率、召回率等指标相比，马修斯相关系数在处理不平衡数据集时更为可靠。

2.1. 计算公式

\(MCC = \frac{tp \times tn - fp \times fn}{\sqrt{(tp + fp)(tp + fn)(tn + fp)(tn + fn)}}\)

关于 \(tp\)，\(tn\)，\(fp\)，\(fn\)的概念，参见下表：

	实际结果（真）	实际结果（假）
预测结果（真）	tp（true positive）真阳性	fp（false positive）假阳性
预测结果（假）	fn（false negative）假阴性	tn（true negative）真阴性

2.2. 使用示例

import numpy as np

from sklearn.metrics import matthews_corrcoef

n = 100

k = 2

y_true = np.random.randint(0, k, n)

y_pred = np.random.randint(0, k, n)

s = matthews_corrcoef(y_true, y_pred)

print("matthews corrcoef：{}".format(s))

# 运行结果

matthews corrcoef：0.028231544780468854

上面示例中，用的随机样本数据是二分类（k=2）的，不过，马修斯相关系数对多分类数据也是支持的。

3. 总结

总的来说，杰卡德相似系数和马修斯相关系数为我们提供了更全面、更深入的分类模型性能评估视角。
尤其是在处理不平衡数据集时，这两个指标的表现尤为突出。

杰卡德相似系数从集合相似度的角度展现了模型的预测准确性，
而马修斯相关系数则综合考虑了各类别的预测情况，为模型的整体性能给出了更为准确的反馈。

【scikit-learn基础】--『分类模型评估』之系数分析的更多相关文章

分类模型评估之ROC-AUC曲线和PRC曲线
http://blog.csdn.net/pipisorry/article/details/51788927 在样本分布及其不均匀的情况下,建议用PRC...可以看下这个精确率.召回率.F1 值.R ...
笔记︱风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记源于CDA-DSC课程,由常国珍老师主讲 ...
风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）
python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...
Scikit-learn：模型评估Model evaluation
http://blog.csdn.net/pipisorry/article/details/52250760 模型评估Model evaluation: quantifying the qualit ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
『高性能模型』轻量级网络ShuffleNet_v1及v2
项目实现:GitHub 参考博客:CNN模型之ShuffleNet v1论文:ShuffleNet: An Extremely Efficient Convolutional Neural Netwo ...
2017-2018-2 20155303『网络对抗技术』Exp9：Web安全基础
2017-2018-2 『网络对抗技术』Exp9:Web安全基础 --------CONTENTS-------- 一.基础问题回答 1.SQL注入攻击原理,如何防御? 2.XSS攻击的原理,如何防御 ...
『高性能模型』HetConv: HeterogeneousKernel-BasedConvolutionsforDeepCNNs
论文地址:HetConv 一.现有网络加速技术 1.卷积加速技术作者对已有的新型卷积划分如下:标准卷积.Depthwise 卷积.Pointwise 卷积.群卷积(相关介绍见『高性能模型』深度可分离 ...
『高性能模型』轻量级网络MobileNet_v2
论文地址:MobileNetV2: Inverted Residuals and Linear Bottlenecks 前文链接:『高性能模型』深度可分离卷积和MobileNet_v1 一.Mobil ...

随机推荐

Qt 的Cmake方式如何创建资源文件和添加类
CLion(误,QT Creator) 添加资源文件时选择Qt 然后选择Qt Resource File 单击choose,然后给你的资源文件输入一个名字比如res单击下一步,然后完成,保存这时候 ...
Latex公式排版问题总结
Latex写博客和论文,因为有模板,所以用起来还是很方便的. 但是在实际使用中,由于论文是双栏的,因此比较长的公式在排版时会比较困难.下面对Latex中的公式排版方法做一些记录. Latex公式排版( ...
CF(codeforces)如何保持紫名及以上？
虽然我还是连绿名都没,但还是想学习大牛们的学习方法,加油尽早上分. 转自知乎之前在 CF 上看到一条不错的评论 https://codeforces.com/blog/entry/66715?#co ...
Problem 330A - Cakeminator （思维）
330A. Cakeminator https://codeforces.com/problemset/problem/330/A 题意很容易理解:给定一块蛋糕区域,但蛋糕上有几个不能吃的草莓,大胃王 ...
AtCoder ABC 181 个人题解（本场GJ x 3）
补题链接:Here A - Heavy Rotation 对 \(N\) 进行奇偶判断,奇数穿 Black .偶数穿 White B - Trapezoid Sum 前 \(n\) 项和公式:\(S_ ...
h5响应式方案设计
C#通过泛型实现对子窗体的不同操作
private void button1_Click(object sender, EventArgs e) { FormOperate<object>();//调用FormOperate ...
解决Xshell/Xftp提示“要继续使用此程序必须应用到最新的更新或者新版本”（临时规避和彻底解决方案）
一.xshell与xftp登录时提示,但是更新却又每次都失败,无法登录二. 临时规避方案:手动修改日期为1年前,问题解决软件可以打开,但是每次启动都要手动修改,甚是麻烦三.彻底解决方案,修改xs ...
python代码打包exe程序
1.安装pyinstaller 命令行输入:pip install pyinstaller 2.打包exe程序输入命令:pyinstaller -F -w *.py(星号是.py的全部路径) pyi ...
java进阶(9)--数组
一.基本概念: 1.数字为引用数据类型 2.数组实际上是一个容器,可以同时容纳多个元素 3.数组可存储基本数据类型,也可以存储引用数据类型的数据 4.数组一旦创建.长度不可变.且数组中元素类型必须统一 ...

【scikit-learn基础】--『分类模型评估』之系数分析