11. 机器学习系统的设计

觉得有用的话,欢迎一起讨论相互学习~Follow Me

参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广

11.3 偏斜类的误差度量 Error Metrics for Skewed Classes

偏斜类 Skewed Classes

类偏斜情况表现为训练集中有非常多的同一种类的实例，只有很少或没有其他类的实例

示例

例如我们希望用算法来预测癌症是否是恶性的，在我们的训练集中，只有0.5%的实例是恶性肿瘤。假设我们编写一个非学习而来的算法，在所有情况下都预测肿瘤是良性的，那么误差只有 0.5%。然而我们通过训练而得到的神经网络算法却有 1%的误差。这时，误差的大小是不能视为评判算法效果的依据的

查准率(准确率 Precision)和查全率(召回率 Recall)

正确肯定（True Positive,TP）：预测为真，实际为真
正确否定（True Negative,TN）：预测为假，实际为假
错误肯定（False Positive,FP）：预测为真，实际为假
错误否定（False Negative,FN）：预测为假，实际为真

查准率=TP/（TP+FP）例，在所有我们预测有恶性肿瘤的病人中，实际上有恶性肿瘤的病人的百分比，越高越好。
查全率=TP/（TP+FN）例，在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的病人的百分比，越高越好。
这样，对于总是预测病人肿瘤为良性的算法，其查全率是 0

11.4 查准率和查全率之间的权衡 Trading Off Precision and Recall

首先回顾 查准率(Precision) 和 查全率(Recall) 的定义,其中 \[Precision=\frac{true\ positives}{num\ of\ predicted\ positive}\] \[Recall=\frac{true\ positives}{num\ of\ actual\ positive}\]
查准率（Precision）=TP/（TP+FP）例，在所有预测有恶性肿瘤的病人中，实际上有恶性肿瘤的病人的百分比，越高越好。
查全率（Recall）=TP/（TP+FN）例，在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的病人的百分比，越高越好
继续沿用刚才预测肿瘤性质的例子。一般情况下算法输出的结果在 0-1 之间，表示患者得肿瘤的概率，并且使用阀值 0.5 来预测真和假。
如果 希望只在非常确信的情况下预测为真（肿瘤为恶性） ，即希望 更高的查准率 ，可以使用比0.5更大的阀值，如0.7，0.9。这样做可以减少错误预测病人为恶性肿瘤的情况，但同时会增加未能成功预测肿瘤为恶性的情况。
如果 希望提高查全率 ，尽可能地让所有有可能是恶性肿瘤的病人都得到进一步地检查、诊断，可以使用比 0.5 更小的阀值 如 0.3。
对于同一个机器学习系统不同的阈值往往对应 不同的查准率和查全率 ，那如何选择阈值才能平衡查准率和查全率，使其都有较好的结果呢？

F1值
使用F1值: \[F1\ Score=2 * \frac{P * R}{P+R}\] 其中P表示 查准率 ，R 表示 查全率 。选择F1值最高的阈值。

[吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数的更多相关文章

Coursera课程《Machine Learning》吴恩达课堂笔记
强烈安利吴恩达老师的<Machine Learning>课程,讲得非常好懂,基本上算是无基础就可以学习的课程. 课程地址强烈建议在线学习,而不是把视频下载下来看.视频中间可能会有一些问题 ...
【Deeplearning.ai 】吴恩达深度学习笔记及课后作业目录
吴恩达深度学习课程的课堂笔记以及课后作业代码下载:https://github.com/douzujun/Deep-Learning-Coursera 吴恩达推荐笔记:https://mp.weix ...
笔记：《机器学习训练秘籍》——吴恩达deeplearningai微信公众号推送文章
说明该文为笔者在微信公众号:吴恩达deeplearningai 所推送<机器学习训练秘籍>系列文章的学习笔记,公众号二维码如下,1到15课课程链接点这里该系列文章主要是吴恩达先生在机器 ...
吴恩达《机器学习》课程笔记——第六章：Matlab/Octave教程
上一篇 ※※※※※※※※ [回到目录] ※※※※※※※※ 下一篇这一章的内容比较简单,主要是MATLAB的一些基础教程,如果之前没有学过matlab建议直接找一本相关书籍,边做边学,matl ...
吴恩达(Andrew Ng)——机器学习笔记1
之前经学长推荐,开始在B站上看Andrew Ng的机器学习课程.其实已经看了1/3了吧,今天把学习笔记补上吧. 吴恩达老师的Machine learning课程共有113节(B站上的版本https:/ ...
ML:吴恩达机器学习课程笔记(Week1~2)
吴恩达(Andrew Ng)机器学习课程:课程主页由于博客编辑器有些不顺手,所有的课程笔记将全部以手写照片形式上传.有机会将在之后上传课程中各个ML算法实现的Octave版本. Linear Reg ...
Coursera 吴恩达机器学习学习笔记
Week 1 机器学习笔记(一)基本概念与单变量线性回归 Week 2 机器学习笔记(二)多元线性回归机器学习作业(一)线性回归——Matlab实现机器学习作业(一)线性回归——Python( ...
第19月第8天斯坦福大学公开课机器学习（吴恩达 Andrew Ng）
1.斯坦福大学公开课机器学习 (吴恩达 Andrew Ng) http://open.163.com/special/opencourse/machinelearning.html 笔记 http:/ ...
我在 B 站学机器学习（Machine Learning）- 吴恩达（Andrew Ng）【中英双语】
我在 B 站学机器学习(Machine Learning)- 吴恩达(Andrew Ng)[中英双语] 视频地址:https://www.bilibili.com/video/av9912938/ t ...

随机推荐

1019psp
1.本周psp: 2.本周进度条: 3.累计进度图(折线图): 4.psp饼状图:
Python：集合操作总结
集合是一组无序排列的不重复元素集 [注]:集合的最大作用是对一个序列进行去重操作一.集合的分类在Python中集合分为两类,为可变集合(set)和不可变集合(frozenset).对于可变集合(s ...
各团队对《t铁大导航》评价及我组回复
组名对我们组的建议我组回复 (1)跑男你们的导航前期要做到什么样的程度呢?其实我一直是很期待你们完成时我能够用你们的导航来感受一下咱们铁大校园风情.你们用了数据结构算法来找最短路径,那你们能不能 ...
tensorflow之曲线拟合
视频链接:https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/ 1.定义层定义 add_layer() from __f ...
C语言的问卷调查
1.你对自己的未来有什么规划?做了哪些准备? 未来想当一个网络工程师,为了这个目标我正在努力学习网络.网页及相关的知识. 2.你认为什么是学习?学习有什么用?现在学习动力如何?为什么? 学习就是不断尝 ...
利用书签功能对TDBGrid控件中多个记录的处理
DELPHI 的TDBGrid 控件主要用来处理数据表, 它的属性中有一个dgMultiSelect, 若此属性设定为TRUE, 则可以选中多 ...
IPv4编址及子网划分
在讨论IP编址之前,我们需要讨论一下主机与路由器连入网络的方法.一台主机通常只有一条链路链接到网络:当主机中的IP想发送一个数据报时,它就在链路上发送,主机与物理链路之间的边界叫做接口(interfa ...
python获取toast 验证
appium版本 1.6.3 desired_caps['automationName']='uiautomator2' def _find_toast(self,message,timeou ...
Web前端面试宝典（最新）
第一部分:HTML问答题 1.简述一下你对HTML语义化的理解? 用正确的标签做正确的事情. html语义化让页面的内容结构化,结构更清晰,便于对浏览器.搜索引擎解析;即使在没有样式CSS情况下也 ...
第102天：CSS3实现立方体旋转
CSS3实现立方体旋转 <!DOCTYPE html> <html lang="en"> <head> <meta charset=&qu ...

[吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数

11. 机器学习系统的设计

觉得有用的话,欢迎一起讨论相互学习~Follow Me

11.3 偏斜类的误差度量 Error Metrics for Skewed Classes

偏斜类 Skewed Classes

示例

查准率(准确率 Precision)和查全率(召回率 Recall)

11.4 查准率和查全率之间的权衡 Trading Off Precision and Recall

F1值

[吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数的更多相关文章

随机推荐

热门专题