Lecture 11—Machine Learning System Design

11.1 垃圾邮件分类

本章中用一个实际例子：垃圾邮件Spam的分类来描述机器学习系统设计方法。首先来看两封邮件，左边是一封垃圾邮件Spam，右边是一封非垃圾邮件Non-Spam：

垃圾邮件有很多features。如果我们想要建立一个Spam分类器，就要进行有监督学习，将Spam的features提取出来，而希望这些features能够很好的区分Spam。

事实上，对于spam分类器，通常选取spam中词频最高的100个词来做feature。
为了构建分类器算法，可能有很多策略：
1. 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本
2. 基于邮件的路由信息开发一系列复杂的特征
3. 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
4. 为探测刻意的拼写错误(把 watch 写成 w4tch)开发复杂的算法

11.2 误差分析 Error Analysis

构建一个学习算法的推荐方法为:
1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势

例如下图中，对100个分类错误的邮件进行人工分析，左边区分了它们的类型分布，右边分析没有被正确分类的原因。

在误差分析的时候，不能单纯依靠直觉gut feeling ，而是用数字体现。

例如，对于discount/discounts/discounted/discounting 是否被视为都含有discount这个feature。如果看作含有这个feature，结果有3%的error；如果不看做有这个feature，则有5%的error。以此进行比较。
注：使用Porter stemmer 这种软件可以合并类似的单词，但是也可能引发错误。

11.3 类偏斜的误差度量 Error Metrics for Skewed Classes

Skewed Classes：一个分类问题，结果仅有两类y=0和y=1，其中一类样本非常多、另一类非常少。
对于偏斜数据集，如果单纯考虑准确率accuracy，会导致有时候模型预测的结果，还不如全部判断为1或者全部判断0 的结果好。所以需要引入另外一些辅助度量指标

考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况：
1. 正确肯定(True Positive,TP)：预测为真,实际为真
2. 正确否定(True Negative,TN)：预测为假,实际为假
3. 错误肯定(False Positive,FP)：预测为真,实际为假
4. 错误否定(False Negative,FN)：预测为假,实际为真

这样就可以建立一个Error Metrics（下图左），并定义precision和recall，如下图所示：

计算公式：

precision：正确预测的正样本/所有预测为正样本的
recall：正确预测正样本/真实值为正样本的；

假设有一个spam分类任务，测试集只有1%为spam邮件（y=1），99%为non-spam邮件（y=0）。

（1）如果全都分类为non-spam 非垃圾邮件：

precision=0/(0+1)=0，recall=0/(0+99)=0，accurancy=(0+99)/100*100% = 99%

可以看出虽然acuracy 很高，但是recall 和 precision都是0，模型不合格。

（2）如果全都分类为spam 垃圾邮件：

precision=1/(99+1)*100%=1%, recall=1/(1+0)*100%=100%， accurancy=(1+0)/100*100% = 1%

precision 和 accuracy 都很低，模型也不合格。

所以，无论数据集是否偏斜，需要满足precision 和 recall 都很高才可以保证该算法的实用性。

11.4 查准率Precision 和查全率Recall 之间的权衡

分类结果在0-1之间，所以我们需要选择一个阈值，大于阈值的分类为1，小于阈值的分类为0。

precision-recall 和阈值的关系如下：

threshould 设定越高，查准率Precision越高、查全率Recall越低。因为判断的准、但有更多正例被漏掉。

threshould 设定越低，查准率Precision越低、查全率Recall越高。因为找的全，但有更多负例被错判为正例。

那么如何选择阈值？我们引入一个评价标准 F₁Score，选择使F₁值最大的阈值

下面这个例子中，算法1的F₁值最高

11.5 数据集的大小

对于机器学习，通常可以选择很多不同的算法进行预测，随着训练集规模增大，Accuracy一般会提高：

但事实上，单纯增大数据集并不能解决一切问题。如果数据集中含的信息很少（比如想对房价进行预测，但是只有面积数据。这时候即使增加数据、或者对模型在面积这个feature上进行多项式处理，也起不到好的效果）

总之，结论为：

如果模型欠拟合，即偏差bias大：那就要增加特征（对神经网络增加hidden units）;

如果模型过拟合，即方差variance大：那就要增大数据集，使得Jcv ≈ Jtrain ，从而降低过拟合。

【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 11—Machine Learning System Design 机器学习系统设计的更多相关文章

Machine Learning - XI. Machine Learning System Design机器学习系统的设计(Week 6)
http://blog.csdn.net/pipisorry/article/details/44119187 机器学习Machine Learning - Andrew NG courses学习笔记 ...
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 9_Neural Networks learning
神经网络的学习(Neural Networks: Learning) 9.1 代价函数 Cost Function 参考视频: 9 - 1 - Cost Function (7 min).mkv 假设 ...
Coursera 机器学习第6章（下） Machine Learning System Design 学习笔记
Machine Learning System Design下面会讨论机器学习系统的设计.分析在设计复杂机器学习系统时将会遇到的主要问题,给出如何巧妙构造一个复杂的机器学习系统的建议.6.4 Buil ...
（原创）Stanford Machine Learning (by Andrew NG) --- (week 6) Advice for Applying Machine Learning & Machine Learning System Design
(1) Advice for applying machine learning Deciding what to try next 现在我们已学习了线性回归.逻辑回归.神经网络等机器学习算法,接下来 ...
Stanford机器学习笔记-7. Machine Learning System Design
7 Machine Learning System Design Content 7 Machine Learning System Design 7.1 Prioritizing What to W ...
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 1_Introduction and Basic Concepts 介绍和基本概念
目录 1.1 欢迎1.2 机器学习是什么 1.2.1 机器学习定义 1.2.2 机器学习算法 - Supervised learning 监督学习 - Unsupervised learning 无 ...
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 10—Advice for applying machine learning 机器学习应用建议
Lecture 10—Advice for applying machine learning 10.1 如何调试一个机器学习算法? 有多种方案: 1.获得更多训练数据:2.尝试更少特征:3.尝试更多 ...
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...
斯坦福大学公开课机器学习： machine learning system design | prioritizing what to work on : spam classification example（设计复杂机器学习系统的主要问题及构建复杂的机器学习系统的建议）
当我们在进行机器学习时着重要考虑什么问题.以垃圾邮件分类为例子.假如你想建立一个垃圾邮件分类器,看这些垃圾邮件与非垃圾邮件的例子.左边这封邮件想向你推销东西.注意这封垃圾邮件有意的拼错一些单词,就像M ...

随机推荐

BZOJ1183 Croatian2008 Umnozak 【数位DP】*
BZOJ1183 Croatian2008 Umnozak Description 定义一个数的digit-product是它的各个位上的数字的乘积,定义一个数的self-product是它本身乘以它 ...
php7+Redis+Windows7安装 (phpstudy)
1.首先去github网站上下载https://github.com/dmajkic/redis/downloads: 2.根据实际情况,将64bit的内容cp到自定义盘符目录,如D:\Redis; ...
Robot Framework-断言函数
测试用例的目的是要验证一些操作否符合我们的预期结果,所以在测试用例中,断言函数是必不可少的一项.我们做的每一步操作都会有预期的结果,为了保证操作得到的结果符合预期,我们需要在测试用例中添加断言,来保证 ...
「GXOI / GZOI2019」简要题解
「GXOI / GZOI2019」简要题解 LOJ#3083. 「GXOI / GZOI2019」与或和 https://loj.ac/problem/3083 题意:求一个矩阵的所有子矩阵的与和和 ...
C#通过StreamWriter对象实现把数值内容写到记事本
本文介绍下,用C#实现将数组内容写到txt文件中的一例代码,有需要的朋友,参考下吧. 代码示例:StreamWriter sw=new StreamWriter("F:\\ex.txt&qu ...
gradle 构建包含源码配置
参考配置: apply plugin: "idea" apply plugin: "groovy" apply plugin: "eclipse&qu ...
spec.template.spec.initContainers[1].securityContext.privileged: Forbidden: disallowed by policy 问题解决
主要是执行系统特权应用解决方法: api server controller-manager 加上 --allow-privileged=true 即可之后重启服务
Hbase 之 HBase 的整体架构
HBase 系统架构图组成部件说明 Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信 Client与HMaster进行通信进行管理类操作 Cli ...
[转]console.time和console.timeEnd用法
console.time和console.timeEnd这两个方法可以用来让WEB开发人员测量一个javascript脚本程序执行消耗的时间.随着WEB应用越来越重要,JavaScript的执行性能也 ...
C/C++中一些不太注意到的小知识点--[锦集]
C/C++中一些不太注意到的小知识点--[锦集] C/C++小知识点--[锦集] "="和"<=" 的优先级 1.( (file_got_len = re ...

【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 11—Machine Learning System Design 机器学习系统设计