吴恩达《Machine Learning Yearning》总结(31-40章)
31.解读学习曲线:其他情况
下图反映了高方差,通过增加数据集可以改善。
下图反映了高偏差和高方差,需要找到一种方法来同时减少方差和偏差。
32.绘制学习曲线
情况:当数据集非常小时,比如只有100个样本,这时绘制出来的学习曲线可能噪声非常大。
解决方法:
(1)与其只使用10个样本训练单个模型,不如从你原来的100个样本中进行随机有放回抽样,选择几批(比如3-10)不同的10个样本进行组合。在这些数据上训练不同的模型,并计算每个模型的训练和开发错误,最终计算和绘制平均训练集误差和平均开发集误差。
(2)如果你的训练集偏向于一个类,或许它有许多类,那么选择一个“平衡”子集,而不是从100个样本中随机抽取10个训练样本。例如,你可以确保这些样本中的2/10是正样本,8/10是负样本。更常见的做法是,确保每个类的样本比例尽可能的接近原始训练集的总体比例。
33.为何与人类表现水平进行对比
对于人类擅长的事情,例如图像识别,语音识别等。
(1)易于从认为标签中获取数据。
(2)基于人类直接进行误差分析。
(3)使用人类表现水平来估计最优错误率,并设置可达到的“期望错误率”。
对于人类也不擅长的事情,例如推进书籍电影,股票市场预测。
(1)获取标签数据很难。
(2)人类的直觉难以依靠。
(3)最优错误率和合理的期望错误率难以估计。
34.如何定义人类表现水平
应该用人类的最高水平去衡量人类的水平(即期望误差率)。举例:医学图像疾病诊断,普通人错误率20%,医生10%,专家5%,专家讨论小左2%,此时人类水平应该为2%。
35.超越人类表现水平
举例:语音识别人类错误率是10%,而你的算法错误率是8%,此时已经超越人类,但这时某个子集(即某些方面,如转录语音很快时)人类仍然优于算法,在这些方面仍然可以用前面提到的一些技术进行提升。在语音转录上,仍然可以(1)从输出质量比你的算法高的人那儿获取转录数据。(2)你可以利用人类的直觉来理解,为什么你的系统没能欧识别这些数据,而人类做到了。(3)你可以使用该子集上的人类表现作为期望表现目标。
吴恩达《Machine Learning Yearning》总结(31-40章)的更多相关文章
- 吴恩达Machine Learning 第一周课堂笔记
1.Introduction 1.1 Example - Database mining Large datasets from growth of automation/ ...
- 吴恩达Machine Learning学习笔记(一)
机器学习的定义 A computer program is said to learn from experience E with respect to some class of tasks T ...
- 吴恩达Machine Learning学习笔记(四)--BP神经网络
解决复杂非线性问题 BP神经网络 模型表示 theta->weights sigmoid->activation function input_layer->hidden_layer ...
- 吴恩达Machine Learning学习笔记(三)--逻辑回归+正则化
分类任务 原始方法:通过将线性回归的输出映射到0-1,设定阈值来实现分类任务 改进方法:原始方法的效果在实际应用中表现不好,因为分类任务通常不是线性函数,因此提出了逻辑回归 逻辑回归 假设表示--引入 ...
- 吴恩达Machine Learning学习笔记(二)--多变量线性回归
回归任务 多变量线性回归 公式 h为假设,theta为模型参数(代表了特征的权重),x为特征的值 参数更新 梯度下降算法 影响梯度下降算法的因素 (1)加速梯度下降:通过让每一个输入值大致在相同的范围 ...
- 吴恩达 Deep learning 第二周 神经网络基础
逻辑回归代价函数(损失函数)的几个求导特性 1.对于sigmoid函数 2.对于以下函数 3.线性回归与逻辑回归的神经网络图表示 利用Numpy向量化运算与for循环运算的显著差距 import nu ...
- 吴恩达 Deep learning 第一周 深度学习概论
知识点 1. Relu(Rectified Liner Uints 整流线性单元)激活函数:max(0,z) 神经网络中常用ReLU激活函数,与机器学习课程里面提到的sigmoid激活函数相比有以下优 ...
- Github | 吴恩达新书《Machine Learning Yearning》完整中文版开源
最近开源了周志华老师的西瓜书<机器学习>纯手推笔记: 博士笔记 | 周志华<机器学习>手推笔记第一章思维导图 [博士笔记 | 周志华<机器学习>手推笔记第二章&qu ...
- 我在 B 站学机器学习(Machine Learning)- 吴恩达(Andrew Ng)【中英双语】
我在 B 站学机器学习(Machine Learning)- 吴恩达(Andrew Ng)[中英双语] 视频地址:https://www.bilibili.com/video/av9912938/ t ...
- Coursera课程《Machine Learning》吴恩达课堂笔记
强烈安利吴恩达老师的<Machine Learning>课程,讲得非常好懂,基本上算是无基础就可以学习的课程. 课程地址 强烈建议在线学习,而不是把视频下载下来看.视频中间可能会有一些问题 ...
随机推荐
- DFT到FFT的理解
DFT简化计算理解(FFT) DFT: WN=e^(-j*2*pi/N) DFT复杂度o(N^2) 降低与N^2的依赖 使N = LM (L^2+m^2 <= N^2) N点DFT分解为M ...
- kali linux之选择和修改exp与windows后渗透
网上公开的exp代码,选择可信赖的exp源,exploit-db,securityfocus,searchsploit,有能力修改exp(python,perl,ruby,c,c++.......) ...
- 解决JAR包里面打开源代码都是乱码
下面是解决方案 通过eclipse浏览源代码时,发现中文注释为乱码的问题.其实这个eclipse默认编码造成的问题.可以通过以下方法解决: 修改Eclipse中文本文件的默认编码:windows-&g ...
- 【转】分析.net中的object sender与EventArgs e
源地址:http://blog.csdn.net/feihu19851111/article/details/7523118
- 【bzoj3930】选数 容斥原理+暴力
Description 我们知道,从区间[L,H](L和H为整数)中选取N个整数,总共有(H-L+1)^N种方案.小z很好奇这样选出的数的最大公约数的规律,他决定对每种方案选出的N个整数都求一次最大公 ...
- 洛谷P1345 [USACO5.4]奶牛的电信Telecowmunication(最小割)
题目描述 农夫约翰的奶牛们喜欢通过电邮保持联系,于是她们建立了一个奶牛电脑网络,以便互相交流.这些机器用如下的方式发送电邮:如果存在一个由c台电脑组成的序列a1,a2,...,a(c),且a1与a2相 ...
- WKWebView 的使用和封装
WKWebView 的使用和封装 前言 项目中有个新闻资讯模块展示公司和相关行业的最新动态. 这个部分基本是以展示网页为主,内部可能会有一些 native 和 JS 代码的交互. 因为是新项目,所以决 ...
- 老男孩Day9作业:高级FTP
一.作业需求 1. 用户加密认证(已完成) 2. 多用户同时登陆(已完成) 3. 每个用户有自己的家目录且只能访问自己的家目录(已完成) 4. 对用户进行磁盘配额.不同用户配额可不同(已完成) 5. ...
- SDUT OJ 数据结构实验之链表七:单链表中重复元素的删除
数据结构实验之链表七:单链表中重复元素的删除 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Discuss Problem ...
- nuget服务器搭建
本文章主要介绍如何将本地dll打包成为一个Nuget包,并如何发布到自己的nuget服务器,示例代码下载.章节如下 1. 本地dll如何打包,以及版本的更新 2. 在linux上搭建nuget.ser ...