第一章 绪论

1.1引言

打开书,五分钟后,合上书:嗯!学会了!如何判断一个好瓜

1.2基本术语

分类:对离散值进行预测的学习任务,是有监督学习的代表

回归:对连续值进行预测的学习任务,是有监督学习的代表

聚类:将训练集中的样本分成若干组,是无监督学习的代表

泛化能力:学得模型适用于新样本的能力

1.3假设空间

假设空间:与训练集匹配的假设所组成的空间

版本空间:与训练集一致的假设集合

  有关于假设空间的疑惑:

    若“色泽”“根蒂”“敲声”分别有3、3、3种可能取值,则我们面临的假设空间规模大小为4×4×4+1=65

  尝试解释:

    首先就是这个“4”应该看作是3+1,其中这个+1表示的是在这个选项下任何情况均满足好瓜的假设(即通配),其次就是最后的+1表示的应该就是世界上不存在“好瓜”这一假设。

习题:

1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
4 乌黑 稍蜷 沉闷

解答:

1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,设计一种归纳偏好用于假设选择。

分析:既然数据中包含噪声,最直接的思路就是首先去除噪声。

   去噪方法:若存在两个样例属性取值都相同,标记却不同,则只保留标记为正例的样例(或标记为反例的样例,也可以考虑更加复杂的统计相似样例),在此基础上求出版本空间。

   也可以考虑其他方法:

    >1.在求版本空间时,只除去与反例不一致的假设。

    >2.求版本空间时,只留下包含了所有正例的假设。

第二章 模型评估与选择

2.1 经验误差与过拟合

错误率:分类错误的样本数找样本总数的比例;

经验误差:学习器在训练集上的误差;

泛化误差:学习器在新样本上的误差;

过拟合:学习器将训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样导致了泛化性能下降。

欠拟合:对训练样本的一般性质尚未学习好,容易克服,如在决策树学习中扩展分支,在神经网络学习中增加训练轮数等。

2.2 评估方法

  将数据集划分为训练集和测试集的方法

2.2.1 留出法

  直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T

在划分时要注意在分类任务重至少保持样本的类别比例相似!
单次使用留出法得到的估计结果往往不够稳定可靠,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。

2.2.2 交叉验证法

  依据分层采样的方法先将数据集划分为k个大小相似的互斥子集,每个子集尽可能保持数据分布的一致性,然后每次用(k-1)个子集的并集作为训练集,余下的那个子集作为测试机,这样就可以获得k组训练/测试集,从而可进行k次训练和测试,最终返回的是k个测试结果的平均值,k常取10,也称10折交叉验证。

  与留出法相似,将数据集D划分为k个子集同样存在多种划分方式,为了减小因样本划分不同而引入的差别,k折交叉验证通常要随即使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的**“10次10折交叉验证”**

留一法:每个子集中仅含一个样本,这使得评估结果比较精确,而当数据集比较大时,其计算开销《难以忍受》。

2.2.3 自助法

当前已知缺陷:

留出法与交叉验证法:实际评估的模型所使用的训练集比D小,这必然将引入一些因训练样本规模不同而导致的估计偏差

留一法:计算复杂度过高

  若给定包含m个样本的数据集D,我们对它进行采样产生数据集D':每次随机从D中挑选一个样本,将其拷贝放入D',然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就可以得到包含M个样本的数据集D',做一个估计。样本在m次采样中始终不被采到的概率是\((1-\frac{1}{m})^m\),取极限得到:

$\lim_{m\rightarrow+\infty} (1-\frac{1}{m})^m=\frac{1}{e}≈0.368$
即通过自主采样,初始数据集D中约有36.8%的样本未出现在采样数据集D'中于是我们可将D'用作训练集,D\D'用作测试集;这样,实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有约$\frac{1}{3}$的、没在训练集中出现的样本用于测试,这样的测试结果,亦称“包外估计”。

自助法在数据集较小,难以划分有限训练/测试集时很有用。

2.2.4 调参与最终模型

在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集D重新训练模型,这个模型在训练过程中使用了所有m个样本,这才是我们最终提交给用户的模型。

2.3 性能度量

在预测任务中,给定样例集\(D={(x_1,y_1)(x_2,y_2)...(x_m,y_m)}\),其中y_i是示例x_i的真实标记,要评估学习器\(\mathcal{f}\)的性能,就要把学习器预测结果\(\mathcal{f(x)}\)与真实标记\(\mathcal{y}\)进行比较。

2.3.1 错误率与精度

2.3.2 查准率、查全率与F1

真实情况 预测正例 预测反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)
则查重率P和查全率R分别定义为:

$\mathcal{P=\frac{TP}{TP+FP}}$
$\mathcal{R=\frac{TP}{TP+FN}}$

查重率与查全率也在一定程度上遵循测不准原理,通常只有在一些简单任务中,才能使查全率和查重率都很高。

P-R曲线中的内容:覆盖更大范围的学习器的性能更优

对查重率与查全率进行取舍的方式:

BEP:查重率=查全率时的取值,值大者性能更优;

F1度量:(公式不想打上来了)以beta参数来衡量查全率对查重率的相对重要性。

家人们,晚安( ̄o ̄) . z Z

Datawhale组队学习_Task01:概览西瓜书+南瓜书第1、2章的更多相关文章

  1. Directx11学习笔记【八】 龙书D3DApp的实现

    原文:Directx11学习笔记[八] 龙书D3DApp的实现 directx11龙书中的初始化程序D3DApp跟我们上次写的初始化程序大体一致,只是包含了计时器的内容,而且使用了深度模板缓冲. D3 ...

  2. JAVA学习之Ecplise IDE 使用技巧(2)第二章:键盘小快手,代码辅助

    上一篇:JAVA学习之Ecplise IDE 使用技巧(1)第一章:我的地盘我做主,工作空间 第二章:键盘小快手,代码辅助 内容包括: 第一:显示行号 如何设置行号:Ecplice菜单Windows& ...

  3. noj 2033 一页书的书 [ dp + 组合数 ]

    传送门 一页书的书 时间限制(普通/Java) : 1000 MS/ 3000 MS          运行内存限制 : 65536 KByte总提交 : 53            测试通过 : 1 ...

  4. 每周一荐:学习ACE一定要看的书

    作 者:david++发布时间:2012/06/08 09:02文章地址:http://game-lab.org/?p=320 近两个月都在学习ACE,一个超级强大,也超级复杂的网络框架库.对ACE的 ...

  5. 推荐一些关于学习Html Css和Js的书吗?

    前端易学易懂,随着移动互联网的日益兴起,it行业对于前端的需求也在不断的提高,那么从前端小白修炼成为前端大神的这个过程之中,一些必备的枕边书也是必不可少的. 第一本,入门<Head first ...

  6. 学习MVC和jQuery相关的书

    Insus.NET还是较喜欢看纸质书.学习ASP.NET MVC和jQuery编程,Insus.NET为了加强功力,决定再购买几本相关的书:   十月份时,还买了一本: 前两本快递刚送到手,后一本已经 ...

  7. Egret入门学习日记 --- 第十三篇(书中 5.2~5.3节 内容)

    第十三篇(书中 5.2~5.3节 内容) 写日记已经十天多了,我发现越到后面,我书写的方式越来越程序化. 感觉渐渐失去了人类所谓的感情似的. 不过,没想到的是,书中的内容,很少出现了错误,我一路过来到 ...

  8. Egret入门学习日记 --- 第十一篇(书中 4.1~4.6节 内容)

    第十一篇(书中 4.1~4.6节 内容) 好了,到了这篇开始,前三章都记录完了. 接下来就是到第四章了. 4.1节 的内容总结一下重点: 1.resource目录下default.res.json文件 ...

  9. 十步学习法 -- 来自<<软技能>>一书的学习方法论

    <<软技能>>第三篇“学习”,作者讲述了自己的学习方法:十步学习法.下面我用编程语言的方式来介绍. 十步学习法 伪代码介绍 # **这一步的目的不是要掌握整个主题,而是对相关内 ...

  10. Egret入门学习日记 --- 第五篇(书中 3.5节 内容)

    第五篇(书中 3.5节 内容) 今天得把昨天的问题解决了才行. 去了Q群,碰到一位大大,他给我解惑了.Thanks♪(・ω・)ノ 这是我之前按照书上写的方式写的,并没有效果. 然后大大给我解答了: 后 ...

随机推荐

  1. 输入法词库解析(六)QQ 拼音分类词库.qpyd

    详细代码:https://github.com/cxcn/dtool 前言 .qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn ...

  2. 《Java基础——循环语句》

    Java基础--循环语句       1. while语句: 规则: 1. 首先计算表达式的值. 2. 若表达式为真,则执行循环语法,直至表达式为假,循环结束.   格式: while(表达式) 语句 ...

  3. 使用 Dockerfile 的一些最佳实践

  4. 3_Nginx

    一. Nginx介绍 1.1 引言 为什么要学Nginx 问题1: 客户端到底要将请求发送给哪台服务器 问题2: 如果所有客户端的请求都发送给了服务器1 问题2: 客户端发送的请求可能是申请动态资源的 ...

  5. 谣言检测——(PSA)《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》

    论文信息 论文标题:Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks论文作者:Jiayin ...

  6. PAT (Basic Level) Practice 1006 换个格式输出整数 分数 15

    让我们用字母 B 来表示"百".字母 S 表示"十",用 12...n 来表示不为零的个位数字 n(<10),换个格式来输出任一个不超过 3 位的正整数. ...

  7. AVX图像算法优化系列一: 初步接触AVX。

    弄了SSE指令集,必然会在不同的场合不同的人群中了解到还有更为高级的AVX指令集的存在,早些年也确实有偶尔写点AVX的函数,但是一直没有深入的去了解,今年十一期间也没到那里去玩,一个人在家里抽空就折腾 ...

  8. Flutter Cocoon 已达到 SLSA 2 级标准的要求

    文/ Jesse Seales, Dart 和 Flutter 安全工作组工程师 今年年初,我们发布了 Flutter 2022 产品路线图,其中「基础设施建设」这部分提到:2022 年 Flutte ...

  9. 堆内存动态分配情况和jvm调优方向

    由上图可以看出: 堆中分为新生代(占堆1/3内存)和老年代(占堆2/3内存), 新生代又分为Eden区(占新生代内存的8/10)和survivor区(占新生代内存的2/10), survivor区又分 ...

  10. calico和flannel的优缺点

    1.Kubernetes通信问题 1.容器间通信:即同一个Pod内多个容器间通信,通常使用loopback来实现. 2.Pod间通信:K8s要求,Pod和Pod之间通信必须使用Pod-IP 直接访问另 ...