机器学习基石 5 Training versus Testing

Recap and Preview

回顾一下机器学习的流程图：

机器学习可以理解为寻找到 $g$，使得 $g \approx f$，也就是 $E_{out}(g) \approx 0$ 的过程。为了完成这件事情，有两个关键的步骤，一个是保证 $E_{out}(g) \approx E_{in}(g)$，另一个是保证 $E_{in}(g) \approx 0$ （这两件事情通常由 “训练” 以及 “测试” 这两个过程来完成），当这两件事情都得到保证之后，我们就可以得到 $E_{out}(g) \approx 0$，于是完成了学习。

$M$（hypothesis 的数目）的取值对这两个问题有影响：

$M$ 太小，能保证 $E_{out}(g) \approx E_{in}(g)$，但是不能保证 $E_{in}(g) \approx 0$；
$M$ 太大，能保证 $E_{in}(g) \approx 0$，但是不能保证 $E_{out}(g) \approx E_{in}(g)$。

下面将尝试解决 $M$ 较大时，$E_{out}(g) \approx E_{in}(g)$ 的问题。

Effective Number of Lines

对于这个式子，$M = \infty$ 时，右侧的值很大，$E_{out}(g) \approx E_{in}(g)$ 不能保证，于是我们尝试用一个合适的数 $m_H$ 代替式子中的 $M$，使无穷变成有限。

第一个式子中的 $M$ 来源于 “Union Bound”

其中 $P[B_M]$ 表示的是第 $M$ 个假设函数 $h_M$ 在数据集上发生坏事情（即存在 BAD DATA，$E_{out}(h_M) \neq E_{in}(h_M)$）的概率。

然而当 $M$ 很大时，假设集中存在许多相似的假设函数 $h$，它们发生坏事情的概率和情形都很接近，这样使用 “Union Bound” 来计算整个假设集发生坏事情的概率，便存在许多重复的地方，于是算出来的概率会比实际的高很多（over-estimating）。

我们以二元分类来阐述怎么解决这个问题：我们根据分类结果，对 $h$ 进行分类。

样本点大小 $N$	假设集 $H$ 等价类（考虑最多的情况）
1	2 类：$\{o\}$、$\{x\}$
2	4 类：$\{oo\}$、$\{ox\}$、$\{xo\}$、$\{xx\}$
...	...
N	$2^{N} 类$

对于一个大小为 $N$ 的数据集，任意一个假设函数 $h$ 都属于上述 $2^N$ 个等价类之间的一个，因此我们可以用 $2^N$ 来代替原不等式中的 $M$。

Effective Number of Hypotheses

我们把上面提到的等价类的概念起一个名字叫做 Dichotomy。

具体的 Dichotomy 的 size 与这 $N$ 个数据的具体取值有关（但是不会大于 $2^N$），为方便讨论我们取最大那个 size 来分析，取名为 growth function，记作 $m_H(N)$。

接下来我们需要计算 $m_H(N)$，首先考虑几种不同的模型的 $m_H(N)$

Positive Rays：$m_H(N) = N + 1$
Positive Intervals：$m_H(N) = {{N+1} \choose 2} + 1$
Convex Sets：$m_H(N) = 2^N$

总结如下：

Break Point

我们希望 $m_H(N)$ 是多项式形式而不是指数形式的，这样才能保证 $E_{out}(g) \approx E_{in}(g)$：

我们引入一个概念叫 break point，定义如下所示

于是上面所提到的四种模型的 break point 如下所示：

我们猜测 $m_H(N)$ 与 break point 有下面的关系：

no break point：$m_H(N) = 2^N$
break point $k$：$m_H(N) = O(N^{k-1})$

如果猜测成立，那么在有 break point 的情况下，$m_H(N)$ 便是一个多项式形式，这样就能保证 $E_{out}(g) \approx E_{in}(g)$ 了。