机器学习基石 4 Feasibility of Learning

Learning is Impossible?

机器学习：通过现有的训练集 \(D\) 学习，得到预测函数 \(h(x)\) 使得它接近于目标函数 \(f(x)\)。

问题：这种预测是可能的么？其泛化性的本质是什么？是什么保证了 \(h(x) \approx f(x)\) ？

Probability to the Rescue

情景：有一个装有很多很多珠子的罐子，珠子的颜色是橙色和绿色，那么我们可以通过抽样的方法来估计橙色珠子的比例。

Hoeffding's inequality:

采样次数 \(N\) 足够大时，\(v\) 和 \(\mu\) 有如下关系：

于是可以说 \(v\) 和 \(\mu\) 大概近似相等（probably approximately correct，PAC）。

因此，选择合适的 \(N\) 以及 \(\epsilon\)，就可以通过 \(v\) 预测 \(\mu\)。

Connection to Learning

可以将以上的情景与机器学习问题对应起来，如下图所示：

橙色：\(h(x) \neq f(x)\)
绿色：\(h(x) = f(x)\)
橙色珠子概率 \(\mu\)：\(h(x) \neq f(x)\) 的概率
抽到橙色珠子：在某个样本点 \(x_n\) 上，\(h(x_n) \neq f(x_n) = y_n\)
抽到绿色珠子：在某个样本点 \(x_n\) 上，\(h(x_n) = f(x_n) = y_n\)
抽样动作：判断 \(h(x_n)\) 与 \(f(x_n)=y_n\) 是否相等

于是在一定条件下，我们可以通过测试 \(h(x_n) \neq y_n\) 的比例来推断 \(h(x) \neq f(x)\) 的概率。

这里需要注意的是，\(x_n\) 需要是独立同分布的，但是我们并不需要知道具体的分布函数。

完善学习流程图：

公式如下：

上面的公式保证了在一定条件下，\(E_{in}(h)\) 与 \(E_{out}(h)\) 不会相差太远，那么只要我们能选择合适的 \(h\) 使得 \(E_{in}(h)\) 比较小，那么 \(E_{out}(h)\) 也会比较小，我们就完成了学习。

算法的目的：在假设集 \(H\) 中选择合适的 \(h\)，并且通过验证，判断 \(E_{in}(h)\) 是否真的合适。

验证的过程：

同理，需要保证测试样本与训练样本是独立同分布的，但是不需要知道具体的分布函数。

Connection to Real Learning

以上的分析是对于一个 \(h\) 来说的，下面考虑多个 \(h\) 的情况。

引入一个 BAD Data 的概念，对于一个 \(h\) 这种情况，BAD Data 指的是在这个数据集下，\(E_{in}(h)\) 与 \(E_{out}(h)\) 相差很大；对于一个 \(h\) 这种情况，BAD Data 指的是在这个数据集下，存在某个 \(h\)，\(E_{in}(h)\) 与 \(E_{out}(h)\) 相差很大。

如果数据集是 BAD Data，那么即使我们通过机器学习，得到一个 \(h(x)\)，并且 \(E_{in}(h)\) 很小，我们也无法保证说（PAC） \(E_{out}(h)\) 很小，于是学习失败了，因此我们希望 BAD data 出现的概率越小越好。

对于一个 \(h\) 这种情况，BAD data 出现的概率（前面已经说过了）：

对于多个 \(h\) 这种情况，BAD data 出现的概率（Union Bound）：

其中 \(M\) 表示的是假设集中 \(h\) 的个数。

如果 \(M\) 的值是有限的，那么 \(N\) 足够大的情况下，BAD data 出现的概率很小，即无论哪个 \(h\)，都有 \(E_{in}(h) \approx E_{out}(h)\) （PAC），那么我们通过合适的算法选择一个 \(E_{in}\) 小的 \(h\)，就能保证 \(E_{out}\) 小（PAC），于是学习成功了。

完善学习流程图：