论文笔记 - An Explanation of In-context Learning as Implicit Bayesian Inference

这位更是重量级。这篇论文对于概率论学的一塌糊涂的我简直是灾难。

由于 prompt 的分布与预训练的分布不匹配（预训练的语料是自然语言，而 prompt 是由人为挑选的几个样本拼接而成，是不自然的自然语言），作者设预训练的分布为 $p$ 而 prompt 的分布设为 $p_{prompt}$，因此作者认为这两种分布的不符可能是造成 inference 效果不佳的重要原因（$S_n$ 为 context）：

$$argmax_{y}\;p(y|S_n,\;x_{test})\;\neq argmax_{y}\;p_{prompt}(y|x_{test})$$

但是这种不匹配造成可以通过设置更好的 prompt 减弱，进而提出了 $singal$ 的概念，$singal$ 可以认为是一种任务的明确程度，$singal$ 越大代表任务越明确，得到的结果也准确，例如：一般情况下，One-shot 的效果要比 Few-shot 和 Zero-shot 都要差，例如下面的prompt ：

> Albert Einstein was a German. Marie Curie was <token to infer>

这个 context 根本没有明确任务是什么！按照 prompt 的分布这里应该生成的是 Polish，但是按照预训练的分布这里完全可以填 brilliant 什么的，也就是两种分布不匹配的程度被大大放大了。但是如果换成 Few-shot 呢：

> Albert Einstein was German. Mahatma Gandhi was Indian. Karl Heinrich Marx was German. Marie Curie was <token to infer>

这个 context 就很好的描述了任务的目的：判断这些人所属的国家。因此，作为 context 的样本数量增加可以有效增加 $singal$，缩小两种分布的不匹配程度，进而改善效果。

作者进一步总结了几个对 $singal$ 有影响的因素

样本数量

如上文所述，样本越多任务描述越清晰，$singal$ 越大。

输入空间

x 随便选的话会使准确率大幅度降低。

输出空间

y 随便选的话也会使准确率大幅度降低。

输入输出的对应关系

输出的标签在输出空间里面随机选取，对准确率有影响但是没有想象中那么大，进而证明了对 in-context learning 更重要的因素是任务描述，而不是提供的 prompt 是否正确（因为答案错误并没有影响这个任务的目的：情感分类）。

为了使用数学工具进行分析，作者将前文中提到的任务描述定义为 $\theta$，一篇自然语言预料可能包含多个不同的 $\theta \in \Theta$，而一个 prompt 只包含一个 $\theta^*$（例如你考虑你正在写一篇任务传记，你的任务顺序可能是：名字 $\to$ 国籍 $\to$ 职业 $\to$ 成就等包含多个任务，但是在 prompt 中任务顺序是：名字 $\to$ 国籍 $\to$ 名字 $\to$ 国籍 $\to$ 名字 $\to$ 国籍...，只在重复进行一个任务）（国籍 $\to$ 名字这个就是前文提到的分布不匹配，因为自然语言不会出现这样的分布，这种不匹配可以被有利因素补偿），同时我们认为 $\theta^* \in \Theta$（我们认为 icl 要做的任务一定在预训练的语料中出现过了）。

$$p(y|S_n,x_{test})=\int_{\theta} p(y|S_n,\;x_{test},\;\theta)p(\theta | S_n,\;x_{test})\, \mathrm{d}x$$

$$\propto\;\int_{\theta} p(y|S_n,\;x_{test},\;\theta)p(S_n,\;x_{test} | \theta)p(\theta)\, \mathrm{d}x \;\;\;\;(Bayes'\;rule,\;drop\;the\;constant\;\frac{1}{p(S_n,\;x_{test})})$$

$$\propto\; \int_{\theta} p(y|S_n,\;x_{test},\;\theta) \frac{p(S_n,\;x_{test} | \theta)}{p(S_n,\;x_{test} | \theta^*)} p(\theta)\, \mathrm{d}x\;\;\;\;(divided\;by\;a\;constant)$$

待补充。。。