1 概述 在之前介绍的几种方法,我们对值函数一直有一个很大的限制,那就是它们需要用表格的形式表示.虽说表格形式对于求解有很大的帮助,但它也有自己的缺点.如果问题的状态和行动的空间非常大,使用表格表示难以求解,因为我们需要将所有的状态行动价值求解出来,才能保证对于任意一个状态和行动,我们都能得到对应的价值.因此在这种情况下,传统的方法,比如Q-Learning就无法在内存中维护这么大的一张Q表. 针对上面的问题,于是有人提出用一个模型来表示状态,动作到值函数的关系.我们令状态为 $s \in S…