郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 动物会重复奖励的行为,但基于奖励的学习的生理基础仅得到了部分阐明.一方面,实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性.另一方面,强化学习理论为基于奖励的学习提供了框架.奖励调节的脉冲时序依赖可塑性(R-STDP)的最新模型已迈出了弥合两种方法之间差距的第一步,但仍面临两个问题.首先,强化学习通常是在不适合自然情况描述的离散框架中制定的.其次,生物学合理的R-STDP模型需要精确计算奖励预测误差,但…