前不久,DeepMind 提出生成查询网络 GQN,具备从 2D 画面到 3D 空间的转换能力.近日.DeepMind 基于 GQN 提出一种新模型.可以捕捉空间关系的语义(如 behind.left of 等),当中包括一个基于从场景文本描写叙述来生成场景图像的新型多模态目标函数.结果表明,内部表征对意义不变的描写叙述变换(释义不变)具备稳健性,而视角不变性是该系统的新兴属性. 论文:Encoding Spatial Relations from Natural Language 论文链接:h…