小白一个,刚刚费了老大的劲完成一个练手项目--image caption,虽然跑通了,但是评估结果却惨不忍睹.于是贴上大神的作品,留待日后慢慢消化.顺便记录下自己踩坑的一些问题. 先膜拜下大神的作品. 本次项目采用的模型结构如下.一路输入信息是利用VGG16提取的图像特征,另一路输入信息是利用LSTM提取的单词串特征,输出是预测的下一个单词.即模型的功能是,在给定图像特征和caption前面若干个单词的情况下,能预测出caption的下一个单词:所以循环若干次后即可得到一句完整的caption.…