1 词汇表征(Word representation) 用one-hot表示单词的一个缺点就是它把每个词孤立起来,这使得算法对词语的相关性泛化不强. 可以使用词嵌入(word embedding)来解决这个问题,对于每个词,有潜在的比如300个特征,每个特征给个值,以此来表示每个词. 最终学到的词嵌入的特征不是那么好理解的,有些特征可能是几种常见特征的组合,总之可能是各种各样潜在的不知名特征. 最终学到的300维特征,如果用t-SNE映射到2维,相关性较强的词会聚在一起,相近的词语学到的特征会相…