关键词提取顾名思义就是将一个文档中的内容用几个关键词描述出来,这样这几个关键词就可以提供这个文档的大部分信息,从而提高信息获取效率. 关键词提取方法同样分为有监督和无监督两类,有监督的方法比如构造一个关键词表,然后计算文档和每个次的匹配程度用类似打标签的方法来进行关键词提取.这种方法的精度比较高,但是其问题在于需要大量的有标注数据,人工成本过高,而且由于现在信息量的快速增加,一个固定的词表很难支持时刻增加的文档信息,因此维护这个词表也需要很大的成本,而无监督的方法成本则相对较低,更受大家的青睐.…