引子:Automatic Keyphrase extraction 很长文章里面,如何自动提取关键词汇呢? 比如在<中国的蜜蜂养殖>的长文里面,我们准备提取它的关键词.首先一个思路, 那些出现频率很高词汇应该更加重要一些,例如“中国”,“蜜蜂”,“的”等等,这就叫做词频(Term Frequency,缩写为TF).我们进行词频统计,得到词频和词汇的字典.然后我们需要分析词频比较高那些词汇重要性,那些常用词汇例如“是”“的”“吗”之类停用词(stop words)我们将他们都过滤.这样获得就是比…