TF-IDF是一种统计方法,这个算法在我们项目提取关键词的模块需要被用到,TF-IDF算法是用来估计 一个词汇对于一个文件集中一份文件的重要程度.从算法的定义中就可以看到,这个算法的有效实现是依靠 一定数据量的文件集作为基础的.字词的重要性随着他在文件中出现的次数呈正比例的关系增加,这一点很 符合常识,就是这个词出现的次数越多,那个这个词越重要,词的出现频度和他的重要程度之间呈现正关系. 为了抑制冠词等经常出现的无用词汇的重要程度,这个词汇的重要程度会在他在语料库中出现的频率成反比 下降,也就是…