从大一开始接触TF-IDF,一直觉得这个特别简单,,但是图样图森破,,, 即使现在来说,也似乎并非完全搞懂 核心思想: 计算词语在该文章中权重,与词语出现次数和词语价值有关 词语出现次数,重复即强调,越重要 词语价值,出现在越多的文档中越滥情,越廉价 公式: 词频TF = 出现次数 / 总次数 逆向文件频率IDF = log( 总文档数 / ( 出现文档数+1) ) TF-IDF = TF * IDF 具体计算: 1.我的代码: # 由于算这个是为了求feature值,因此用了jieba,轻量级…