C#实现在: http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3.统计所得的词频表(杜撰的,为了便于演示用法)如下: w1 w2 w3 w4 w5 w6 w7 w8 w9 w