词典的格式设计 词典中所保存的信息主要是三部分: Term字符串 Term的统计信息,比如文档频率(Document Frequency) 倒排表的位置信息 其中Term字符串如何保存是一个很大的问题,根据上一章基本原理的表述中,我们知道,写入文件的Term是按照字典顺序排好序的,那么如何将这些排好序的Term保存起来呢? 1. 顺序列表式 一个直观的想法就是顺序列表的方式,即每个Term都占用相同的空间,然后大家依次排列下来,如图所示: 这种方式查找起来也很方便,由于Term是排好序的,而且每