转自：http://blog.csdn.net/whuqin

本文介绍下lucene生成的索引有哪些文件组成，每个文件包含了什么信息。基于Lucene 4.10.0。

数据结构

索引(index)包含了存储的文档(document)正排、倒排信息，用于文本搜索。索引又分为多个段(segments)，每个新添加的doc都会存到一个新segment中，不同的segments又会合并成一个segment。segment存储着具体的documents，每个doc有一系列的字段(field)组成，一个field的值是多个词(term)，一个term是以一些bytes。其递进关系如下：
index -> segments -> documents -> fields -> terms

文件介绍

全局性文件

segments_N：记录索引的段数、各段名、各段中文档数、删除数和更新数。可能有多个segments_N文件，最大N的segments_N是有效文件。
segments.gen：记录当前index的代数(generation)，即segments_N的最大N
write.log：阻止多个IndexWriter同时修改索引，一次只能有一个IndexWriter

段文件

段描述
xxx.si：段的元数据，如此段的文档数及相关文件
xxx.del：删除的doc
field信息
xxx.fnm：field names，field名称、索引方式
xxx.fdx：field index，索引xxx.fdt
xxx.fdt：field data，存储stored fields
term信息
xxx.tip：term index，xxx.tim的索引，实现对xxx.tim的随机存取
xxx.tim：term dictionary，按字典顺序排列的terms，其值指向.doc/.pos
xxx.doc：倒排列表，term所在的docs、在doc中的频率
xxx.pos：倒排列表，term在doc中的位置
xxx.pay：payloads and offsets，term在doc中的offset
注意：term的位置及频率都是在某doc下term在field中的位置和偏移，位置以切词为单位，偏移以字符为单位
term vector
term vector用于打分，存储StoreTermVectors的field
xxx.tvx：term vector index，每个doc在xx.tvd、xx.tvf中的位置
xxx.tvd：term vector data file，每个doc的term vector field信息在xxx.tvf中的位置
xxx.tvf：term vector fields，field的term列表及各term的频率、位置或者偏移
归一化
lucene为doc算分时根据各doc中的term weight（term对doc的重要性），但是不同的doc重要性不同、不同的field重要性不同、不同的文档长度也不同，要想让不同文档的term weight之间有可比性（打分有可比性）需要进行归一化。用于归一化的因子(normalization factors)，如doc和field的boost factor及长度，存在如下文件中。
xxx.nvm：norms metadata
xxx.nvd：norms data
doc values
存储DocValues类型的field，通过field value可以获取对应的doc number列表, 便于进行一些概括或者打分。类型为docvalue的field在doc不能重名。
xxx.dvm：DocValues metadata
xxx.dvd：DocValues data

总结

从上节可以看出 正排信息存储在：段(segments_N) -> field (.fnm/.fdx/.fdt) -> term (./tvx/.tvd/.tvf)
倒排信息存储在：词典(.tim) ->倒排表(.doc/.pos)

参考见：
https://lucene.apache.org/core/4_10_0/core/org/apache/lucene/codecs/lucene410/package-summary.html#package_description
https://lucene.apache.org/core/3_0_3/fileformats.html
http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html

lucene索引文件格式的更多相关文章

Lucene学习总结之四：Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...
Lucene学习总结之四：Lucene索引过程分析 2014-06-25 14:18 884人阅读评论(0) 收藏
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...
lucene学习笔记：三，Lucene的索引文件格式
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene学习总结之三：Lucene的索引文件格式(1)
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene学习之四：Lucene的索引文件格式(2)
本文转载自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 略有删减和补充四.具体格式上面曾经交代过,L ...
Lucene学习之四：Lucene的索引文件格式(1)
本文转载自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html Lucene的索引里面存了些什么,如何存放的,也即 ...
Lucene学习总结之三：Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读评论(0) 收藏
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene学习之四：Lucene的索引文件格式(3)
本文转载自:http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html ,略有删改和备注. 四.具体格式 4.2. 反向信 ...
Lucene学习笔记：四，Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

随机推荐

FJNU 1159 Fat Brother’s new way（胖哥的新姿势）
FJNU 1159 Fat Brother’s new way(胖哥的新姿势) Time Limit: 1000MS Memory Limit: 257792K [Description] [题目 ...
git bash下的选择、复制、粘贴
1. 打开git bash 2.点击左上角,选择属性,打钩 3.回到界面,选择一行文字,然后点击 “右键”,这样就复制到剪切板了.再点 “右键”,可以粘贴到命令窗口中了.
implement "slam_karto" package in Stage simulation
slam_karto ROS Wiki: http://wiki.ros.org/slam_karto Source: https://github.com/ros-perception/slam_k ...
Spark运行在eclipse_使用PyDev和pyspark
一直想在eclipse上编写Spark程序,但是仿佛是因为spark的安装包提供了PS D:\software\spark-1.6.1-bin-hadoop2.6> .\bin\spark-su ...
[转]-如何将Eclipse中的项目迁移到Android Studio 中
英文地址:http://developer.android.com/sdk/installing/migrate.html 翻译:Android Studio 中文组(大锤译) 如果你之前有用Ecli ...
iOS - Swift String 字符串
前言 public struct String public class NSString : NSObject, NSCopying, NSMutableCopying, NSSecureCodin ...
【转】Github 上传代码
版权声明:欢迎转载(^ω^)~不过转载请注明原文出处:http://blog.csdn.net/catglory ლ(╹◡╹ლ) 写在前面: 弄了两小时终于搞定了,把经验整理下,方便我以后上传代码XD ...
09 高效的PL/SQL程序设计
程序包 Package 断开了依赖链实验依赖关系: <1> 首先不使用包 -- 创建表 CREATE table t (x int); -- 创建视图 create view v as ...
sqlserver 批量删除存储过程(转)
sqlserver一次只能删除一个存储过程,如果多了,需要很长时间才能删完,所以写了一段语句,直接就把当然数据库下所有用户自定义的存储过程给drop了.不过使用都请留心,当前打开的数据库哦.下面贴代码 ...
Differences between volume, partition and drive
A drive is a physical block disk. For example: /dev/sda. A partition A drive can be divided into som ...

lucene索引文件格式