lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"

- DocStoreOffset
- DocStoreSegment
- DocStoreIsCompoundFile
  - 对于域(Stored Field)和词向量(Term Vector)的存储可以有不同的方式，即可以每个段(Segment)单独存储自己的域和词向量信息，也可以多个段共享域和词向量，把它们存储到一个段中去。
  - 如果DocStoreOffset为-1，则此段单独存储自己的域和词向量，从存储文件上来看，如果此段段名为XXX，则此段有自己的XXX.fdt，XXX.fdx，XXX.tvf，XXX.tvd，XXX.tvx文件。DocStoreSegment和DocStoreIsCompoundFile在此处不被保存。
  - 如果DocStoreOffset不为-1，则DocStoreSegment保存了共享的段的名字，比如为YYY，DocStoreOffset则为此段的域及词向量信息在共享段中的偏移量。则此段没有自己的XXX.fdt，XXX.fdx，XXX.tvf，XXX.tvd，XXX.tvx文件，而是将信息存放在共享段的YYY.fdt，YYY.fdx，YYY.tvf，YYY.tvd，YYY.tvx文件中。
  - 好在共享域和词向量存储并不是经常被使用到，实现也或有缺陷，暂且解释到此。

IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED);
writer.setUseCompoundFile(false);

indexDocs(writer, docDir);
writer.flush();

//flush生成segment "_0"，并且flush函数中，flushDocStores设为false，也即下个段将同本段共享域和词向量信息，这时DocumentsWriter中的docStoreSegment= "_0"。

indexDocs(writer, docDir);
writer.commit();

//commit生成segment "_1"，由于上次flushDocStores设为false，于是段"_1"的域以及词向量信息是保存在"_0"中的，在这个时刻，段"_1"并不生成自己的"_1.fdx"和"_1.fdt"。然而在commit函数中，flushDocStores设为true，也即下个段将单独使用新的段来存储域和词向量信息。然而这时，DocumentsWriter中的docStoreSegment= "_1"，也即当段"_2"存储其域和词向量信息的时候，是存在"_1.fdx"和"_1.fdt"中的，而段"_1"的域和词向量信息却是存在"_0.fdt"和"_0.fdx"中的，这一点非常令人困惑。如图writer.commit的时候，_1.fdt和_1.fdx并没有形成。

indexDocs(writer, docDir);
writer.flush();

//段"_2"形成，由于上次flushDocStores设为true，其域和词向量信息是新创建一个段保存的，却是保存在_1.fdt和_1.fdx中的，这时候才产生了此二文件。

indexDocs(writer, docDir);
writer.flush();

//段"_3"形成，由于上次flushDocStores设为false，其域和词向量信息是共享一个段保存的，也是是保存在_1.fdt和_1.fdx中的

indexDocs(writer, docDir);
writer.commit();

//段"_4"形成，由于上次flushDocStores设为false，其域和词向量信息是共享一个段保存的，也是是保存在_1.fdt和_1.fdx中的。然而函数commit中flushDocStores设为true，也意味着下一个段将新创建一个段保存域和词向量信息，此时DocumentsWriter中docStoreSegment= "_4"，也表明了虽然段"_4"的域和词向量信息保存在了段"_1"中，将来的域和词向量信息却要保存在段"_4"中。此时"_4.fdx"和"_4.fdt"尚未产生。

indexDocs(writer, docDir);
writer.flush();

//段"_5"形成，由于上次flushDocStores设为true，其域和词向量信息是新创建一个段保存的，却是保存在_4.fdt和_4.fdx中的，这时候才产生了此二文件。

indexDocs(writer, docDir);
writer.commit();
writer.close();

//段"_6"形成，由于上次flushDocStores设为false，其域和词向量信息是共享一个段保存的，也是是保存在_4.fdt和_4.fdx中的

- HasSingleNormFile
  - 在搜索的过程中，标准化因子(Normalization Factor)会影响文档最后的评分。
  - 不同的文档重要性不同，不同的域重要性也不同。因而每个文档的每个域都可以有自己的标准化因子。
  - 如果HasSingleNormFile为1，则所有的标准化因子都是存在.nrm文件中的。
  - 如果HasSingleNormFile不是1，则每个域都有自己的标准化因子文件.fN
- NumField
  - 域的数量
- NormGen
  - 如果每个域有自己的标准化因子文件，则此数组描述了每个标准化因子文件的版本号，也即.fN的N。
- IsCompoundFile
  - 是否保存为复合文件，也即把同一个段中的文件按照一定格式，保存在一个文件当中，这样可以减少每次打开文件的个数。
  - 是否为复合文件，由接口IndexWriter.setUseCompoundFile(boolean)设定。
  - 非符合文件同符合文件的对比如下图：

非复合文件：

复合文件：

- DeletionCount
  - 记录了此段中删除的文档的数目。
- HasProx
  - 如果至少有一个段omitTf为false，也即词频(term freqency)需要被保存，则HasProx为1，否则为0。
- Diagnostics
  - 调试信息。
User map data
- 保存了用户从字符串到字符串的映射Map
CheckSum
- 此文件segment_N的校验和。

读取此文件格式参考SegmentInfos.read(Directory directory, String segmentFileName):

int format = input.readInt();
version = input.readLong(); // read version
counter = input.readInt(); // read counter
for (int i = input.readInt(); i > 0; i--) // read segmentInfos
- add(new SegmentInfo(directory, format, input));
  - name = input.readString();
  - docCount = input.readInt();
  - delGen = input.readLong();
  - docStoreOffset = input.readInt();
  - docStoreSegment = input.readString();
  - docStoreIsCompoundFile = (1 == input.readByte());
  - hasSingleNormFile = (1 == input.readByte());
  - int numNormGen = input.readInt();
  - normGen = new long[numNormGen];
  - for(int j=0;j
  - normGen[j] = input.readLong();
- isCompoundFile = input.readByte();
- delCount = input.readInt();
- hasProx = input.readByte() == 1;
- diagnostics = input.readStringStringMap();
userData = input.readStringStringMap();
final long checksumNow = input.getChecksum();
final long checksumThen = input.readLong();

lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中的更多相关文章

lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！
4.1.3. 域(Field)的数据信息(.fdt,.fdx) 域数据文件(fdt): 真正保存存储域(stored field)信息的是fdt文件在一个段(segment)中总共有segment ...
lucene正向索引（续）——域(Field)的元数据信息在.fnm里，在倒排表里，利用跳跃表，有利于大大提高搜索速度。
4.1.2. 域(Field)的元数据信息(.fnm) 一个段(Segment)包含多个域,每个域都有一些元数据信息,保存在.fnm文件中,.fnm文件的格式如下: FNMVersion 是fnm文件 ...
lucene正向索引——正向信息，Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)
转自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过,Lucene保存了从Index到Segm ...
struts2每次访问都会创建一个新的session
1.第一次项目在测试过程中,突然发现登陆之后再去访问其他菜单时都会提示未登录: 查看日志之后发现是因为很多次请求时都会自动创建一个新的session,这就费解了, 因为之前也没改动什么session ...
Lucene学习总结之三：Lucene的索引文件格式(1)
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene学习之四：Lucene的索引文件格式(2)
本文转载自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 略有删减和补充四.具体格式上面曾经交代过,L ...
Lucene学习总结之三：Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读评论(0) 收藏
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene.net(4.8.0) 学习问题记录六：Lucene 的索引系统和搜索过程分析
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
如何提高Lucene构建索引的速度
如何提高Lucene构建索引的速度 hans(汉斯) 2013-01-27 10:12 对于Lucene>=2.3:IndexWriter可以自行根据内存使用来释放缓存.调用writer.set ...

随机推荐

java线程的五种状态
五种状态开始状态(new) 就绪状态(runnable) 运行状态(running) 阻塞状态(blocked) 结束状态(dead) 状态变化 1.线程刚创建时,是new状态 2.线程调用了sta ...
java模板模式项目中使用--封装一个http请求工具类
需要调用http接口的代码继承FundHttpTemplate类,重写getParamData方法,在getParamDate里写调用逻辑. 模板: package com.crb.ocms.fund ...
elementui限制开始日期和结束日期
项目需求:开始日期和结束日期禁用当前日期之前的日期.同时结束日期禁用开始日期之前的日期 <div class='startTime'> 开始时间:<el-date-picker ...
Java 之字节流
一.一切皆为字节一切文件数据(文本.图片.视频等)在存储时,都是以二进制数字的形式保存,都一个一个的字节,那么传输时一样如此.所以,字节流可以传输任意文件数据.在操作流的时候,我们要时刻明确,无论使 ...
English-培训4-How do you spend your day
iOS自动布局学习（UIView+AutoLayout）
自动布局虽然在iOS6的时候已经推出,不过由于各个原因并没有被开发组广泛使用.一方面是大家的app支持版本都是低于iOS6的,另一方面来说是Xcode支持木有现在这么好.以前由于iPhone设备相对固 ...
html流程实现
https://blog.csdn.net/github_39335046/article/details/73930886 https://www.cnblogs.com/xcj26/p/98707 ...
[LeetCode] 148. 排序链表 ☆☆☆(归并排序)
148.排序链表描述在 O(n log n) 时间复杂度和常数级空间复杂度下,对链表进行排序. 示例 1: 输入: 4->2->1->3输出: 1->2->3-> ...
对于Linux中文件描述符的疑问以及解决
问题每次web服务器或者是几乎所有Linux服务器都需要对文件描述符进行调整,我使用ulimit -n来查看当前用户的最多能打开的文件,默认设置的是1024个,但是系统运行起来以及开启一些简单的 ...
[476] Database Mail is not enabled for agent notifications. Cannot send e-mail to
配置完DB Mail后JOB的的通知邮件不能发送,日志报错476] Database Mail is not enabled for agent notifications. Cannot send ...

lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中

lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中的更多相关文章

随机推荐

热门专题