lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！

4.1.3. 域(Field)的数据信息(.fdt，.fdx)

域数据文件(fdt):
- 真正保存存储域(stored field)信息的是fdt文件
- 在一个段(segment)中总共有segment size篇文档，所以fdt文件中共有segment size个项，每一项保存一篇文档的域的信息
- 对于每一篇文档，一开始是一个fieldcount，也即此文档包含的域的数目，接下来是fieldcount个项，每一项保存一个域的信息。
- 对于每一个域，fieldnum是域号，接着是一个8位的byte，最低一位表示此域是否分词(tokenized)，倒数第二位表示此域是保存字符串数据还是二进制数据，倒数第三位表示此域是否被压缩，再接下来就是存储域的值，比如new Field("title", "lucene in action", Field.Store.Yes, …)，则此处存放的就是"lucene in action"这个字符串。
域索引文件(fdx)
- 由域数据文件格式我们知道，每篇文档包含的域的个数，每个存储域的值都是不一样的，因而域数据文件中segment size篇文档，每篇文档占用的大小也是不一样的，那么如何在fdt中辨别每一篇文档的起始地址和终止地址呢，如何能够更快的找到第n篇文档的存储域的信息呢？就是要借助域索引文件。
- 域索引文件也总共有segment size个项，每篇文档都有一个项，每一项都是一个long，大小固定，每一项都是对应的文档在fdt文件中的起始地址的偏移量，这样如果我们想找到第n篇文档的存储域的信息，只要在fdx中找到第n项，然后按照取出的long作为偏移量，就可以在fdt文件中找到对应的存储域的信息。
读取域数据信息的代码如下：

Document FieldsReader.doc(int n, FieldSelector fieldSelector)

long position = indexStream.readLong();//indexStream points to ".fdx"
fieldsStream.seek(position);//fieldsStream points to "fdt"
int numFields = fieldsStream.readVInt();
for (int i = 0; i < numFields; i++)
- int fieldNumber = fieldsStream.readVInt();
- byte bits = fieldsStream.readByte();
- boolean compressed = (bits & FieldsWriter.FIELD_IS_COMPRESSED) != 0;
- boolean tokenize = (bits & FieldsWriter.FIELD_IS_TOKENIZED) != 0;
- boolean binary = (bits & FieldsWriter.FIELD_IS_BINARY) != 0;
- if (binary)
  - int toRead = fieldsStream.readVInt();
  - final byte[] b = new byte[toRead];
  - fieldsStream.readBytes(b, 0, b.length);
  - if (compressed)
    - int toRead = fieldsStream.readVInt();
    - final byte[] b = new byte[toRead];
    - fieldsStream.readBytes(b, 0, b.length);
    - uncompress(b),
- else
  - fieldsStream.readString()

4.1.3. 词向量(Term Vector)的数据信息(.tvx，.tvd，.tvf)——term vector用于打分，存储StoreTermVectors的field

词向量信息是从索引(index)到文档(document)到域(field)到词(term)的正向信息，有了词向量信息，我们就可以得到一篇文档包含那些词的信息。

词向量索引文件(tvx)
- 一个段(segment)包含N篇文档，此文件就有N项，每一项代表一篇文档。
- 每一项包含两部分信息：第一部分是词向量文档文件(tvd)中此文档的偏移量，第二部分是词向量域文件(tvf)中此文档的第一个域的偏移量。
词向量文档文件(tvd)
- 一个段(segment)包含N篇文档，此文件就有N项，每一项包含了此文档的所有的域的信息。
- 每一项首先是此文档包含的域的个数NumFields，然后是一个NumFields大小的数组，数组的每一项是域号。然后是一个(NumFields - 1)大小的数组，由前面我们知道，每篇文档的第一个域在tvf中的偏移量在tvx文件中保存，而其他(NumFields - 1)个域在tvf中的偏移量就是第一个域的偏移量加上这(NumFields - 1)个数组的每一项的值。
词向量域文件(tvf)
- 此文件包含了此段中的所有的域，并不对文档做区分，到底第几个域到第几个域是属于那篇文档，是由tvx中的第一个域的偏移量以及tvd中的(NumFields - 1)个域的偏移量来决定的。
- 对于每一个域，首先是此域包含的词的个数NumTerms，然后是一个8位的byte，最后一位是指定是否保存位置信息，倒数第二位是指定是否保存偏移量信息。然后是NumTerms个项的数组，每一项代表一个词(Term)，对于每一个词，由词的文本TermText，词频TermFreq(也即此词在此文档中出现的次数)，词的位置信息，词的偏移量信息。
读取词向量数据信息的代码如下：

TermVectorsReader.get(int docNum, String field, TermVectorMapper)

int fieldNumber = fieldInfos.fieldNumber(field);//通过field名字得到field号
seekTvx(docNum);//在tvx文件中按docNum文档号找到相应文档的项
long tvdPosition = tvx.readLong();//找到tvd文件中相应文档的偏移量
tvd.seek(tvdPosition);//在tvd文件中按偏移量找到相应文档的项
int fieldCount = tvd.readVInt();//此文档包含的域的个数。
for (int i = 0; i < fieldCount; i++) //按域号查找域
- number = tvd.readVInt();
- if (number == fieldNumber)
  - found = i;
position = tvx.readLong();//在tvx中读出此文档的第一个域在tvf中的偏移量
for (int i = 1; i <= found; i++)
- position += tvd.readVLong();//加上所要找的域在tvf中的偏移量
tvf.seek(position);
int numTerms = tvf.readVInt();
byte bits = tvf.readByte();
storePositions = (bits & STORE_POSITIONS_WITH_TERMVECTOR) != 0;
storeOffsets = (bits & STORE_OFFSET_WITH_TERMVECTOR) != 0;
for (int i = 0; i < numTerms; i++)
- start = tvf.readVInt();
- deltaLength = tvf.readVInt();
- totalLength = start + deltaLength;
- tvf.readBytes(byteBuffer, start, deltaLength);
- term = new String(byteBuffer, 0, totalLength, "UTF-8");
- if (storePositions)
  - positions = new int[freq];
  - int prevPosition = 0;
  - for (int j = 0; j < freq; j++)
    - positions[j] = prevPosition + tvf.readVInt();
    - prevPosition = positions[j];
- if (storeOffsets)
  - offsets = new TermVectorOffsetInfo[freq];
  - int prevOffset = 0;
  - for (int j = 0; j < freq; j++)
  - int startOffset = prevOffset + tvf.readVInt();
  - int endOffset = startOffset + tvf.readVInt();
  - offsets[j] = new TermVectorOffsetInfo(startOffset, endOffset);
  - prevOffset = endOffset;

lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！的更多相关文章

Lucene 写入一个文档到该文档可搜索延迟是多少？
我看的是最初版的lucene,1.4.3 结论是新写入的文档会先写入内存中,只有当到达一定阈值后才会刷新进磁盘,而搜索可以搜索到的数据由最初定义IndexSearcher时磁盘里的段数据决定,如果想要 ...
lucene正向索引——正向信息，Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)
转自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过,Lucene保存了从Index到Segm ...
【Lucene3.6.2入门系列】第14节_SolrJ操作索引和搜索文档以及整合中文分词
package com.jadyer.solrj; import java.util.ArrayList; import java.util.List; import org.apache.solr. ...
elasticsearch 基础 —— 索引、更新文档
索引文档通过使用 index API ,文档可以被索引 -- 存储和使文档可被搜索 . 但是首先,我们要确定文档的位置.正如我们刚刚讨论的,一个文档的 _index . _type 和 _id 唯 ...
ElasticSearch 基本概念 and 索引操作 and 文档操作 and 批量操作 and 结构化查询 and 过滤查询
基本概念索引: 类似于MySQL的表.索引的结构为全文搜索作准备,不存储原始的数据. 索引可以做分布式.每一个索引有一个或者多个分片 shard.每一个分片可以有多个副本 replica. 文档: ...
Java：多个文档合并输出到一个文档
多个文档合并输出到一个文档方法:Java NIO package First; import java.io.File; import java.io.FileInputStream; import ...
iframe 元素会创建包含另外一个文档的内联框架（即行内框架）
HTML 与 XHTML 之间的差异在 HTML 4.1 Strict DTD 和 XHTML 1.0 Strict DTD 中,不支持 iframe 元素. 提示和注释: 提示:您可以把需要的文本 ...
java 写一个"HelloJavaWorld你好世界"输出到操作系统文件Hello.txt文件中
package com.beiwo.homework; import java.io.File; import java.io.FileOutputStream; import java.io.IOE ...
lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中
DocStoreOffset DocStoreSegment DocStoreIsCompoundFile 对于域(Stored Field)和词向量(Term Vector)的存储可以有不同的方式, ...

随机推荐

iOS - error：unrecognized selector sent to class 导入第三方SDK .a后不识别，运行崩溃
今天将app统计的.a静态库包含到一个app应用中,调试时报下面的错误: *** Terminating app due to uncaught exception 'NSInvalidArgumen ...
【转载】常见面试题：C#中String和string的区别分析
在很多人面试C#开发工程师的时候,会遇到一个面试题,就是C#中String和string有啥区别.其实针对这个问题C#中String和string没有本质上的区别,两者在程序中都可使用,稍微的一个区别 ...
JavaScript中对null和undefined的理解
前沿: 今天工作中遇到了监视一个变量是undefined,结果判断写的是==null 返回值是true,这个结果引起了我对这两个东西的兴趣. 查询了相关的文章理解并测试了.发现有以下特点: 1.广义上 ...
JS定时器做物体运动
JS定时器是函数 setInterval(函数体/函数名 , 时间) 清楚定时器 clearInterval(函数) 时间单位(毫秒) 1000毫秒 = 1秒首先我们要知道用JS定时器能干什么? ...
记录--linux下mysql数据库问题
本次主要记录一下linux下mysql数据库的一些问题,也是之前经常用到的知识,这里简单总结一些问题,方便自己以后的回顾.原来一直使用的是阿里云的RDS数据库mysql版,主要是因为上次阿里云做活动可 ...
Hive笔记及配置
Hive 基于Hadoop的数据仓库工具: 将结构化的数据文件,映射为一张表,并提供类SQL查询功能: 本质:将HQL转化为MapReduce程序: Hive处理的数据存储在HDFS: Hive分析数 ...
Android笔记（三十五） Android中AsyncTask
AsyncTask<Params,Progress,Result> 是一个抽象类,通常继承这个抽象类需要指定如下几个泛型参数: 1. Params :启动任务时出入参数的类型 2. P ...
Android笔记（三十） Android中线程之间的通信（二）Handler消息传递机制
什么是Handler 之前说过了,Android不允许主线程(MainThread)外的线程(WorkerThread)去修改UI组件,但是又不能把所有的更新UI的操作都放在主线程中去(会造成ANR) ...
Python语言程序设计：Lab6
Reversing a List If you have time, you can try to write a function which will reverse a list recursi ...
Innodb关键特性之自适用Hash索引
一.索引的资源消耗分析 1.索引三大特点 1.小:只在一个到多个列建立索引 2.有序:可以快速定位终点 3.有棵树:可以定位起点,树高一般小于等于3 2.索引的资源消耗点 1.树的高度,顺序访问索引的 ...

lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！

4.1.3. 域(Field)的数据信息(.fdt，.fdx)

4.1.3. 词向量(Term Vector)的数据信息(.tvx，.tvd，.tvf)——term vector用于打分，存储StoreTermVectors的field

lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！的更多相关文章

随机推荐

热门专题