sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里

后面就是初始化一些存储结构，其中重点说下缓存出来的几个临时文件分别的作用。结尾时tmp0的存储的是被上锁的Index，有些Index正在被查询使用故上锁。tmp1，即对应将来生成的spp文件，存储词汇的位置信息，包含该词所在的文档ID，该词所在词典对应的ID，以及该词在本文档中的位置信息。 tmp2，即对应将来生成的spa文件存储的是文档信息，包含了DocID以及DocInfo信息。tmp7对应的是多值查询，感兴趣的可以度娘，这是一种查询方式，这里不做过多解释

// create temp files

CSphAutofile fdLock ( GetIndexFileName("tmp0"), SPH_O_NEW, m_sLastError, true );

CSphAutofile fdHits ( GetIndexFileName ( m_bInplaceSettings ? "spp" : "tmp1" ), SPH_O_NEW, m_sLastError, !m_bInplaceSettings );

CSphAutofile fdDocinfos ( GetIndexFileName ( m_bInplaceSettings ? "spa" : "tmp2" ), SPH_O_NEW, m_sLastError, !m_bInplaceSettings );

CSphAutofile fdTmpFieldMVAs ( GetIndexFileName("tmp7"), SPH_O_NEW, m_sLastError, true );

CSphWriter tOrdWriter;

CSphString sRawOrdinalsFile = GetIndexFileName("tmp4");

下面具体处理每一个Source取出的每一个文档，主要是通过这个IterateHitsNext实现的

具体到该函数可以看到，该函数主要是有两部分组成，即提取索引列(NextDocument),针对该索引列构建索引(BuildHits)

bool CSphSource_Document::IterateHitsNext ( CSphString & sError )

{

assert ( m_pTokenizer );

PROFILE ( src_document );

BYTE ** dFields = NextDocument ( sError );//从数据源中提取需要构建索引的列

if ( m_tDocInfo.m_iDocID==0 )

return true;

if ( !dFields )

return false;

m_tStats.m_iTotalDocuments++;

m_dHits.Reserve ( 1024 );

m_dHits.Resize ( 0 );

BuildHits ( dFields, -1, 0 );//针对提取出的需要索引的列构建索引

return true;

}

具体看一下NexDocument的操作，通过Sql.h中的API——sqlFetchRow，取出一条记录，验证该记录是否合法

将条记录按照Schema分成Feild部分，即需要构建索引的部分，以及Attribute部分，即排序需要用到的属性部分

提取出相关数据后，针对每一条需要索引的item开始构建索引，进入BuildHit函数，首先先初始化相关参数，准备分词器缓存

然后开始分词，分词的过程在这里不具体讲了，这不属于Sphinx的主要涉足领域，当我们把iField即要索引的字段放入分词器中依次解析，然后将分出的词赋值给sWord，将sWord的位置计算后赋值给ipos

将分词后的sWord去词典中查找它对应的词ID，这样我们就收集全了这个词的所有详细信息，创建一个类型为CSphWordHit类型的tHit,其中存储了该sWord所在的DocID，在词典中对应的词ID，以及在文档中词的位置信息Pos

SphWordID_t iWord = m_pDict->GetWordID ( sWord );

if ( iWord )

{

CSphWordHit & tHit = m_dHits.Add ();//将tHit放入dHit中去

tHit.m_iDocID = m_tDocInfo.m_iDocID;

tHit.m_iWordID = iWord;

tHit.m_iWordPos = iPos;

} else

{

iLastStep = m_iStopwordStep;

}

处理完该词后，如果是中文的话还会进一步去判断其是否有近义词出现，。。。，最后将所有的sWord的信息tHit都放入到m_dHits中去,形成我们的词索引spp索引.

当该iField索引字段全部都索引完成后，在dHit中添加结束标记!

摘自：http://frankiewb.blog.51cto.com/8202664/1359897

sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里的更多相关文章

shinx索引部分源码分析——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里
CSphSource 数据源 CSphSource_XMLPipe2-XML文件获取数据 CSphSource_SQL-SQL(MySQL)获取数据 CSphIndex 索引器派生类CSphInde ...
Ubuntu 14.04 LTS 下 android 2.3.5 源码编译过程
Ubuntu 14.04 LTS 下 android 2.3.5 源码编译过程在新的Ubuntu 64位系统下去编译早期的安卓源码是会出现很多问题的,因为64位系统在安装完成后,很多32位的兼容 ...
mysql-5.5.28源码安装过程中错误总结
介绍一下关于mysql-5.5.28源码安装过程中几大错误总结,希望此文章对各位同学有所帮助.系统centOS 6.3 mini (没有任何编译环境)预编译环境首先装了众所周知的 cmake(yum ...
英蓓特Mars board的android4.0.3源码编译过程
英蓓特Mars board的android4.0.3源码编译过程作者:StephenZhu(大桥++) 2013年8月22日若要转载,请注明出处一.编译环境搭建及要点: 1. 虚拟机软件virt ...
Hadoop源码编译过程
一. 为什么要编译Hadoop源码 Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通 ...
TextMate2 最新版下载及源码编译过程
TextMate2 已经开源,我刚编译成功,如果有需要的同学可以点击下面百度网盘的链接下载.我系统版本是:Mac OS X 10.8.4. TextMate version 2.0-alpha.946 ...
snort-2.9.7.0源码安装过程
2015/02/15,centos6.5-64-minimal,初始205个包 [root@localhost snort]# yum install wget[root@localhost snor ...
nginx源码编译以及源码编译过程中遇到的问题
本文主要讲nginx安装以及安装过程中遇到的问题. 谈到nginx 必须聊聊它的起源和发展. nginx是由俄罗斯工程师Igor Sysoev 用C语言开发的一个免费开源的Web服务器软件,于2004 ...
android源码编译过程
1.下载好android源码包. 2.装好vm,ubuntu(如果能在实体机装linux更好). 3.安装所需要的deb包在终端执行如下命令: sudo apt-get install flex b ...

随机推荐

jQuery的对象访问函数(get,index,size,each)
1.get() 元素集合取得所有匹配的 DOM 元素集合. 这是取得所有匹配元素的一种向后兼容的方式(不同于jQuery对象,而实际上是元素数组). 如果你想要直接操作 DOM 对象而不是 jQue ...
nginx学习网站收录
1.菜鸟教程 2. Nginx中文 3. Nginx官网参考:http://www.cnblogs.com/knowledgesea/p/5175711.html
从零开始写STL—set/map
这一部分只要把搜索树中暴露的接口封装一下,做一些改动. set源码剖析 template<typename T> class set { public: typedef T key_typ ...
.NET Core 3.0之深入源码理解Configuration(一)
Configuration总体介绍微软在.NET Core里设计出了全新的配置体系,并以非常灵活.可扩展的方式实现.从其源码来看,其运行机制大致是,根据其Source,创建一个Builder实例,并 ...
CodeForces 582A【multiset使用样例】
题意: 给一些无序的数字,求解一个矩阵,使得矩阵的每一个元素都是行和列标志数的gcd,输出行标志数. 首先对数字进行排序.复杂度n*log(n^2). 这题的证明有官方的英文题解==在这直接贴英文题解 ...
Windows如何在cmd命令行中查看、修改、删除与添加、设置环境变量
首先明确一点: 所有的在cmd命令行下对环境变量的修改只对当前窗口有效,不是永久性的修改.也就是说当关闭此cmd命令行窗口后,将不再起作用.永久性修改环境变量的方法有两种:一种是直接修改注册表(此种方 ...
Simics 破解转
http://www.eetop.cn/blog/html/28/1066428-type-bbs-view-myfav.html http://blog.sina.com.cn/s/blog_538 ...
中间件序列TDATASET为BUFFER演示代码
procedure SendStream(const AStream: TStream);var Buffer: array[0..4095] of Byte; // 每包最大4K StartPos, ...
一个基于JBoss5.1+EJB3.0 登陆应用
花了几天的时间研究了一下EJB的使用,一直以来都主要是在写终端中的程序,对Java框架的相关的开发非常不熟悉,中间遇到了不少麻烦,还好总算都攻克了.写篇日志记录一下. 经验总结为什么选择JBoss5 ...
什么是WPF? 秒懂！
一開始听到WPF.认为非常陌生.在百度百科等地方看完简单介绍之后.感觉更深奥.各种不懂啊! 在简单做了几个页面之后,发现.原来如此! So Easy 但又So Magic. 为什么说它简单?由于它简直 ...

sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里

sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里的更多相关文章

随机推荐

热门专题