sphinx 同时使用多个索引进行检索探究

2014年2月15日 11:24:34

结论:

1.一次性使用多个索引进行查询的时候,返回的结果集中的fields字段没有什么清楚的意义(也没有找到文档对它的说明)

2.如果程序中一次搜索使用了多个索引,如果它们配置文件中过滤用的属性(aql_attr_uint,sql_field_string...)不全相同,那么最终返回的结果集中,只包含这几个索引中共有的属性

实验:

建立两个索引:goods_brand, goods_cate, 分别是商品信息+品牌信息,商品信息+分类信息

  sql_query = select gid, gid as goodsid, siteid, catename from v_goods_info_cate

  sql_attr_uint = siteid

  sql_attr_uint = goodsid

  sql_field_string = catename

 #######################

  sql_query = select gid, gid as goodsid, siteid, brandname from v_goods_info_brand

  sql_attr_uint = siteid

  sql_attr_uint = goodsid

  sql_field_string = brandname

注:

1. brandname 是商品的品牌名字, catename是商品的分类名字

2. brandname, catename 在索引时,既作为全文索引,又作为属性值返回

3. siteid在两个索引中都有,brandname和catename只在各自的索引中存在

测试程序代码

 $sphObj->AddQuery($keyword, 'goods_brand');

 $sphObj->AddQuery($keyword, 'goods_cate');

 $sphObj->AddQuery($keyword, 'goods_cate, goods_brand');

 $sphObj->AddQuery($keyword, 'goods_brand,goods_cate');

 var_dump($rs[0]['fields'], $rs[0]['words'], $rs[0]['matches']);

注:

在程序中做控制:搜索"机"这个字,在goods_cate和goods_brand索引中各只有两条记录符合要求(一共有4条记录):

1.分别执行测试代码的第1行和第2行,并用第6行打印出结果:

 //goods_brand

 array (size=1)

   0 => string 'brandname' (length=9)

 array (size=1)

   '机' =>

     array (size=2)

       'docs' => string '10049' (length=5)

       'hits' => string '10049' (length=5)

 array (size=2)

   0 =>

     array (size=3)

       'id' => string '157978' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=3)

           'goodsid' => string '157978' (length=6)

           'siteid' => string '102' (length=3)

           'brandname' => string '无锡一机' (length=12)

   1 =>

     array (size=3)

       'id' => string '157980' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=3)

           'goodsid' => string '157980' (length=6)

           'siteid' => string '102' (length=3)

           'brandname' => string '无锡一机' (length=12)

 //goods_cate

 array (size=1)

   0 => string 'catename' (length=8)

 array (size=1)

   '机' =>

     array (size=2)

       'docs' => string '43986' (length=5)

       'hits' => string '43986' (length=5)

 array (size=2)

   0 =>

     array (size=3)

       'id' => string '158010' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=3)

           'goodsid' => string '158010' (length=6)

           'siteid' => string '102' (length=3)

           'catename' => string '磨齿机' (length=9)

   1 =>

     array (size=3)

       'id' => string '158014' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=3)

           'goodsid' => string '158014' (length=6)

           'siteid' => string '102' (length=3)

           'catename' => string '旋压机' (length=9)

注:

每个索引单独被使用时,各对应两条记录(一共有4条记录)

每条匹配记录中的'attrs'中有siteid+brandname,或者,siteid+catename

2.当用一次查询用多个索引时:分别执行第3行和第4行,并用第6行打印出结果:

 //goods_brand在前,goods_cate在后

 array (size=1)

   0 => string 'brandname' (length=9)

 array (size=1)

   '机' =>

     array (size=2)

       'docs' => string '54035' (length=5)

       'hits' => string '54035' (length=5)

 array (size=4)

   0 =>

     array (size=3)

       'id' => string '157978' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '157978' (length=6)

           'siteid' => string '102' (length=3)

   1 =>

     array (size=3)

       'id' => string '157980' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '157980' (length=6)

           'siteid' => string '102' (length=3)

   2 =>

     array (size=3)

       'id' => string '158010' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '158010' (length=6)

           'siteid' => string '102' (length=3)

   3 =>

     array (size=3)

       'id' => string '158014' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '158014' (length=6)

           'siteid' => string '102' (length=3)

 //goods_cate在前,goods_brand在后

 array (size=1)

   0 => string 'catename' (length=8)

 array (size=1)

   '机' =>

     array (size=2)

       'docs' => string '54035' (length=5)

       'hits' => string '54035' (length=5)

 array (size=4)

   0 =>

     array (size=3)

       'id' => string '157978' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '157978' (length=6)

           'siteid' => string '102' (length=3)

   1 =>

     array (size=3)

       'id' => string '157980' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '157980' (length=6)

           'siteid' => string '102' (length=3)

   2 =>

     array (size=3)

       'id' => string '158010' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '158010' (length=6)

           'siteid' => string '102' (length=3)

   3 =>

     array (size=3)

       'id' => string '158014' (length=6)

       'weight' => string '1' (length=1)

       'attrs' =>

         array (size=2)

           'goodsid' => string '158014' (length=6)

           'siteid' => string '102' (length=3)

注:

两个索引被同时使用,只有先后顺序不一样时,4条记录都得到了(这样的结果是对的)

但是第3行和第47行的代码键值对表明,返回的结果集中的fields值没有什么特别的含义(至少我不知到,难道只和排在前边的索引使用的全文索引字段同步?肯定有什么意义,只是我没有总结到吧)

另外,查看结果知道,每一条匹配记录的'attrs'数组中只有siteid键值对

sphinx 同时使用多个索引进行检索探究的更多相关文章

使用Lucene索引和检索POI数据
1.简介关于空间数据搜索,以前写过<使用Solr进行空间搜索>这篇文章,是基于Solr的GIS数据的索引和检索. Solr和ElasticSearch这两者都是基于Lucene实现的,两 ...
InnoDB这种行锁实现特点意味者：只有通过索引条件检索数据，InnoDB才会使用行级锁，否则，InnoDB将使用表锁！
InnoDB行锁是通过索引上的索引项来实现的,这一点MySQL与Oracle不同,后者是通过在数据中对相应数据行加锁来实现的. InnoDB这种行锁实现特点意味者:只有通过索引条件检索数据,InnoD ...
Lucene 索引与检索架构图
solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）
概念说明:同义词大体的意思是指,当用户输入一个词时,solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出,展示给用户,提高交互的友好性(当然这些同义词的定义是要在配置文件中事先 ...
sphinx通过增量索引实现近实时更新
一.sphinx增量索引实现近实时更新设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少. 例如.原来的数据 ...
Sphinx和coreseek检索引擎
Sphinx是检索英文用,coreseek是检索中文用. Sphinx(斯芬克斯)是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索 ...
sphinx 增量索引实现近实时更新
一.sphinx增量索引的设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少.例如.原来的数据有几百万条 ...
Sphinx 增量索引更新
是基于PHP API调用,而不是基于sphinxSE.现在看来sphinxSE比API调用更简单的多,因为之前没有想过sphinxSE,现在先把API的弄明白.涉及到的:sphinx 数据源的设置,简 ...
sphinx 增量索引及时更新、sphinx indexer索引合成时去旧和过滤办法(转)
一.sphinx增量索引的设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少.例如.原来的数据有几百万 ...

随机推荐

Linux基础三(软件安装管理)
目录: 一.Linux 中软件包的分类 1.源码包 2.二进制包 3.源码包 4.软件安装的选择二.软件安装之 RPM 1.背景知识 2.准备知识 3.安装升级与卸载 4.查询校验与提取三.软件安 ...
暑假学习笔记（一）——初识Neo4j和APICloud入门
暑假学习笔记(一)--初识Neo4j和APICloud入门 20180719笔记 1.Neo4j 接了学姐的系统测试报告任务,感觉工作很繁重,但是自己却每天挥霍时光.9月份就要提交系统测试报告了,但是 ...
Python模块-pandas
目录数据读取数据探索数据清洗数据清洗类型转换缺失值重复值值替换修改表结构新增列删除列删除行修改列名数据分组(数值变量) 数据分列(分类变量) 设置索引排序数据筛选/切片 ...
developer roadmap
developer roadmap https://balsamiq.com/ https://balsamiq.com/givingback/free/ https://balsamiq.cloud ...
Redis的核心Hystrix在Spring mvc的使用
核心Hystrix,Hystrix对于接口调用具有很好的保护,能在多服务依赖的分布式系统中,有效的提供应用的可用性,并且对失败应用进行熔断和恢复检查,让应用在复杂的环境中也能各种稳. http://t ...
Pycharm+Python+PyQt5使用
https://www.cnblogs.com/dalanjing/p/6978373.html
LOJ2542 PKUWC2018随机游走（概率期望+容斥原理）
如果直接dp,状态里肯定要带上已走过的点的集合,感觉上不太好做. 考虑一种对期望的minmax容斥:其中Max(S)为遍历完S集合的期望步数,Min(S)为遍历到S集合中一个点的期望步数.当然才不管怎 ...
BZOJ2653 middle（二分答案+主席树）
与中位数有关的题二分答案是很常用的trick.二分答案之后,将所有大于它的看成1小于它的看成-1,那么只需要判断是否存在满足要求的一段和不小于0. 由于每个位置是1还是-1并不固定,似乎不是很好算.考 ...
51nod 1295 XOR key (可持久化Trie树）
1295 XOR key 题目来源: HackerRank 基准时间限制:1.5 秒空间限制:262144 KB 分值: 160 难度:6级算法题给出一个长度为N的正整数数组A,再给出Q个查 ...
企业级 SpringBoot 教程（一）构建第一个SpringBoot工程
简介 spring boot 它的设计目的就是为例简化开发,开启了各种自动装配,你不想写各种配置文件,引入相关的依赖就能迅速搭建起一个web工程.它采用的是建立生产就绪的应用程序观点,优先于配置的惯例 ...

sphinx 同时使用多个索引进行检索探究

sphinx 同时使用多个索引进行检索探究的更多相关文章

随机推荐

热门专题