基础

数据结构：

	CREATE TABLE email (

emailid mediumint(8) unsigned NOT NULL auto_increment COMMENT '邮件id',

fromid int(10) unsigned NOT NULL default '0' COMMENT '发送人ID',

toid int(10) unsigned NOT NULL default '0' COMMENT '收件人ID',

content text unsigned NOT NULL COMMENT '邮件内容',

subject varchar(100) unsigned NOT NULL COMMENT '邮件标题',

sendtime int(10) NOT NULL COMMENT '发送时间',

attachment varchar(100) NOT NULL COMMENT '附件ID，以逗号分割', PRIMARY KEY (emailid),

) ENGINE=MyISAM';

使用打开控制台，必需打开控制台PHP才能连接到sphinx（确保你已经建立好索引源）：

d:\coreseek\bin\searchd -c d:\coreseek\bin\sphinx.conf

coreseek/api目录下提供了PHP的接口文件 sphinxapi.php，这个文件包含一个SphinxClient的类

在PHP引入这个文件，new一下

01	$sphinx = new SphinxClient();

03	//sphinx的主机名和端口

05	$sphinx->SetServer ( 'loclahost', 9312 );

07	//设置返回结果集为php数组格式

09	$sphinx->SetArrayResult ( true );

11	//匹配结果的偏移量，参数的意义依次为：起始位置，返回结果条数，最大匹配条数

13	$sphinx->SetLimits(0, 20, 1000);

//最大搜索时间

17	$sphinx->SetMaxQueryTime(10);

21	//执行简单的搜索，这个搜索将会查询所有字段的信息，要查询指定的字段请继续看下文

23	$index = 'email' //索引源是配置文件中的 index 类，如果有多个索引源可使用,号隔开：'email,diary' 或者使用'*'号代表全部索引源

25	$result = $sphinx->query ('搜索关键字', $index);

27	echo '<pre>';

29	print_r($result);

31	echo '</pre>';

$result是一个数组，其中

total是匹配到的数据总数量

matches是匹配的数据，包含id，attrs这些信息

words是搜索关键字的分词

你可能奇怪为什么没有邮件的内容这些信息，其实sphinx并不会返回像mysql那样的数据数组，因为sphinx本来就没有记录完整的数据，只记录被分词后的数据。

具体还要看matches数组，matches中的ID就是指配置文件中sql_query SELECT语句中的第一个字段，我们配置文件中是这样的

sql_query = SELECT emailid,fromid,toid,subject,content,sendtime,attachement FROM email

所以matches中的ID是指emailid

至于weight是指匹配的权重，一般权重越高被返回的优先度也最高，匹配权重相关内容请参考官方文档

attrs是配置文件中sql_attr_ 中的信息，稍后会提到这些属性的用法

说了这么多，即使搜索到结果也不是我们想要的email数据，但事实sphinx是不记录真实数据的，所以要获取到真实email数据还要根据matches中的ID去搜索mysql的email表，但总体来说这样一来一回的速度还是远远比mysql的LIKE快得多，前提是几十万数据量以上，否则用sphinx只会更慢。

接下来介绍sphinx一些类似mysql条件的用法

01	//emailid的范围

03	$sphinx->SetIdRange($min, $max);

07	//属性过滤，可过滤的属性必需在配置文件中设置sql_attr_ ，之前我们定义了这些

09	sql_attr_uint = fromid

11	sql_attr_uint = toid

13	sql_attr_timestamp = sendtime

15	//如果你想再次修改这些属性，配置完成后记得重新建立索引才能生效

//指定一些值

21	$sphinx->SetFilter('fromid', array(1,2)); //fromid的值只能是1或者2

23	//和以上条件相反，可增加第三个参数

25	$sphinx->SetFilter('fromid', array(1,2), false); //fromid的值不能是1或者2

27	//指定一个值的范围

29	$sphinx->SetFilterRange('toid', 5, 200); //toid的值在5-200之间

31	//和以上条件相反，可增加第三个参数

33	$sphinx->SetFilterRange('toid', 5, 200, false); //toid的值在5-200以外

//执行搜索

39	$result = $sphinx->query('关键字', '*');

排序模式

可使用如下模式对搜索结果排序：

SPH_SORT_RELEVANCE 模式, 按相关度降序排列（最好的匹配排在最前面）

SPH_SORT_ATTR_DESC 模式, 按属性降序排列（属性值越大的越是排在前面）

SPH_SORT_ATTR_ASC 模式, 按属性升序排列（属性值越小的越是排在前面）

SPH_SORT_TIME_SEGMENTS 模式, 先按时间段（最近一小时/天/周/月）降序，再按相关度降序

SPH_SORT_EXTENDED 模式, 按一种类似SQL的方式将列组合起来，升序或降序排列。

SPH_SORT_EXPR 模式，按某个算术表达式排序

//使用属性排序

03	//以fromid倒序排序，注意当再次使用SetSortMode会覆盖上一个排序

05	$sphinx->SetSortMode ( "SPH_SORT_ATTR_DESC", 'fromid');

07	//如果要使用多个字段排序可使用SPH_SORT_EXTENDED模式

09	//@id是sphinx内置关键字，这里指emailid，至于为什么是emailid，自己思考一下

11	$sphinx->SetSortMode ( "SPH_SORT_ATTR_DESC", 'fromid ASC, toid DESC, @id DESC');

//执行搜索

15	$result = $sphinx->query('关键字', '*');

17	//更多请查看官方文档排序模式的说明

匹配模式

有如下可选的匹配模式：

SPH_MATCH_ALL, 匹配所有查询词(默认模式);

SPH_MATCH_ANY, 匹配查询词中的任意一个;

SPH_MATCH_PHRASE, 将整个查询看作一个词组，要求按顺序完整匹配;

SPH_MATCH_BOOLEAN, 将查询看作一个布尔表达式

SPH_MATCH_EXTENDED, 将查询看作一个CoreSeek/Sphinx内部查询语言的表达式 . 从版本Coreseek 3/Sphinx 0.9.9开始, 这个选项被选项SPH_MATCH_EXTENDED2代替，它提供了更多功能和更佳的性能。保留这个选项是为了与遗留的旧代码兼容——这样即使Sphinx及其组件包括API升级的时候，旧的应用程序代码还能够继续工作。

SPH_MATCH_EXTENDED2, 使用第二版的“扩展匹配模式”对查询进行匹配.

SPH_MATCH_FULLSCAN, 强制使用下文所述的“完整扫描”模式来对查询进行匹配。注意，在此模式下，所有的查询词都被忽略，尽管过滤器、过滤器范围以及分组仍然起作用，但任何文本匹配都不会发生.

我们要关注的主要是SPH_MATCH_EXTENDED2扩展匹配模式，扩展匹配模式允许使用一些像mysql的条件语句

01	//设置扩展匹配模式

03	$sphinx->SetMatchMode ( "SPH_MATCH_EXTENDED2" );

05	//查询中使用条件语句，字段用@开头，搜索内容包含测试，toid等于1的邮件：

07	$result = $sphinx->query('@content (测试) & @toid =1', '*');

09	//用括号和&（与）、\|、（或者）、-（非，即!=）设置更复杂的条件

11	$result = $sphinx->query('(@content (测试) & @subject =呃) \| (@fromid -(100))', '*');

13	//更多语法请查看官方文档匹配模式的说明

扩展匹配模式中值得一提的是搜索的字段，如果该字段被设置属性，那么扩展匹配搜索的字段默认是不包含这些属性的，只能用SetFilter()或者SetFilterRange()之类

之前我们设置了fromid、toid、sendtime为属性，但又想在扩展匹配模式中又想用作条件该怎么办？

只要在sql_query语句中再选择多一次该字段就可以了

sql_query = SELECT emailid,fromid,fromid,toid,toid,subject,content,sendtime,sendtime,attachement FROM email

//设置完成记得重新建立索引

总结

如果你想一个免费、好用、极速的全文搜索引擎，sphinx无疑是最好的选择，但是不要忘记sphinx的目的：全文检索。不要去想那些乱七八糟条件。你想要把sphinx搜索变得像mysql那样灵活，可完全单独用在一些复杂的多条件搜索，像某些邮件的高级搜索，那么我建议你还是多花点时间在PHP或者mysql代码的优化上，因为那样可能会让你的搜索变得更慢。

最好的方法是以最简单的方法搜索到内容，将ID交还mysql数据库搜索。

sphinx全文检索之PHP使用(转)的更多相关文章

Coreseek/sphinx全文检索的了解
Coreseek/sphinx全文检索的了解概述: 全文检索是一种将文件里全部文本与检索项匹配的文字资料检索方法,全文检索是将存储于数据库中整本书.整篇文章中的随意内容信息查找出来的检索.它能够依据 ...
Sphinx全文检索
全文检索一.生活中的数据总体分为: 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指没有固定格式或不定长的数据,如邮件,word文档等. 非结构化数据还有一种叫法: ...
Sphinx全文检索引擎测试
数据表 1.documents CREATE TABLE `documents` ( `id` int(13) NOT NULL auto_increment, `group_id` int(11) ...
sphinx全文检索安装配置和使用
公司项目刚刚导入大量产品数据,然后发现网站的产品搜索很卡,原本是原生sql的like来做模糊搜索,数据量20W的时候还可以接受,但是上百万就很卡了,所以需要做优化. 经过考虑,打算采用全文检索 sph ...
sphinx全文检索功能 | windows下测试（一）
前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统.网上的资料大多是在linux环境下的安装使用,当然,作为生产环境很有必要部署在* ...
Sphinx 全文检索
什么是全文检索: 全文检索是指以文档的全部文本信息作为检索对象的一种信息检索技术.检索的对象有可能是文章的标题,也有可能是文章的作者,也有可能是文章摘要或内容. 简介: Sphinx是由俄罗斯人And ...
sphinx全文检索引擎
今天刚刚学习了一下,就直接分享上去,有些还没有接触,如果有问题请指正,谢谢 sphinx是什么? Sphinx是一个全文检索引擎.主要为其他应用提供高速.低空间占用.高结果相关度的全文搜索功能. S ...
centos7下搭建sphinx全文检索引擎
Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索.Sphinx特别为一些 ...
discuz sphinx全文检索搜索引擎方案
基于discuz的索引配置文件,这个配置文件比较灵活,可以根据不同的需求来配置 # # linuxTone full index search configure file # source lt_p ...

随机推荐

C#控件背景透明的几种解决方案
已经很少做winform程序了,最新参与了一个小项目,遇到了控件背景透明的功能要求,特在此总结一下,供有需要的同行参考. 0.背景透明的概念和分类背景透明是啥意思呢,就是背景透明.哈哈,废话了.其实 ...
HDU 3711 Binary Number
Binary Number Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Tot ...
无法找到.exe的调试信息
原文:无法找到.exe的调试信息前天重装了电脑,并配置了Visual Studio2005的VC正则库,boost/regex,运行速度马上快了三倍吧,到底是怎么快的,我还真说不清楚,因为电脑这玩意 ...
Java Script 正则表达式的使用示例
一.语法 1.1 在JS中的使用代码 var myregex = new RegExp("^[-]?[0-9][0-9]{0,2}\\.[0-9]{5,15}\\,\s*[-]?[0-9][ ...
积和式Permanent在Mathematica中的运算
Permanent[m_List] := With[{v = Array[x, Length[m]]}, Coefficient[Times @@ (m.v), Times @@ v]] 参考资料: ...
Iterator和ListIterator区别
我们在使用List,Set的时候,为了实现对其数据的遍历,我们经常使用到了Iterator(迭代器).使用迭代器,你不需要干涉其遍历的过程,只需要每次取出一个你想要的数据进行处理就可以了. 但是在使用 ...
Myeclipse *.link用法
引用路径 path=D:\\ProgramData\\MyEclipse\\adt
opencv开发的程序分发给客户时所需要的dll文件
这里主要讲在其他裸机,没有搭建开发环境机器上运行自己开发的程序. 为了测试,我专门用visualbox搭建了一个虚拟机(主机和虚拟机都是win7系统) 在发给别人程序运行出现错误:msvcp100d. ...
Ubuntu 小技巧
一.获得当前文件夹的路径: 在目标文件夹下,按Ctrl+l此文件的路径会被选中之后Ctrl+c复制.要复制到终端(Terminal),选中终端按鼠标的滚轮就粘贴到了Terminal命令行中了. 二. ...
【解决】org.apache.hadoop.hbase.ClockOutOfSyncException:
org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Se ...

sphinx全文检索之PHP使用(转)

基础

排序模式

匹配模式

更多条件技巧

<、<=、>、>=

IS NOT NULL

FIND_IN_SET()

总结

sphinx全文检索之PHP使用(转)的更多相关文章

随机推荐

热门专题