Sphinx学习笔记(一)
最近负责一个项目,需要用到全文检索,我的环境大体如下:
## Minimal Sphinx configuration sample (clean, simple, functional)##数据源,src1为名字,后面会引用这个名字source src1{type = mysqlsql_host = localhostsql_user = testsql_pass =sql_db = testsql_port = 3306 # optional, default is 3306sql_query = \SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \FROM documentssql_attr_uint = group_idsql_attr_timestamp = date_added}#test1为索引名称,sphinx检索时需要这个名字,相当于关系数据库中的tableindex test1{source = src1 #引用的数据源名称path = @CONFDIR@/data/test1}index testrt{type = rtrt_mem_limit = 128Mpath = @CONFDIR@/data/testrtrt_field = titlert_field = contentrt_attr_uint = gid}indexer{mem_limit = 128M}searchd{listen = 9312listen = 9306:mysql41log = @CONFDIR@/log/searchd.logquery_log = @CONFDIR@/log/query.logread_timeout = 5max_children = 30pid_file = @CONFDIR@/log/searchd.pidseamless_rotate = 1preopen_indexes = 1unlink_old = 1workers = threads # for RT to workbinlog_path = @CONFDIR@/data}
D:\blue\sphinx-2.2.8-release-win64-full\bin>indexer -c ..\sphinx-min.conf.in --allSphinx 2.2.8-id64-release (r4942)Copyright (c) 2001-2015, Andrew AksyonoffCopyright (c) 2008-2015, Sphinx Technologies Inc (http://sphinxsearch.com)using config file '..\sphinx-min.conf.in'...indexing index 'test1'...collected 4 docs, 0.0 MBsorted 0.0 Mhits, 100.0% donetotal 4 docs, 33882 bytestotal 0.121 sec, 278900 bytes/sec, 32.92 docs/secskipping non-plain index 'testrt'...total 3 reads, 0.000 sec, 12.0 kb/call avg, 0.0 msec/call avgtotal 12 writes, 0.001 sec, 5.7 kb/call avg, 0.1 msec/call avg需要注意的是,如果需要建立的索引已经被使用,即已经启动了searchd服务,就需要增加--rotate参数,类似于indexer -c ..\sphinx-min.conf.in --all --rotate
然后在同一目录下运行 searchd -c ..\sphinx-min.conf.in,如下
D:\blue\sphinx-2.2.8-release-win64-full\bin>searchd -c ..\sphinx-min.conf.inSphinx 2.2.8-id64-release (r4942)Copyright (c) 2001-2015, Andrew AksyonoffCopyright (c) 2008-2015, Sphinx Technologies Inc (http://sphinxsearch.com)using config file '..\sphinx-min.conf.in'...listening on all interfaces, port=9312listening on all interfaces, port=9306precaching index 'test1'rotating index 'test1': successprecaching index 'testrt'precached 2 indexes in 0.045 sec
没有什么错误,需要注意的是,需要先创建索引,才能启动服务,否则可能会出错,searchd命令也可以安装为服务,以后使用起来会更加方便,这里这么做也是为了看到底是否配置成功,否则系统服务出错,我们看不到错误原因。
Sphinx 2.2.8-id64-release (r4942)
Copyright (c) 2001-2015, Andrew Aksyonoff
Copyright (c) 2008-2015, Sphinx Technologies Inc (http://sphinxsearch.com)
using config file '..\sphinx-min.conf.in'...
indexing index 'test1'...
collected 4 docs, 0.0 MB
sorted 0.0 Mhits, 100.0% done
total 4 docs, 303 bytes
total 0.086 sec, 3518 bytes/sec, 46.44 docs/sec
skipping non-plain index 'testrt'...
total 3 reads, 0.000 sec, 0.4 kb/call avg, 0.0 msec/call avg
total 12 writes, 0.001 sec, 0.2 kb/call avg, 0.0 msec/call avg
rotating indices: successfully sent SIGHUP to searchd (pid=4556).
"id" "group_id" "date_added""3" "2" "1427446411""4" "2" "1427446411"
这里面有一个问题,可以看出id 4实际上并没有“重构”这个词,只是包含“重”“构”这两个字而已,所以可能无法满足某些需求,但是好在Sphinx的默认匹配方式是短语相似度,所以理论上来说,包含“重构”这个词的会排序在前面,简单测试也是如此,是否一直如此就不知道了。可以参考这篇文章:http://rainkid.blog.163.com/blog/static/165140840201010277223611/
var SphinxClient = require ("sphinxapi"),util = require('util'),assert = require('assert');var cl = new SphinxClient();cl.SetServer('localhost', 9312);cl.Query('重构','test1', function(err, result) {assert.ifError(err);console.log(util.inspect(result, false, null, true));});运行程序,node sphinx2.js,如下{ error: '',warning: '',status: [ 0 ],fields: [ 'title', 'content' ],attrs:[ [ 'group_id', 1 ],[ 'date_added', 2 ] ],matches:[ { id: 3,weight: 2,attrs: { group_id: 2, date_added: 1427446411 } },{ id: 4,weight: 1,attrs: { group_id: 2, date_added: 1427446411 } } ],total: 2,total_found: 2,time: 0.004,words:[ { word: '重', docs: 2, hits: 2 },{ word: '构', docs: 2, hits: 2 } ] }可以看出和SphinxQL运行的效果一样,只不过返回的信息更多而已。
2)SphinxQL
#sphinx.js
var mysql = require('mysql');var connection = mysql.createConnection({host : 'localhost',port : '9306'});connection.connect();var queryString = "SELECT * FROM test1 WHERE MATCH('重构')";connection.query(queryString, function(err, rows, fields) {if (err) throw err;for (var i in rows) {console.log(JSON.stringify(rows[i]));}});connection.end();运行程序,node sphinx.js,如下{"id":3,"group_id":2,"date_added":1427446411}{"id":4,"group_id":2,"date_added":1427446411}乍看起来,似乎sphinxapi提供的信息更多,我没有具体比较过,不过sphinxQL也包含了一些函数,如weight(),可以返回权重,如执行SELECT *, weight() FROM test1 WHERE MATCH('重构'); 结果如下"id" "group_id" "date_added" "weight()""3" "2" "1427446411" "2557""4" "2" "1427446411" "1557"可知sphinxap提供的权重,似乎是sphinxQL提供的值除以1000之后的值
3、CentOS的安装和使用
$ yum install postgresql-libs unixODBC$ rpm -Uhv sphinx-2.2.8.rhel6.x86_64.rpm$ service searchd start具体的使用和Windows是一样的,没有什么区别。
4、其他
indexer --merge DSTINDEX SRCINDEX [--rotate]
indexer --merge main delta --merge-dst-range deleted 0 0
2013.11.09 sphinx-for-chinese-2.2.1-dev-r4311-win32.zip2013.11.09 sphinx-for-chinese-2.2.1-dev-r4311.tar.gz
index test1{source = src1path = D:/blue/sphinx_data/data/test1docinfo = externcharset_type = utf-8chinese_dictionary = D:\blue\sphinx-for-chinese-2.2.1-dev-r4311-win32\xdict}其中charset_type = utf-8在最新的版本中已经废弃,因为默认已经是utf-8,xdict是一个字典文件
Sphinx学习笔记(一)的更多相关文章
- Sphinx学习笔记2
因为网站搜索的需要,启动了一个搜索引擎项目,其实也算不上完整的搜索引擎,需求很简单,如下: 1)搜索产品名.类别名.品牌名.副标题.关键字等字段 2)数据量目前为13000左右,未来可 ...
- SQL反模式学习笔记17 全文搜索
目标:全文搜索 使用SQL搜索关键字,同时保证快速和精确,依旧是相当地困难. SQL的一个基本原理(以及SQL所继承的关系原理)就是一列中的单个数据是原子性的. 反模式:模式匹配 使用Like 或者正 ...
- Linux学习笔记-Linux系统简介
Linux学习笔记-Linux系统简介 UNIX与Linux发展史 UNIX是父亲,Linux是儿子. UNIX发行版本 操作系统 公司 硬件平台 AIX IBM PowerPC HP-UX HP P ...
- python学习笔记:建立一个自己的搜索引擎
写学习笔记是我学习python以来养成的一个习惯,每学习一个知识点,便整理成文字记录下来.搜索引擎大家经常都有在使用,国内外也很很多搜索引擎平台. Google搜索引擎建立至今已经快20年了,之后全球 ...
- 《SQL 反模式》 学习笔记
第一章 引言 GoF 所著的的<设计模式>,在软件领域引入了"设计模式"(design pattern)的概念. 而后,Andrew Koenig 在 1995 年造了 ...
- js学习笔记:webpack基础入门(一)
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
- PHP-自定义模板-学习笔记
1. 开始 这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2. 整体架构图 ...
- PHP-会员登录与注册例子解析-学习笔记
1.开始 最近开始学习李炎恢老师的<PHP第二季度视频>中的“章节5:使用OOP注册会员”,做一个学习笔记,通过绘制基本页面流程和UML类图,来对加深理解. 2.基本页面流程 3.通过UM ...
- 2014年暑假c#学习笔记目录
2014年暑假c#学习笔记 一.C#编程基础 1. c#编程基础之枚举 2. c#编程基础之函数可变参数 3. c#编程基础之字符串基础 4. c#编程基础之字符串函数 5.c#编程基础之ref.ou ...
随机推荐
- PHP strftime()函数输出乱码问题
直接调用strftime() strftime(time_buf, 80, "%a, %e %b %G %T %z", p_stime); 输出为 Îå, 18 12ÔÂ 201 ...
- 对java泛型的理解
正确的应用java泛型的特性可以更好的实现编程的开闭原则(对扩展开放,对修改关闭),这得益于java泛型提供的在程序运行时获取对象声明类型的特性. 静态语言的特性是在程序编译前进行声明,这样程序在编译 ...
- Spring4 事务管理
Spring4 事务管理 本章是Spring4 教程中的最后一章,也是非常重要的一章.如果说学习IOC是知识的入门,那学习事务管理就是知识的提升.本章篇幅可能有一丢丢长,也有一丢丢难,需要读者细细品味 ...
- 负载均衡手段之DNS轮询
大多数域名注册商都支持对统一主机添加多条A记录,这就是DNS轮询,DNS服务器将解析请求按照A记录的顺序,随机分配到不同的IP上,这样就完成了简单的负载均衡.下图的例子是:有3台联通服务器.3台电信服 ...
- 2017湖湘杯Writeup
RE部分 0x01 Re4newer 解题思路: Step1:die打开,发现有upx壳. Step2:脱壳,执行upx -d 文件名即可. Step3:IDA打开,shift+F12看字符串. 点进 ...
- windows下安装和redis主从配置(通过哨兵控制主从切换)
首先自己先得了解什么是redis,这里就不详做介绍什么是redis了,这篇文章主要讲的是怎么样配置 redis怎样配置主从关系和哨兵控制主从服务器的配置以及应用,就当是给自己记笔记吧! 1.下载red ...
- 集合、set以及HASH
集合的数据结构数据结构就是内存中保存输出数据的形式,不同的数据结构会有不同的特征.堆栈结构:先进后出 代表类(stack):应用场景:java中的方法运行时所占用的空间就是这种结构.队列结构:先进先出 ...
- PHP基础 windows环境下安装Apache Mysql PHP
本篇文章主要是讲一下我自己安装wamp环境的一些步骤和见解,前方多图预警,慎入!!!!! PHP运行环境 : Linux下的三种安装方式:源码包安装.rpm包安装.集成环境安装(lnmp) wind ...
- Pythonh中的zip()与*zip()函数详解
前言 实验环境: Python 3.6: 示例代码地址:下载示例: 本文中元素是指列表.元组.字典等集合类数据类型中的下一级项目(可能是单个元素或嵌套列表). zip(*iterables)函数详解 ...
- ORACLE SQL 整理
1.查询字段中含有小写字母的数据 SELECT MATERIALCODE FROM RFXITEMATTENDCODE WHERE REGEXP_LIKE(MATERIALCODE,'([a-z])' ...