WEBUS2.0 In Action - 搜索操作指南 - (3)
上一篇:WEBUS2.0 In Action - 搜索操作指南(2) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(4)
3. 评分机制 (Webus.Search.IHitScorer)
IndexSearcher在完成搜索之后会利用Webus.Search.IHitScorer来对结果进行评分.
namespace Webus.Search
{
public interface IHitsScorer
{
void Score(Hits hits, Query query);
}
}
在进行评分时, 我们主要参考结果集hits, 同时也要参考用于搜索的query对象, 从而可以根据用户的原始查询需求来设定每个结果的权重.
IHitScorer.Score方法由IndexSearcher自动调用, 分数信息将保存在HitDoc.Score字段中:
public class HitDoc
{
//...
public float Score { get; set; }
//...
}
WEBUS2.0 SDK包含一个默认评分器: Webus.Search.DefaultScorer, 它对一个结果进行两次评分, 第一次根据基本属性评分, 规则如下:
分数1 = Log10(文档关键词匹配个数 + ) * query权重 (query.Boost) * 文档权重 (doc.Boost)
然后它会进行第二次评分, 这次主要考量关键词的前后相关性:
分数2 =
foreach(var hit in hits)
{
foreach(var pos in hit.Positions)
{
如果前后挨着的两个匹配 (pos) 满足如下条件, 则加分:
a. 分别来自于两个不同的子查询
b. 在文档位置上彼此前后相连
}
}
最后的分数 = 分数1 + 分数2.
这套规则综合考量了索引和搜索过程中所有的重要变量:
. 文档权重 - Document.Boost
. 查询权重 - Query.Boost
. 匹配数目的多寡 - Log10(hit.Positions.Count)
. 匹配的相关性
因此能够较好的反应结果相关性, 是比较理想的评分器. 当然, 在实际运用中, 我们随时可以创造自己的个性化评分器, 只要实现IHitScorer接口即可.
4. 排序 (Webus.Search.IHitSorter)
排序发生在评分之后. IndexSearcher利用IHitSorter来完成排序操作:
namespace Webus.Search
{
public interface IHitsSorter : IComparer<HitDoc>
{
void Sort(Hits hits);
}
}
排序只需传入结果集hits即可. WEBUS2.0 SDK中内置了多种排序器:
DocIdSorter - 根据DocId的大小进行升序或降序排序. 通常我们也用这个排序器来实现对时间排序. 因为一般情况下, DocId大的文档时间靠后, DocId小的文档时间靠前.
public DocIdSorter(bool ascending) { ... }
FieldSorter - 根据指定Field的值进行升序或降序排序. 注意这个排序器会遍历结果集中指定Field的值, 因此当数据量非常大时会存在一定的性能瓶颈.
public FieldSorter(string fieldname, bool ascending, ISearcher searcher) {...}
ScoreSorter - 顾名思义, 根据评分来排序, 同样也支持升序和降序两种方式
public ScoreSorter(bool ascending) {...}
5. 过滤器 (Webus.Search.IHitFiler)
过滤发生在排序之后, 由过滤器 IHitFilter 来完成.
namespace Webus.Search
{
public interface IHitsFilter
{
void Filter(Hits hits);
}
}
过滤器的职责非常明确, 就是裁剪结果集大小. 这个处理步骤虽然最后发生, 其实非常实用. 比如结果分页, 比如去重都靠它来实现. 在WEBUS2.0 SDK中, 包含了如下过滤器:
PageFilter - 分页过滤器
//index - 起始记录位置
//count - 要显示的记录条数
public PageFilter(int index, int count) {...}
UniqueFilter - 去重过滤器
//fieldName - 将根据指定的字段的值来去重
public UniqueFilter(string fieldName) {...}
FieldFilter - 字段过滤器
public FieldFilter(string fieldname, object minValue, object maxValue) {...}
指定字段的最大值, 最小值进行过滤. 注意, 此过滤器同样也需要遍历结果集中指定字段的值, 因此在结果数目巨大的情况下会存在性能问题.
小结
WEBUS的搜索过程遵循着这样一条线进行:
分析查询对象Query, 生成子查询 -> 读取索引, 执行子查询 -> 合并结果集 -> 评分 -> 排序 -> 过滤 -> 返回结果
SDK的灵活之处就在于每个环节都提供了接口, 能够进行二次开发. 当然, 一般情况下我们只需要对评分及其之后的步骤进行二次开发即可满足大部分应用需求, 估计绝少有人会劳神费力的去开发前面的步骤 :). 虽然我们的实现可能不是最优化, 但是一定具备很强的普适性, 这也是WEBUS2.0的价值所在. 我衷心的希望有人能够利用WEBUS2.0 SDK来解决问题, 这也是对我们努力的宝贵肯定!
相关信息及WEBUS2.0 SDK下载:继续我的代码,分享我的快乐 - WEBUS2.0
访问我们的站点: www.gdtsearch.com
WEBUS2.0 In Action - 搜索操作指南 - (3)的更多相关文章
- WEBUS2.0 In Action - 搜索操作指南 - (1)
上一篇:WEBUS2.0 In Action - 索引操作指南(2) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(2) 1. IQueriable中内置的搜索功能 在Webus ...
- WEBUS2.0 In Action - 搜索操作指南 - (2)
上一篇:WEBUS2.0 In Action - 搜索操作指南(1) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(3) 2. 使用Query Query是所有查询的基类, 它一 ...
- WEBUS2.0 In Action - 搜索操作指南 - (4)
上一篇:WEBUS2.0 In Action - 搜索操作指南(3) 6. 搜索多个索引 为了提升性能, 我们可以从多个索引同时进行搜索, Webus.Search.MultiSearcher提供了相 ...
- WEBUS2.0 In Action - 索引操作指南(2)
上一篇:WEBUS2.0 In Action - 索引操作指南(1) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(1) 3. 添加.删除.撤销删除和修改文档 在WEBUS中要将 ...
- WEBUS2.0 In Action - [源代码] - C#代码搜索器
最近由于工作的需要, 要分析大量C#代码, 在数万个cs文件中搜索特定关键词. 这是一项非常耗时的工作, 用Notepad++要运行接近半个小时. 于是我利用WEBUS2.0 SDK创建了一个代码搜索 ...
- 第二篇——Struts2的Action搜索顺序
Struts2的Action的搜索顺序: 地址:http://localhost:8080/path1/path2/student.action 1.判断package是否存在,例如:/pat ...
- Struts2学习三----------Action搜索顺序
© 版权声明:本文为博主原创文章,转载请注明出处 Struts2的Action的搜索顺序 http://localhost:8080/path1/path2/student.action 1)判断pa ...
- Struts2.0 去掉action后缀名
刚刚接触Struts2.0,发现默认请求都会带着后缀名:action 就如下图,url地址中会暴露login.action(请原谅struts拼写错误..) 作为一个URL简洁爱(chu)好(nv)者 ...
- 帝国cms7.0修改默认搜索模版中的分页[!--show.page--]
修改默认搜索模版的分页是在e/class/connect.php下 搜索下function page1就是我们要修改的分页了 下面贴上我修改后的分页 //前台分页 function page1($nu ...
随机推荐
- ==和equals的区别
== :是判断两个变量或实例是不是指向同一个内存空间equals :是判断两个变量或实例所指向的内存空间的值是不是相同 结论:欲比较栈中数据是否相等,请用= =:欲比较堆中数据是否相等,请用equal ...
- [你必须知道的.NET]第三十三回,深入.NET 4.0之,Lazy<T>点滴
发布日期:2009.10.29 作者:Anytao © 2009 Anytao.com ,Anytao原创作品,转贴请注明作者和出处. 对象的创建方式,始终代表了软件工业的生产力方向,代表了先进软件技 ...
- hdu 4061 A Card Game
思路: 分析:假设取的牌顺序是一个序列,那么这种序列在末尾为1时是和取牌序列一一对应的,且是符合“游戏结束时牌恰好被取完”的一种情况. 简证:1.在序列中,任一数 i 的后一个数 j 是必然要放在第 ...
- C++ 读取REG_SZ 、REG_DWORD 、REG_MULTI_SZ 类型注册表值
读取REG_SZ 类型的注册表键值 // 读取 REG_SZ 类型键值的代码 HKEY hKey = NULL; DWORD dwSize = ; DWORD dwDataType = ; LPBYT ...
- ip地址+进程端口号+路径参数同样实现restful访问
1.ip地址+进程端口号+路径参数同样实现restful访问 2. 我:还有个问题,龙哥,ip地址+端口+路径参数,也能实现restful访问吧,:可以 我:好我:所以,我只要访问,服务器ip地址+n ...
- MCU晶体旁边电容的作用及振荡电路的分析
绝大多数的MCU爱好者对MCU晶体两边要接一个22pF附近的电容不理解,因为这个电容有些时候是可以不要的.参考很多书籍,讲解的很少,往往提到最多的是起稳定作用,负载电容之类的话,都不是很深入理论的分析 ...
- module.xml 快捷代码
以下内容为淘宝装修模块描述文件(module.xml)快捷代码块,可以快速调整模块信息,详解请查阅>> http://open.taobao.com/doc/detail.htm?id=1 ...
- iOS:核心动画具体的类和协议的介绍
核心动画类:CAAnimation.CAPropertyAnimation.CABasicAnimation.CAKeyframeAnimation.CATransition.CAAnimationG ...
- Linux命令行通配符
如果我们想对一类文件批量操作,例如批量查看硬盘文件属性,那么正常命令是如下所示: [root@localhost Desktop]# ls /dev/sda1 [root@localhost Desk ...
- Linux命令-free
显示系统内存使用情况 free [-m / -g / -h] [root@localhost test]# free -m total used free shared buff/cache ava ...