Apache Lucene评分

计算文档的评分属性时,考虑如下因素:

  • 文档加权:对文档建立索引时,对文档的加权值
  • 字段加权:查询和索引时,对字段的加权
  • 协调:基于文档条数的协调因子。对包含更多查询词条的文档,它提供更大的值
  • 逆文档频率:基于词条的因子,它告诉评分公式,给定词条出现的频率有多低。逆文档频率越高,词条越罕见
  • 长度规范:基于字段的规范化因子,它基于给定字段包含的词条数目。字段越长,该因子给的加权值越小。这基本意味着更短的文档更受分数的青睐
  • 词频:基于词条的因子, 描述给定词条在文档中出现的次数,词频越高,文档的得分越高。
  • 查询规范:基于查询的规范化因子,由每个查询词条比重的平方和计算而成。查询规范用于查询之间的得分比较。

从上述讨论中得到:

  1. 匹配的词条越罕见,得分越高
  2. 文档字段越小,得分越高
  3. 字段加权越高,得分越高
  4. 文档匹配的查询词条数目越高,字段越少,分数越高

Elasticsearch的脚本功能

elasticsearch使用脚本执行的任何请求中,一些可能使用到的相似的属性:

  • script:包含实际执行的脚本
  • lang:脚本的语言信息
  • params:包含参数和值,每个定义的参数都可以在脚本中使用,由于缓存,使用参数的脚本比嵌入常数的代码执行更快

脚本执行过程中可以使用的对象

  • _doc: 它是org.elasticsearch.search.lookup.DocLookup对象的实例。通过它可以访问当前找到的文档,附带计算的得分和字段的值
  • _source:是org.elasticsearch.search.lookup.SourceLookup对象的实例,通过它可以访问当前文档的_source
  • _fields:是org.elasticsearch.search.lookup.FieldsLookup对象的实例,通过它可以访问文档的所有字段

另一方面,在文档更新过程中,Elasticsearch只通过_source属性公开了ctx对象,通过它可以访问当前文档。

当访问文档中的字段时,上述三种方式都可以,_doc可以更快的访问到分析的字段,_souce可以更快的访问字段的原始值。

使用自定义的脚本库

小脚本应该定义成文件,放在Elasticsearch的config/scripts目录中。使用方式如下:

{
"query":{
"match_all":{ }
},
"sort":{
"_script":{
"script":"sort_script",
"type":"text",
"order":"asc"
}
}
}

script属性值直接调用我们自定义脚本的名字。

如果对脚本语言执行速度不满意,可以编写elasticsearch插件,插件应该放在lib目录下,并且使用Setting API或者在yml配置文件中注册

搜索不同语言的内容

思路:

  1. 使用语言检测库检测文档使用的语言,或者由用户将语言信息存放在文档的一个字段中
  2. 定义索引映射时,根据语言字段设置分析器
{
"mappings":{
"indextype":{
"_analyzer":{
"path":"lang"
},
"properties":{
"lang":{
"type":"keywords",
"index":"not_analyzed"
}
}
}
}
}

lang字段的值是Elasticsearch知道的分析器的名字相同的值。

使用加权影响得分

加权

加权适用于下列地方:

  • query:给定查询是复杂查询的一部分,且比其他部分更重要
  • field:重要字段的加权
{
"query":{
"query_string":{
"fields":[
"from^5",
"to^10",
"subject"
],
"query":"john"
}
}
}

假定一个索引含有from,to,subject三个字段,现在搜索john,以上查询将生成3个小查询,最后组合结果,to字段权重最大,from字段次之。

function_score查询

{
"query":{
"function_score":{
"query":{ },
"filter":{ },
"functions":[
{
"filter":{ },
"FUNCTION":{ }
}
],
"boost_mode":"",
"score_mode":"",
"max_boost":"",
"boost":""
}
}
}

一般来说,function_score查询中可以使用查询、过滤、函数和附加参数。每个函数可以有一个过滤器定义要应用的过滤结果。

function_score背后的逻辑是首先匹配文档基于score_mode参数计算得分,然后,文档的查询得分由函数计算所得分数结合而成,结合基于boost_mode参数。

boost_mode定义如何将函数查询所计算分数与查询分数结合起来。取值如下

  1. multiply:默认行为,查询得分与函数得分相乘
  2. replace:查询的得分忽略,只用函数得分
  3. sum
  4. avg
  5. max
  6. min

score_mode定义函数计算得分如何结合在一起,取值如下:

  1. multiply:默认
  2. sum
  3. avg
  4. first
  5. max
  6. min

function节点中的可用函数如下:

  1. boost_factor函数:文档得分乘以一个给定值
  2. script_score函数:使用脚本计算得分,函数返回得分
  3. random_score:通过指定seed值生成一个伪随机分数,为了模拟随性,每次都应该指定一个新的seed
  4. decay函数:基于一个单值得数值型字段计算而来

索引加权

查询加权尽管很强大,但是如果在建立文档的时候就知道哪些字段重要,可以在索引时加权,这样效率也更高。

索引加权既可以通过在插入数据的时候实现,也可以在定义映射的时候加权。

同义词

同义词过滤器

过滤器的类型属性(type)设置为synonym,synonyms属性包括同义词如"crime=>criminality";如果同义词是一个文件,并且在config目录下,则可以通过synonym_path设置

同义词规则

  • 显式同义词:crime=>criminality
  • 等效同义词:war, star wars
  • 扩展同义词:a,b => c,d a或b将被扩展到c和d

Elasticsearch--更好的搜索_加权得分,脚本,同义词的更多相关文章

  1. ElasticSearch 2 (18) - 深入搜索系列之控制相关度

    ElasticSearch 2 (18) - 深入搜索系列之控制相关度 摘要 处理结构化数据(比如:时间.数字.字符串.枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/ ...

  2. ElasticSearch 2 (15) - 深入搜索系列之多字段搜索

    ElasticSearch 2 (15) - 深入搜索系列之多字段搜索 摘要 查询很少是简单的一句话匹配(one-clause match)查询.很多时候,我们需要用相同或不同的字符串查询1个或多个字 ...

  3. 转:在ElasticSearch之下(图解搜索的故事)

    ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要 先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我 ...

  4. Elasticsearch java api 基本搜索部分详解

    文档是结合几个博客整理出来的,内容大部分为转载内容.在使用过程中,对一些疑问点进行了整理与解析. Elasticsearch java api 基本搜索部分详解 ElasticSearch 常用的查询 ...

  5. ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事)

    ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要 先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我 ...

  6. ElasticSearch 2 (17) - 深入搜索系列之部分匹配

    ElasticSearch 2 (17) - 深入搜索系列之部分匹配 摘要 到目前为止,我们介绍的所有查询都是基于完整术语的,为了匹配,最小的单元为单个术语,我们只能查找反向索引中存在的术语. 但是, ...

  7. ElasticSearch 2 (16) - 深入搜索系列之近似度匹配

    ElasticSearch 2 (16) - 深入搜索系列之近似度匹配 摘要 标准的全文搜索使用TF/IDF处理文档.文档里的每个字段或一袋子词.match 查询可以告诉我们哪个袋子里面包含我们搜索的 ...

  8. ElasticSearch 2 (14) - 深入搜索系列之全文搜索

    ElasticSearch 2 (14) - 深入搜索系列之全文搜索 摘要 在看过结构化搜索之后,我们看看怎样在全文字段中查找相关度最高的文档. 全文搜索两个最重要的方面是: 相关(relevance ...

  9. ElasticSearch 2 (13) - 深入搜索系列之结构化搜索

    ElasticSearch 2 (13) - 深入搜索系列之结构化搜索 摘要 结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的.它们都有精确的格式,我们可以对这些数据进行逻 ...

随机推荐

  1. NTKO在线office控件使用实例

    目录 1. NTKO在线office控件使用实例 1.1. 基础介绍 1.2. 基本原理 1.3. 实例 1.3.1. 打开.保存部分代码 1.3.2. 动态设值 1. NTKO在线office控件使 ...

  2. Wps 2013 拼音标注两种方式分析

    Wps 2013 拼音标注两种方式分析 太阳火神的漂亮人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用协议 转 ...

  3. Servlet之中文乱码问题【入门版】

    请求数据的中文问题 1 post请求提交中文 get请求建议不提交中文(只是也有方法解决) 1.1post request.setCharacterEncoding("utf-8" ...

  4. POJ 3260 The Fewest Coins(多重背包+全然背包)

    POJ 3260 The Fewest Coins(多重背包+全然背包) http://poj.org/problem?id=3260 题意: John要去买价值为m的商品. 如今的货币系统有n种货币 ...

  5. 量化分析师的Python日记【第1天:谁来给我讲讲Python?】

    量化分析师的Python日记[第1天:谁来给我讲讲Python?]薛昆Kelvin优矿 001 号员工2015-01-28 15:48 58 144克隆 ###“谁来给我讲讲Python?” 作为无基 ...

  6. IE7下兼容问题总结

    1.<LI> border-bottom 不显示 解决办法 加个height:100%; 2.border:none;不好使,要用 border:0;

  7. [Android6.0][RK3399] 双屏异显代码实现流程分析(二)【转】

    本文转载自:http://blog.csdn.net/dearsq/article/details/55050125 Patch Code dtsi rk3399-androiddtsi rk3399 ...

  8. 龙尚3G、4G模块嵌入式Linux系统使用说明【转】

    本文转载自;http://blog.csdn.net/zqixiao_09/article/details/52506812 驱动部分: 1.kernle/drivers/usb/serial/opt ...

  9. Oracle利用游标返回结果集的的例子(C#)...(最爱)

    引用地址:http://www.alixixi.com/program/a/2008050727634.shtml   本例在VS2005+Oracle 92010 + WindowsXp Sp2测试 ...

  10. 关于redis、memcache、mongoDB的对比

    从以下几个维度,对 Redis.memcache.MongoDB 做了对比.1.性能都比较高,性能对我们来说应该都不是瓶颈.总体来讲,TPS 方面 redis 和 memcache 差不多,要大于 m ...