Solr相似性算法

介绍

Solr 4及之前的版本默认采用VSM(向量空间模型)进行相似度的计算（或打分）。之后的版本，则采用Okapi BM25（一种二元独立模型的扩展），属于概率模型。

检索模型通常分为：

二元模型
向量空间模型（VSM）
- tfidf
- 基于关键词的检索
概率模型
- Okapi BM25
机器学习模型

similarity标签

    <similarity>用于声明相似度计算模型，可以由用户定制。

    示例如下：

      <similarity class="solr.DFRSimilarityFactory">

	      <str name="basicModel">P</str>

	      <str name="afterEffect">L</str>

	      <str name="normalization">H2</str>

	      <float name="c">7</float>

      </similarity>

该标签能够支持特定field type的相似度计算。

VSM

VSM的score公式如下：

score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )

tf(t in d ), = frequency½
idf(t) = 1 +log(文档总数/(包含t的文档数+1))
coord(q,d) 评分因子,。越多的查询项在一个文档中，说明些文档的匹配程序越高，比如说，查询"A B C",那么同时包含A/B/C3个词的文档是3分，只包含A/B的文档是2分，coord可以在query中关掉的queryNorm(q)查询的标准查询，使不同查询之间可以比较
t.getBoost() 和 norm(t,d) 都是提供的可编程接口，可以调整 field/文档/query项的权重

Okapi BM25

https://events.static.linuxfound.org/sites/events/files/slides/bm25.pdf

    Score(q,	d)	=

						∑		idf(t)	·	(	tf(t	in	d)	·	(k	+	1)	)	/	(	tf(t	in	d)	+	k	·	(1	–	b	+	b	·	|d|	/	avgdl	)

											t	in	q

Where:

									t	=	term;	d	=	document;	q	=	query;	i	=	index

									tf(t	in	d)		=		numTermOccurrencesInDocument	½

									idf(t)	=		1	+	log	(numDocs	/	(docFreq	+	1))

									|d|	=		∑	1

																													t	in	d

									avgdl =	(	∑	|d|		)	/	(	∑	1	)	)

																																								d	in	i															d	in	i

									k	=	Free	parameter.	Usually	~1.2	to	2.0.	Increases	term	frequency	saturation	point.

									b	=	Free	parameter.	Usually	~0.75.	Increases	impact	of	document	normalization.

Learning to Rank (LTR)

solr也是支持LTR的。

这一块要求有Machine Learning的基础。没有的话，就边看文档，边查吧。像我这样的，只能先跳过了（-_-）。

具体可以看文档：

https://lucene.apache.org/solr/guide/6_6/learning-to-rank.html

https://www.microsoft.com/en-us/research/project/mslr/

https://events.static.linuxfound.org/sites/events/files/slides/bm25.pdf

http://opensourceconnections.com/blog/2014/12/08/title-search-when-relevancy-is-only-skin-deep/

https://lucene.apache.org/solr/guide/6_6/relevance.html

Solr相似性算法的更多相关文章

Elasticsearch mapping文档相似性算法
Elasticsearch allows you to configure a scoring algorithm or similarity per field. The similarityset ...
基于python语言使用余弦相似性算法进行文本相似度分析
编写此脚本的目的: 本人从事软件测试工作,近两年发现项目成员总会提出一些内容相似的问题,导致开发抱怨.一开始想搜索一下是否有此类工具能支持查重的工作,但并没找到,因此写了这个工具.通过从纸上谈兵到着手 ...
ELK常用API使用方法
以下ELK系列文章参考自http://www.tianyiqingci.com/ 总目录: Monitor API ElasticSearch聚合分析API Elasticsearch信息检索API ...
026 Elastic----全文检索技术01---概述及windows安装
用户访问我们的首页,一般都会直接搜索来寻找自己想要购买的商品.而商品的数量非常多,而且分类繁杂.如何能正确的显示出用户想要的商品,并进行合理的过滤,尽快促成交易,是搜索系统要研究的核心.面对这样复杂的 ...
ElasticSearch研究
前言 ES相关技术文档,很久之前看的,一门技术时间长不去研究就会容易忘了,应有些小伙伴的要求希望我做一期ES技术专栏,我就把以前看过的相关文档整理整理,给大家分享下. 1 ElasticSearc ...
搜索系统核心技术概述【1.5w字长文】
前排提示:本文为综述性文章,梳理搜索相关技术,如寻求前沿应用可简读或略过搜索引擎介绍搜索引擎(Search Engine),狭义来讲是基于软件技术开发的互联网数据查询系统,用户通过搜索引擎查询所需 ...
OpneCv2.x 模块结构
转自:http://blog.csdn.net/huang9012/article/details/21811271 之前啃了不少OpenCV的官方文档,发现如果了解了一些OpenCV整体的模块架构后 ...
学习 opencv---(1) opencv3.1.0 组件结构浅析
本系列是根据浅墨大神的opencv系列而写的,,应该大部分内容会一样..如有侵权还请告知........... 开发环境:win7 + VS2013 + opencv3.1.0 至于OpenCV组 ...
OpenCV整体的模块架构
之前啃了不少OpenCV的官方文档,发现如果了解了一些OpenCV整体的模块架构后,再重点学习自己感兴趣的部分的话,就会有一览众山小的感觉,于是,就决定写出这篇文章,作为启程OpenCV系列博文的第二 ...

随机推荐

你必须知道的261个Java语言问题
1. Java语言的运行机制: Java既不是编译型语言也不是解释型语言,它是编译型和解释型语言的结合体.首先采用通用的java编译器将Java源程序编译成为与平台无关的字节码文件(class文件), ...
【转载】解决nginx负载均衡的session共享问题
https://blog.csdn.net/u012081441/article/details/71787164 之前有写过ubuntu环境下搭建nginx环境,今天来谈一下nginx sessio ...
微软云消息队列 Azure service bus queue
前言第一次使用消息队列,遇到了一些问题:同一个消息有多次出列.是一个消息只入列一次,还是多次?还是因为出列问题,出列了多次? Microsoft Azure service bus queue Az ...
（linux虚拟机）克隆得到的虚拟机修改网卡信息和IP地址，以及DNS
克隆得到的虚拟机,与原先的系统是一模一样的包括MAC地址和IP地址.需要修改成信息. 克隆完事之后,首先在点击生成一个新的MAC地址.然后启动,登陆. vim /etc/udev/rules.d/7 ...
SpringMVC配置多个数据源
多数据源,说白了,就是多数据库. 想要实现多数据库查询,只需简单四步即可实现! 第一步: 配置 jdbc.properties: # MySQL #========================== ...
HBuilder真机联调、手机运行
第一步:先确认手机是否连接上未连接状态如下图所示为已连接状态导致手机未成功连接的原因: (1)手机与电脑未用USB数据线连接(嘿嘿,这一部大家估计都做到了,可略过) (2)电脑上需要安装电脑版的 ...
团队项目第二阶段个人进展——Day5
一.昨天工作总结冲刺第五天,找到了一个专门的提供后端数据服务的网站:leancloud,并学习了相关操作二.遇到的问题对leancloud的数据如何请求和响应不懂三.今日工作规划深入学习le ...
XSS（跨域脚本攻击）应对之道
1.概念 xss一般分为两类,反射型和存储型. 反射型xss指的是客户端的不安全输入而引起的攻击,例如: 在某网站搜索,搜索结果会显示搜索的关键词,搜索时关键词填入<script>aler ...
PAT1136:A Delayed Palindrome
1136. A Delayed Palindrome (20) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue ...
PAT1013: Battle Over Cities
1013. Battle Over Cities (25) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue It ...

Solr相似性算法

Solr相似性算法

介绍

similarity标签

VSM

Okapi BM25

Learning to Rank (LTR)

Solr相似性算法的更多相关文章

随机推荐

热门专题