解决solr搜索多词匹配度和排序方案

【解决solr搜索多词匹配度和排序方案】的更多相关文章

解决solr搜索多词匹配度和排序方案

转载请标明出处:http://blog.csdn.net/hu948162999/article/details/47727159 本文主要介绍了在短语.句子.多词查询中.solr在控制查询命中数量.之后再对结果集进行排序. 在solr中默认是or 查询.也就是说:假设搜索q 中分出来的词越多.所匹配的数量也就越多. 如:搜索短语 "中国联想笔记本" ,分词结果:中国 .联想 . 笔记本. 覆盖结果集:仅仅要文档中包括这3个随意词,都给返回. 排序结果:依照solr的打分公式.默…

solr如何让全词匹配结果在最前面

在全文搜索中默认排序是按照匹配度权值score排序的,权值越大位置越靠前,那为什么有很多时候全词匹配反而不在最前面那,其实很简单因为全词匹配权值也就是100,但是还有很多权值大于100的排在了前面. 比如搜索“中国”,分词是中,国,中国.那么有两个值“中国人”,“中国人在中国”这两个那个权值更大那,显然是“中国人在中国”权值更大,所以“中国人在中国”排在前面,全词匹配的“中国人”反在后面. 那如何让全词匹配结果在最前面那. 一个简单的办法,再建一个不分词的字段存储相同值,匹配. A不分词:“…

solr搜索之搜索精度问题我已经尽力了！！！

solr搞了好久了,没啥进展,没啥大的突破,但是我真的尽力了! solr7可能是把默认搜索方式去掉了,如下: 在solr7里找了半天以及各种查资料也没发现这个默认搜索方式,后来想,可能是被edismax里的mm取代了吧,都是控制搜索精度的,如下: 这个mm还是挺解决问题的,但是对于我们公司来说就差那么一点,就一点.就这一点我没有解决.正常情况下这个参数能满足大部分需求.它有好多赋值的方式,具体自己参考:点击打开链接. 拿我做的举例:商品搜索. 我的主搜索是这样的:product_goods_na…

深度学习解决NLP问题：语义相似度计算

在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度.feeds场景下Doc和Doc的语义相似度.机器翻译场景下A句子和B句子的语义相似度等等.本文通过介绍DSSM.CNN-DSSM.LSTM-DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助. 1. 背景以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现在两个方面:召回和排序. 在召回时,传统的文本相似性如 BM25,无法有效发现语义类 query-Doc 结果对,如…

Solr搜索解析及查询解析器用法概述

一.简介大多数查询都使用了标准的Solr语法.这种语法是Solr最常见的,由默认查询解析器负责处理.Solr的默认查询解析器是Lucene查询解析器[LuceneQParserPlugin类实现].Lucene查询解析器全面支持Lucene语法及Solr的一些专用扩展. 二.Lucene查询解析器语法 1.字段搜索在Solr索引中搜索一个值时,一般来说是在特定字段上进行查找.字段搜索语法是:字段名称+‘:’+搜索内容,举例如下: title:solr 或 title:"apache sol…

Solr搜索结果高级设置

一.选择响应格式 XML是Solr的默认响应格式.从Solr的角度看,什么样的响应格式并不重要.Solr可以返回XML.JSON.Ruby.Python.PHP.二进制Java等,甚至是自定义格式.使用wt参数修改响应格式.Solr的wt参数的可用格式如下: 当需要更改Solr的响应格式时,需要在请求中将wt参数设置为你需要的类型.例如: 使用wt请求参数可以轻松地配置Solr的响应格式.如有需要,还可以为搜索应用编写专门的响应格式.为此,需要编写一个继承Solr的QueryResponseWr…

关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）

关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造) 摘要:在中文搜索中的标点.符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦.然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求.那么怎样改造它让它符合我们的要求呢?本文就是针对这一问题的详细解决办法,我们改mmseg的源代码. 关键字:Solr, mmseg, 中文, 分词, 标点…