转载请标明出处:http://blog.csdn.net/hu948162999/article/details/47727159 本文主要介绍了在短语.句子.多词查询中.solr在控制查询命中数量.之后再对结果集进行排序. 在solr中 默认是or 查询.也就是说:假设搜索q 中 分出来的词越多.所匹配的数量也就越多. 如:搜索短语  "中国联想笔记本" ,分词结果:中国 .联想 . 笔记本. 覆盖结果集:仅仅要文档中包括这3个随意词,都给返回. 排序结果:依照solr的打分公式.默…
在全文搜索中默认排序是按照匹配度权值score排序的,权值越大位置越靠前,那为什么有很多时候全词匹配反而不在最前面那,其实很简单因为全词匹配权值也就是100,但是还有很多权值大于100的排在了前面. 比如 搜索“中国”,分词是 中,国,中国.那么有两个值“中国人”,“中国人在中国”这两个那个权值更大那,显然是“中国人在中国”权值更大,所以“中国人在中国”排在前面,全词匹配的“中国人”反在后面. 那如何让全词匹配结果在最前面那. 一个简单的办法,再建一个不分词的字段存储相同值,匹配. A不分词:“…
solr搞了好久了,没啥进展,没啥大的突破,但是我真的尽力了! solr7可能是把默认搜索方式去掉了,如下: 在solr7里找了半天以及各种查资料也没发现这个默认搜索方式,后来想,可能是被edismax里的mm取代了吧,都是控制搜索精度的,如下: 这个mm还是挺解决问题的,但是对于我们公司来说就差那么一点,就一点.就这一点我没有解决.正常情况下这个参数能满足大部分需求.它有好多赋值的方式,具体自己参考:点击打开链接. 拿我做的举例:商品搜索. 我的主搜索是这样的:product_goods_na…
在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度.feeds场景下Doc和Doc的语义相似度.机器翻译场景下A句子和B句子的语义相似度等等.本文通过介绍DSSM.CNN-DSSM.LSTM-DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助. 1. 背景 以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现在两个方面:召回和排序. 在召回时,传统的文本相似性如 BM25,无法有效发现语义类 query-Doc 结果对,如…
一.简介 大多数查询都使用 了标准的Solr语法.这种语法是Solr最常见的,由默认查询解析器负责处理.Solr的默认查询解析器是Lucene查询解析器[LuceneQParserPlugin类实现].Lucene查询解析器全面支持Lucene语法及Solr的一些专用扩展. 二.Lucene查询解析器语法 1.字段搜索 在Solr索引中搜索一个值时,一般来说是在特定字段上进行查找.字段搜索语法是:字段名称+‘:’+搜索内容,举例如下: title:solr 或 title:"apache sol…
一.选择响应格式 XML是Solr的默认响应格式.从Solr的角度看,什么样的响应格式并不重要.Solr可以返回XML.JSON.Ruby.Python.PHP.二进制Java等,甚至是自定义格式.使用wt参数修改响应格式.Solr的wt参数的可用格式如下: 当需要更改Solr的响应格式时,需要在请求中将wt参数设置为你需要的类型.例如: 使用wt请求参数可以轻松地配置Solr的响应格式.如有需要,还可以为搜索应用编写专门的响应格式.为此,需要编写一个继承Solr的QueryResponseWr…
关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造) 摘要:在中文搜索中的标点.符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦.然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求.那么怎样改造它让它符合我们的要求呢?本文就是针对这一问题的详细解决办法,我们改mmseg的源代码. 关键字:Solr, mmseg, 中文, 分词, 标点…
什么是Solr搜索 一.Solr综述   什么是Solr搜索 我们经常会用到搜索功能,所以也比较熟悉,这里就简单的介绍一下搜索的原理. 当然只是介绍solr的原理,并不是搜索引擎的原理,那会更复杂. 流程图 这是一个非常简单的流程图: User:即需要搜索的用户. Raw Data:需要搜索的内容,当然是源数据,可能是文本文件,可能是数据库的数据,可能是XML等等. Index:有格式的数据. 其实从图中可以看出来: Solr搜索非常类似于读写数据库的过程. Solr搜索最主要的两个问题(细节已…
Solr搜索技术 今日大纲 回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档.字段.目录对象(类).索引写入器类.索引写入器配置类.IK分词器 查询解析器.查询对象(用户要查询的内容).索引搜索器(索引库的物理位置).排名文档集合(包含得分文档数组) 六种高级查询(相似度查询) 分词器(扩展词典.停用词典) 分页 得分(激励因子(作弊)) 高亮 排序 ●    Solr简介.运行 ●    Solr基本使用 ●    Solr Core 配置…
一.solr搜索流程介绍 1. 前面我们已经学习过Lucene搜索的流程,让我们再来回顾一下 流程说明: 首先获取用户输入的查询串,使用查询解析器QueryParser解析查询串生成查询对象Query,使用所有搜索器IndexSearcher执行查询对象Query得到TopDocs,遍历TopDocs得到文档Document 2. Solr搜索的工作流程: 流程说明: 用户输入查询字符串,根据用户的请求类型qt(查询为/select)选择请求处理器RequestHandler,根据用户输入的参数…