一.排名检索 搜索引擎代表了基于查询,返回优先文档的一种方法.在关系型数据库的SQL查询中,表的一行要么匹配一个查询,要么不匹配,查询结果基于一列或多列排序.搜索引擎根据文档与查询匹配的程度为文档打分,并按降序返回结果.匹配程度的计算取决于多个因素,一般而言,文档得分越高意味着该文档与查询的相关性越强. 在Solr中会存在单独的字段保存相关性,那就是score字段.在score字段的得分数值并非具有绝对意义,它在lucene内部仅作为相对排名,而且同一文档在不同的查询中的得分并无关系.也就是说,…
1. solr基础 因为 Solr 包装并扩展了 Lucene,所以它们使用很多相同的术语.更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容.通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引. 在 Solr 和 Lucene 中,使用一个或多个 Document 来构建索引.Document 包括一个或多个 Field.Field 包括名称.内容以及告诉 Solr 如何处理内容的元数据.例如,Fi…
solr是基于 lucence开发的应用,如果query中带有非法字符串,结果很可能是检索出所有内容或者直接报错,所以你对用户的输入必须要先做处理.输入星号,能够检索出所有内容:输入加号,则会报错. 官方的处理办法(java,因为solr是java开发的): https://svn.apache.org/repos/asf/lucene/dev/trunk/solr/solrj/src/java/org/apache/solr/client/solrj/util/ClientUtils.java…
前言 Solr/Lucene是一个全文检索引擎,全文引擎和SQL引擎所不同的是强调部分相关度高的内容返回,而不是所有内容返回,所以部分内容包含在索引库中却无法命中是正常现象.      多数情况下我们建议优化分词器或者引擎其它部分达到预期检索效果. 分词器调节 按照如下步骤进入分词器调试界面 1.选择collection 2.选择analysis菜单 3.在索引框中输入要索引的文档 4.在检索框中输入要检索的词语 5.选择需要调试的字段,这里假设要将内容索引到title字段,并且在该字段上检索…
原文地址:http://blog.csdn.net/wgw335363240/article/details/39889979 solr是基于 lucence开发的应用,如果query中带有非法字符串,结果很可能是检索出所有内容或者直接报错,所以你对用户的输入必须要先做处理.输入星号,能够检索出所有内容:输入加号,则会报错. 官方的处理办法(java,因为solr是java开发的): https://svn.apache.org/repos/asf/lucene/dev/trunk/solr/s…
一.简介 寻找匹配的文档是构建优质搜索体验的关键步骤,但这仅仅是第一步.大多数用户不愿意通过逐页翻阅搜索结果来找到想要的文档.根据一般经验,仅有10%的用户在网页搜索中有意愿继续翻阅第一页以后的搜索结果,仅有1%的用户会翻看到第三页结果.Solr实现了搜索结果排序,最佳的结果位于列表顶端.它会计算每个文档的相关度得分,并从高到低对搜索解决进行排序. 二.默认相似度 solr的相似度得分基于Similarity类.这个类被定义为一个预置字段.Similarity是一个Java类,它根据给定的查询定…
一.简介 现有的许多不同类型 的技术系统,如关系型数据库.键值存储.操作磁盘文件的map-reduce[映射-规约]引擎.图数据库等,都是为了帮助用户解决颇具挑战性的数据存储与检索问题而设计的.而搜索引擎,尤其是Solr,致力于解决一类特定的问题:搜索大量非结构化的文本数据,并返回最相关的搜索结果. 二.文档 Solr是一个文档存储与检索引擎.提交给solr处理的每一份数据都是一个文档.文档可以是一篇新闻报道.一份简历.社交用户信息,甚至是一本书. 每个文档包含一个或多个字段,每个字段被赋予具体…
一.理解查准率(precision)& 查全率(recall) 我们在平时常用到的模型评估指标是精度(accuracy)和错误率(error rate),错误率是:分类错误的样本数站样本总数的比例,即E=n/m(如果在m个样本中有n个样本分类错误),那么1-a/m就是精度.除此之外,还会有查准率和查全率,下面举例解释. 按照周志华<机器学习>中的例子,以西瓜问题为例. 错误率:有多少比例的西瓜被判断错误: 查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜: 查全率(r…
文章目录 1.错误率与精度 2.查准率.查全率与F1 2.1 查准率.查全率 2.2 P-R曲线(P.R到F1的思维过渡) 2.3 F1度量 2.4 扩展 性能度量是用来衡量模型泛化能力的评价标准,错误率.精度.查准率.查全率.F1.ROC与AUC这7个指标都是分类问题中用来衡量模型泛化能力的评价标准,也就是性能度量.本文主要介绍前五种度量,ROC与AUC讲解见超强整理,超详细解析,一文彻底搞懂ROC.AOC. 性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评…
http://wiki.apache.org/solr/ Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试.两个核心配置文件介绍.中文分词器配置.维护索引.查询索引,高亮显示.拼写检查.搜索建议.分组统计.自动聚类.相似匹配.拼音检索等功能的使用方法. 在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制. 版本 作者/修改人 日期 V1.0 gzk 2013-06-04 1. So…