拼写检查也是搜索引擎必备的功能。Solr中提供了SpellCheckComponent 来实现此功能。我看过《Solr In Action》,是基于Solr4.X版本的,那时Suggestion 和 SpellCheck 用的是同一个组件。我个人感觉这两个其实也可以归为同一类概念。当你在搜索框中输入拼写错误的单词时,找不到符合此错误单词的suggest 项,应该加入较正后的单词。试了一下度娘和谷哥,输入拼写错误的单词时,它会在suggestion里直接提供正确拼写的单词。Solr 6.X里增加了Suggest 的组件(不确定Solr5.X里有没有这个组件),个人感觉Suggest 偏向于搜索的内容是正确的情况下给出的建议,SpellCheck是搜索的内容是不正确的情况下给出的建议。

SpellCheck的一些参数:

参数 说明
spellcheck 为true时,表示开启拼写检查
spellcheck.q 通常是搜索框输入的内容
spellcheck.build 为true时,将会创建用于spellcheck所需要的字典。通常不要在每次请求都指定此值为true
spellcheck.collate 为true时,将会根据最佳的建议重新构建一个查询语句。注意:仅返回重新构建的查询语句,并没有真正用它去查询
spellcheck.maxCollations 默认值是1. 指定返回最大较正后的查询语句数
spellcheck.maxCollationTries 默认值是0. 较低的值具有较好的性能,但是有可能没有较正结果。较高的值不容易出现找不到较正结果的情况
spellcheck.maxCollationEvaluations 默认值是10000。指定最大的较正组合。当用户输入的错误单词较多时,可能有很多种较正后的组合。
spellcheck.collateExtendedResults 默认值是false。为true时,返回扩展的详细的较正结果
spellcheck.collateMaxCollectDocs 测试可能的较正结果时,选取的最大document数量。默认值是0. 表示所有的document都需要检查。
spellcheck.collateParam.* 指定 param=value 对,(不是很明白有什么用)
spellcheck.count 返回的正确的拼写结果的条数
spellcheck.dictionary 指定拼写检查的字典
spellcheck.extendedResults 在拼定检查结果中附加一些额外的信息
spellcheck.onlyMorePopular 为true时,将会返回命中结果比当前查询语句命中结果更多的语句。
spellcheck.maxResultsForSuggest

e.g. 如果设置为5,当用户的输入的查询只返回5条或更少的记录,spellchecker将会报告"correctlySpelled=false",并提供建议项。设置一个大于0的值,

有助于提供 "你要搜的是不是:XXX" 这样的功能。

spellcheck.alternativeTermCount 为每个分词返回的存在于索引或字典中的建议的分词的数目
spellcheck.reload 重新加载spellchecker
spellcheck.accuracy 精确度。用于判断某个结果是否算作一个较正项
spellcheck.<DICT_NAME>.key e.g. spellcheck.myDict.myKey=myValue 貌似是用这里的key,value去替代字典中的值。

举个例子:

<searchComponent name="spellcheck" class="solr.SpellCheckComponent">

    <str name="queryAnalyzerFieldType">text_general</str>
<lst name="spellchecker">
<str name="name">default</str>
<str name="field">text</str>
<str name="classname">solr.DirectSolrSpellChecker</str>
<!-- the spellcheck distance measure used, the default is the internal levenshtein -->
<str name="distanceMeasure">internal</str>
<!-- minimum accuracy needed to be considered a valid spellcheck suggestion -->
<float name="accuracy">0.5</float>
<!-- the maximum #edits we consider when enumerating terms: can be 1 or 2 -->
<int name="maxEdits">2</int>
<!-- the minimum shared prefix when enumerating terms -->
<int name="minPrefix">1</int>
<!-- maximum number of inspections per result. -->
<int name="maxInspections">5</int>
<!-- minimum length of a query term to be considered for correction -->
<int name="minQueryLength">4</int>
<!-- maximum threshold of documents a query term can appear to be considered for correction -->
<float name="maxQueryFrequency">0.01</float>
<!-- uncomment this to require suggestions to occur in 1% of the documents
<float name="thresholdTokenFrequency">.01</float>
-->
</lst> <!-- a spellchecker that can break or combine words. See "/spell" handler below for usage -->
<lst name="spellchecker">
<str name="name">wordbreak</str>
<str name="classname">solr.WordBreakSolrSpellChecker</str>
<str name="field">name</str>
<str name="combineWords">true</str>
<str name="breakWords">true</str>
<int name="maxChanges">10</int>
</lst> </searchComponent> <!-- spellcheck component 的使用示例. NOTE: 这纯粹是一个例子. 此处把 SpellCheckComponent 嵌入到 request handler 中是为了
不需要多加一次spellcheck的请求 See http://wiki.apache.org/solr/SpellCheckComponent for details
on the request parameters.
-->
<requestHandler name="/spell" class="solr.SearchHandler" startup="lazy">
<lst name="defaults">
<!-- Solr will use suggestions from both the 'default' spellchecker
and from the 'wordbreak' spellchecker and combine them.
collations (re-written queries) can include a combination of
corrections from both spellcheckers -->
<str name="spellcheck.dictionary">default</str>
<str name="spellcheck.dictionary">wordbreak</str>
<str name="spellcheck">on</str>
<str name="spellcheck.extendedResults">true</str>
<str name="spellcheck.count">10</str>
<str name="spellcheck.alternativeTermCount">5</str>
<str name="spellcheck.maxResultsForSuggest">5</str>
<str name="spellcheck.collate">true</str>
<str name="spellcheck.collateExtendedResults">true</str>
<str name="spellcheck.maxCollationTries">10</str>
<str name="spellcheck.maxCollations">5</str>
</lst>
<arr name="last-components">
<str>spellcheck</str>
</arr>
</requestHandler>

注意:指定多个spellchecker 时,每个spellchecker中的 field 的 fieldType必须和 <queryAnalyzerFieldType>中指定的一致。

以下是几种可选的classname:

1. IndexBasedSpellChecker

将创建索引(以Solr索引为基础),用于拼写检查

2. DirectSolrSpellChecker

使用Solr索引中的分词来进行拼写检查,不会像IndexBasedSpellChecker那样创建另外的索引

3. FileBasedSpellChecker

使用外部的文件做为拼写检查的字典。

4. WordBreakSolrSpellChecker

使用分词组合或拆散分词作为拼写检查。

Solr 6.7学习笔记(06)-- spell check的更多相关文章

  1. 机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记

    机器学习实战(Machine Learning in Action)学习笔记————06.k-均值聚类算法(kMeans)学习笔记 关键字:k-均值.kMeans.聚类.非监督学习作者:米仓山下时间: ...

  2. iOS学习笔记06—Category和Extension

    iOS学习笔记06—Category和Extension 一.概述 类别是一种为现有的类添加新方法的方式. 利用Objective-C的动态运行时分配机制,Category提供了一种比继承(inher ...

  3. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml) -- 样例(6)

    managed-schema 样例: <?xml version="1.0" encoding="UTF-8" ?> <!-- License ...

  4. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)(3)

         5. <fieldType> fieldType主要定义了一些字段类型,其name属性值用于前面<field>中的type属性的值.e.g. <fieldTyp ...

  5. Solr 6.7学习笔记(04)-- Suggest

    当我们使用baidu或者Google时,你输入很少的字符,就会自动跳出来一些建议选项,在Solr里,我们称之为Suggest,在solrconfig.xml里做一些简单的配置,即可实现这一功能.配置如 ...

  6. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml) - filter(5)

    自定义fieldType时,通常还会用到filter.filter必须跟在tokenizer或其它filter之后.如: <fieldType> <analyzer> < ...

  7. Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)(1)

    刚学Solr(版本6.7.0),新建一个core时,提示要求schema.xml文件,我找了半天也没在源码包中找到名为schema.xml的文件.这个版本其实用的是managed-schema文件,没 ...

  8. Solr 6.7学习笔记(03)-- 样例配置文件 solrconfig.xml

    位于:${solr.home}\example\techproducts\solr\techproducts\conf\solrconfig.xml <?xml version="1. ...

  9. [Golang学习笔记] 06 程序实体3 类型断言和类型转换

    类型断言: 语法:<目标类型的值>,<布尔参数> := <表达式>.( 目标类型 ) // 安全类型断言<目标类型的值> := <表达式>. ...

  10. stm32寄存器版学习笔记06 输入捕获(ETR脉冲计数)

    STM32外部脉冲ETR引脚:TIM1-->PA12;TIMER2-->PA0:TIMER3-->PD2;TIMER4-->PE0… 1.TIM2 PA0计数 配置步骤 ①开启 ...

随机推荐

  1. 如何修改硬盘挂载的名字LABEL

    ➜ ~ df -h Filesystem Size Used Avail Use% Mounted on/dev/sda2 114G 97G 12G 90% /media/brian/4ef34b75 ...

  2. HTML——input

    一个简单的HTML表单,包含两个文本输出框和一个提交按钮: <form action="form_action.asp" method="get"> ...

  3. POJ - 1426 Find The Multiple 【DFS】

    题目链接 http://poj.org/problem?id=1426 题意 给出一个数 要求找出 只有 0 和 1 组成的 十进制数字 能够整除 n n 不超过 200 十进制数字位数 不超过100 ...

  4. Linux 设备和模块的分类

    概念:在Linux系统中,所有设备都被映射成 [设备文件] 来处理,设备文件,应用程序可以像操作普通文件一样对硬件设备进行操作. 一.设备类型 整理自:(相当不错,建议有时间看下原文) <第一章 ...

  5. 《C prime plus (第五版)》 ---第11章 字符串和字符串函数

    11-1:字符串表示和字符串I/O 1.首先先通过一个整体的例子来初步了解建立,读入和输出字符串的几种方式. #include<stdio.h> #define MSG "你一定 ...

  6. shell之起步

    初学者,先不要考虑好不好看,效率高不高!先要实现需求!需求是第一位! grep.sed.awk.三剑客! 学好shell,需要前提! 1.linux系统命令熟练 2.搞清楚正则,grep.sed.aw ...

  7. Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

    运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{S ...

  8. flash滑杆控制图片横向滚动

    flash滑杆控制图片横向滚动是一款FLASH动画图片左右滚动素材,滑杆控制滚动,效果很酷,带FLASH源文件. 下载:http://www.huiyi8.com/sc/9452.html

  9. URL过滤

    URL过滤 就是网址过滤.把不安全的.少儿不宜的.政治的东西过滤掉,访问这些网址就会提示受限,不能访问. 一.url过滤简介 针对企业对员工上网行为的控制管理,可以采用URL过滤技术.如企业不允许研发 ...

  10. poj 2559 最大矩形面积(单调栈)

    题目:输入一个整数n,代表有n个  1(宽度) * h[i](高度)的矩形.接下来n个数依次给定一个矩形高度的高度h[i](i<=n). 求:在给定的依次排列的这堆矩形构成的图形里用一个矩形圈出 ...