【搜索引擎】Solr全文检索近实时查询优化

设置多个搜索建议查找算法

 <searchComponent name="suggest" class="solr.SuggestComponent">

    <lst name="suggester">

      <str name="name">AnalyzingSuggester</str>

      <str name="lookupImpl">AnalyzingLookupFactory</str>

      <str name="dictionaryImpl">DocumentDictionaryFactory</str>

      <str name="field">suggest_name</str>

      <str name="weightField">suggest_name</str>

	  <str name="payloadField">gid</str>

      <str name="suggestAnalyzerFieldType">text_suggest</str>

      <str name="buildOnStartup">false</str>

	  <str name="buildOnCommit">true</str>

    </lst>

	<lst name="suggester">

      <str name="name">AnalyzingInfixSuggester</str>

      <str name="lookupImpl">AnalyzingInfixLookupFactory</str>

      <str name="dictionaryImpl">DocumentDictionaryFactory</str>

      <str name="field">suggest_name</str>

      <str name="weightField">suggest_name</str>

	  <str name="highlight">false</str>

	  <str name="payloadField">gid</str>

      <str name="suggestAnalyzerFieldType">text_suggest</str>

      <str name="buildOnStartup">false</str>

	  <str name="buildOnCommit">true</str>

    </lst>

  </searchComponent>

设置AnalyzingLookupFactory和AnalyzingInfixLookupFactory两种查找算法。首先通过AnalyzingLookupFactory先分析传入文本并将分析后的表单添加到加权FST的查找，然后在查找时执行相同的操作，若查找不够你需求的数量。再通过AnalyzingInfixLookupFactory前缀分析。
例如 AnalyzingInfixLookupFactory "aaa bbb ccc",可通过bbb,或者ccc搜索到，而 AnalyzingLookupFactory必须是先从a开始匹配才能出结果。
AnalyzingInfixLookupFactory可通过标签false关闭高亮提示。
true可通过此标签设置软提交时才进行文本构建。注意此种需求需要在提交文本不频繁的场景设置。

设置软提交时间

配置在自己core下的conf文件夹中的solrconfig.xml文件

vim solrconfig.xml

    <autoSoftCommit>

      <maxTime>${solr.autoSoftCommit.maxTime:-1}</maxTime>

    </autoSoftCommit>

将maxTime可以设置成你需要的时间，单位是毫秒ms.

也可以在solr启动的时候通过命令设置软提交：

bin/solr start -force -Dsolr.autoSoftCommit.maxTime=10000

设置了软提交时间后，当有新的文档提交时，会达到设置的软提交时间才真正提交。

关闭停用词过滤器

在建立索引的时候，fileType定义的字段可不加入停用词过滤器，因为我们要检索的词很短，加入会影响检索结果。

 <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

Java服务器调用suggest接口时，禁用suggest.build=true

加入suggest.build=true这个条件，每输入一个字符检索的时候都会去重新构建suggest索引，检索效率大大减低。通过上面的软提交方式达到近实时检索。

Java服务器测试用例

/**

 * @author monkjavaer

 * @version V1.0

 * @date 2019/6/21 0021 22:42

 */

public class SolJTest {

    /**

     * 日志

     */

    private static Logger logger = LoggerFactory.getLogger(SolJTest.class);

    /**

     * solr 地址

     */

    private static String SOLR_URL = PropertyReaderUtils.getProValue("solr.address_url");

    /**

     * suggest AnalyzingLookupFactory

     */

    public final static String SOLR_ANALYZINGSUGGESTER = PropertyReaderUtils.getProValue("solr.AnalyzingSuggester");

    /**

     * suggest AnalyzingInfixLookupFactory

     */

    public final static String SOLR_ANALYZINGINFIXSUGGESTER = PropertyReaderUtils.getProValue("solr.AnalyzingInfixSuggester");

    /**

     * HttpSolrClient

     */

    private HttpSolrClient httpSolrClient;

    /**

     * default socket connection timeout in ms

     */

    private static int DEFAULT_CONNECTION_TIMEOUT = 60000;

    /**

     * @return void

     * @author monkjavaer

     * @description get HttpSolrClient

     * @date 13:27 2019/6/19

     * @param: []

     **/

    @Before

    public void getHttpSolrClient() {

        logger.info("start getHttpSolrClient......");

        try {

            if (httpSolrClient == null) {

                httpSolrClient = new HttpSolrClient.Builder(SOLR_URL).build();

                httpSolrClient.setConnectionTimeout(DEFAULT_CONNECTION_TIMEOUT);

                httpSolrClient.setDefaultMaxConnectionsPerHost(100);

                httpSolrClient.setMaxTotalConnections(100);

            }

        } catch (Exception e) {

            e.printStackTrace();

            logger.error(e.getMessage());

        }

        logger.info("end getHttpSolrClient......");

    }

    /**

     * @return void

     * @author monkjavaer

     * @description test suggester response object

     * @date 13:27 2019/6/19

     * @param: []

     **/

    @Test

    public void testSuggesterResponseObject() throws IOException, SolrServerException {

        SolrQuery query = new SolrQuery("*:*");

        query.set(CommonParams.QT, "/suggest");

        query.set("suggest.dictionary", SOLR_ANALYZINGSUGGESTER, SOLR_ANALYZINGINFIXSUGGESTER);

        query.set("suggest.q", "aoa");

        query.set("suggest.build", true);

        QueryRequest request = new QueryRequest(query);

        QueryResponse queryResponse = request.process(httpSolrClient);

        SuggesterResponse response = queryResponse.getSuggesterResponse();

        Map<String, List<Suggestion>> suggestionsMap = response.getSuggestions();

        assertTrue(suggestionsMap.keySet().contains(SOLR_ANALYZINGSUGGESTER));

        List<Suggestion> mySuggester = suggestionsMap.get(SOLR_ANALYZINGSUGGESTER);

        logger.info(mySuggester.get(0).getTerm());

        logger.info(mySuggester.get(0).getPayload());

    }

    /**

     * @return void

     * @author monkjavaer

     * @description test suggester response terms

     * @date 13:27 2019/6/19

     * @param: []

     **/

    @Test

    public void testSuggesterResponseTerms() throws Exception {

        SolrQuery query = new SolrQuery("*:*");

        query.set(CommonParams.QT, "/suggest");

        query.set("suggest.dictionary", SOLR_ANALYZINGSUGGESTER, SOLR_ANALYZINGINFIXSUGGESTER);

        query.set("suggest.q", "aoa");

//        query.set("suggest.build", true);

        QueryRequest request = new QueryRequest(query);

        QueryResponse queryResponse = request.process(httpSolrClient);

        SuggesterResponse response = queryResponse.getSuggesterResponse();

        Map<String, List<String>> dictionary2suggestions = response.getSuggestedTerms();

        assertTrue(dictionary2suggestions.keySet().contains(SOLR_ANALYZINGSUGGESTER));

        List<String> mySuggester = dictionary2suggestions.get(SOLR_ANALYZINGSUGGESTER);

        assertEquals("aoa", mySuggester.get(0));

        assertEquals("aoa bob", mySuggester.get(1));

    }

    /**

     * @return void

     * @author monkjavaer

     * @description 简单查询自动转换为bean

     * @date 13:27 2019/6/19

     * @param: []

     **/

    @Test

    public void testSolrQueryGetBeans() throws IOException, SolrServerException {

        final SolrQuery query = new SolrQuery();

        query.setQuery("Zhong Hua Yuan");

        //设置查询列

        query.addField("id");

        query.addField("name");

        //排序

        query.setSort("id", SolrQuery.ORDER.asc);

        final QueryResponse response = httpSolrClient.query("adress", query);

        final List<Adress> adresses = response.getBeans(Adress.class);

        logger.info("Found " + adresses.size() + " documents");

        for (Adress adress : adresses) {

            logger.info("id:{} ; name:{}; ", adress.getId(), adress.getName());

        }

    }

    /**

     * @return void

     * @author monkjavaer

     * @description 批量添加

     * @date 13:27 2019/6/19

     * @param: []

     **/

    @Test

    public void testAddIndex() throws IOException, SolrServerException {

        List<Adress> lists = new ArrayList<>();

        Adress adress = new Adress();

        adress.setId(1);

        adress.setName("aoa");

        lists.add(adress);

        //向solr批量添加索引数据

        long startTime = TimeUnit.MILLISECONDS.convert(System.nanoTime(), TimeUnit.NANOSECONDS);

        httpSolrClient.addBeans(lists);

        httpSolrClient.commit();

        long endTime = TimeUnit.MILLISECONDS.convert(System.nanoTime(), TimeUnit.NANOSECONDS);

        logger.info("commit solr data cost {} ms.", endTime - startTime);

    }

}

【搜索引擎】Solr全文检索近实时查询优化的更多相关文章

solr 近实时搜索
摘要: Solr的近实时搜索NRT(Near Real Time Searching)意味着文档可以在索引以后马上可以被查询到. Solr不会因为本次提交而阻塞更新操作,不会等待后台合并操作(merg ...
SOLR (全文检索)
SOLR (全文检索) http://sinykk.iteye.com/ 1. 什么是SOLR 官方网站 http://wiki.apache.org/solr http://wiki.apach ...
sphinx通过增量索引实现近实时更新
一.sphinx增量索引实现近实时更新设置数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少. 例如.原来的数据 ...
剖析Elasticsearch集群系列之三：近实时搜索、深层分页问题和搜索相关性权衡之道
转载:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03 近实时搜索虽然Elasticsearch ...
一步一步跟我学习lucene（19）---lucene增量更新和NRT(near-real-time)Query近实时查询
这两天加班,不能兼顾博客的更新.请大家见谅. 有时候我们创建完索引之后,数据源可能有更新的内容.而我们又想像数据库那样能直接体如今查询中.这里就是我们所说的增量索引.对于这种需求我们怎么来实现呢?lu ...
Lucene.net 实现近实时搜索（NRT）和增量索引
Lucene做站内搜索的时候经常会遇到实时搜索的应用场景,比如用户搜索的功能.实现实时搜索,最普通的做法是,添加新的document之后,调用 IndexWriter 的 Commit 方法把内存中的 ...
Lucene系列-近实时搜索(1)
近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大.更新较频繁的情况下使用.本文主要来介绍下如何 ...
lucene4.5近实时搜索
近实时搜索就是他能打开一个IndexWriter快速搜索索引变更的内容,而不必关闭writer,或者向writer提交,这个功能是在2.9版本以后引入的,在以前没有这个功能时,必须调用writer的c ...
【Lucene】近实时搜索
近实时搜索:可以使用一个打开的IndexWriter快速搜索索引的变更内容,而不必首先关闭writer,或者向该writer提交:这是2.9版本之后推出的新功能. 代码示例(本例参考<Lucen ...

随机推荐

Android之高仿手机QQ聊天
源代码下载转载请注明出处,谢谢! 最终版已上传.优化下拉刷新.增加来消息声音提示.主界面改成ViewPager,实现左右滑动.新增群组.最近会话显示条数,开始上班了,不再修改了.谢谢! 国庆这几天, ...
使用QuickContactBadge关联联系人
QuickContactBadge继承了ImageView,因此它的本质也是图片,也可以通过android:src属性指定它显示的图片.QuickContackBadge额外功能是:该图片可以关联到手 ...
格式字符串分配stl::string
代码非常easy,不解释,直接在代码: #include <cstdio> #include <cstdarg> #include <iostream> using ...
MySQL TIMESTAMP(时间戳)详细解释
当你创建一个表假设表中有类型的字段TIMESTAMP,该字段默认情况下,语句生成: CREATE TABLE `test` ( `id` int(11) DEFAULT NULL, `ctime` t ...
WPF 遍历DataTemplate(获取所有控件)
原文:WPF 遍历DataTemplate(获取所有控件) 情况1:在设定DataTemplate的Name,并且他是在前台表示时,获取DataTemplate里的指定控件. 方法: http://b ...
Java之"Mozilla Rhino"引擎(二)
在Java中使用Rhino, 能让你使用类似Groovy, ECMAScript...等等之类的不同动态脚本语言, 其中值得推荐的是ECMAScript, 它是Rhino的默认实现, 同时也在JDK1 ...
ListView、TreeView和DataGrid。
原文:ListView.TreeView和DataGrid. 1.ListView. ListView继承自简单的没有特色的ListBox,并使用View属性进行扩展.增加了对基于列显示的支持,并增加 ...
C# System.Threading.Timer的使用
using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ...
WPF属性(一)依赖属性
原文:WPF属性(一)依赖属性依赖属性是一种可以自己没有值,并能通过使用Binding从数据源获得值的属性,拥有依赖属性的对象称为依赖对象,在传统开发中,一个对象所占用的内存在调用new操作符进行实 ...
用蓝牙连接debian和诺基亚手机
本方法已经用debian 4.0.诺基亚9300和一个hl-united牌子的USB蓝牙适配器测试过了,效果很好. 1.安装必要的软件包: #apt-get install ...