在Lucene或Solr中实现高亮的策略

一：功能背景

近期要做个高亮的搜索需求，曾经也搞过。所以没啥难度。仅仅只是原来用的是Lucene，如今要换成Solr而已，在Lucene4.x的时候，散仙在曾经的文章中也分析过怎样在搜索的时候实现高亮，主要有三种方式。详细内容，请參考散仙曾经的2篇文章：

第一：在Lucene4.3中实现高亮的方式

http://qindongliang.iteye.com/blog/1953409

第二：在Solr4.3中服务端高亮的方式

http://qindongliang.iteye.com/blog/2034270

二：方案探究

从总体来讲。主要有2种实现方式，第一就是前台展示数据时使用js高亮，第二就是服务端高亮后返回给前台

后端高亮的流程：

前端高亮的流程：

三：优劣分析

后端高亮：

性能：并发量大的情况下，可能对server的性能造成一定影响。

可靠性：高，在浏览器禁用js脚本情况下，仍能够正常显示

前端高亮：

性能：由client渲染，相对性能稍高

可靠性：低，在浏览器禁用js脚本情况下，高亮失效

四：注意事项

前台高亮时，须要把句子分词后的词组。返回给前台js，便于正则替换，关于把句子分词，能够用lucene也能够用solr，方式分别例如以下：

在Lucene中：

/***
*
* @param analyzer 分词器
* @param text 分词句子
* @throws Exception
*/
public static void analyzer(Analyzer analyzer,String text)throws Exception{
TokenStream ts = analyzer.tokenStream("name",text);
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
ts.reset();
while(ts.incrementToken()){
System.out.println(term.toString());
}
ts.end();
ts.close();
}

/***

	 *

	 * @param analyzer 分词器

	 * @param text  分词句子

	 * @throws Exception

	 */

	public static void analyzer(Analyzer analyzer,String text)throws Exception{

		        TokenStream ts = analyzer.tokenStream("name",text);

		        CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);

		        ts.reset();

		        while(ts.incrementToken()){

		            System.out.println(term.toString());

		        }

		        ts.end();

		        ts.close();

	}

在solr中，方式1：

/***
* 依据字段类型分词并打印分词结果
* @param text
*/
public static void showAnalysisType(String text)throws Exception{
String fieldType="ik";//分词类型
//调用服务
FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
//设置类型
request.addFieldType(fieldType);
//设置待分词的句子
request.setFieldValue(text);
//sc=private static HttpSolrClient sc=new HttpSolrClient("http://localhost:8983/solr/one");
//得到结果
FieldAnalysisResponse response =request.process(sc);
//得到相应的Analysis
Analysis as = response.getFieldTypeAnalysis(fieldType);
List<String> results = new ArrayList<String>();
//使用guava的库，将iteratro对象转换为List对象
List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
//取某一个fitler的分词结果，由于一个fieldtype非常有可能配置了多个filter。每一步经过
//filter的结果都不一样，所以此处。要指定一个获取分词结果的filter。跟由于有关
//所以散仙这里就写list.size-1了。注意此处的值，并非固定的
for(TokenInfo token:list.get(list.size()-1).getTokens()){
//得到分词数据结果
results.add(token.getText());
}
}

	/***

	 * 依据字段类型分词并打印分词结果

	 * @param text

	 */

	public static void showAnalysisType(String text)throws Exception{

		String fieldType="ik";//分词类型

		//调用服务

		FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");

		//设置类型

		request.addFieldType(fieldType);

		//设置待分词的句子

		request.setFieldValue(text);

		//sc=private static HttpSolrClient sc=new HttpSolrClient("http://localhost:8983/solr/one");

		//得到结果

	    FieldAnalysisResponse response =request.process(sc);

	    //得到相应的Analysis

	    Analysis as = response.getFieldTypeAnalysis(fieldType);

	    List<String> results = new ArrayList<String>();

	    //使用guava的库。将iteratro对象转换为List对象

        List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());

        //取某一个fitler的分词结果，由于一个fieldtype非常有可能配置了多个filter，每一步经过

        //filter的结果都不一样，所以此处。要指定一个获取分词结果的filter，跟由于有关

        //所以散仙这里就写list.size-1了，注意此处的值，并非固定的

	     for(TokenInfo token:list.get(list.size()-1).getTokens()){

	    	 //得到分词数据结果

	    	 results.add(token.getText());

	     }

	}

在solr中，方式2：

/***
* 依据字段名分词并打印分词结果
* @param text
*/
public static void showAnalysis(String text)throws Exception{
//此处是字段名
String fieldName="cpyName";
//固定写法
FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
//加入field
request.addFieldName(fieldName);
//设置须要分词的句子
request.setFieldValue(text);
//请求solr服务得到结果
FieldAnalysisResponse response =request.process(sc);
//封装结果，返回，可能供其兴许调用的业务处理
List<String> results = new ArrayList<String>();
//依据字段名获取结果
Analysis as=response.getFieldNameAnalysis(fieldName);
//使用guava工具包，转iterator为List
List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
//打印分词结果
for(TokenInfo token:list.get(list.size()-1).getTokens()){
System.out.println(token.getText());
}
}

/***

	 * 依据字段名分词并打印分词结果

	 * @param text

	 */

	public static void showAnalysis(String text)throws Exception{

		 //此处是字段名

		 String fieldName="cpyName";

		 //固定写法

		 FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");

		 //加入field

		 request.addFieldName(fieldName);

		 //设置须要分词的句子

		 request.setFieldValue(text);

		 //请求solr服务得到结果

	     FieldAnalysisResponse response =request.process(sc);

	     //封装结果，返回。可能供其兴许调用的业务处理

	     List<String> results = new ArrayList<String>();

	     //依据字段名获取结果

	     Analysis as=response.getFieldNameAnalysis(fieldName);

	     //使用guava工具包。转iterator为List

	     List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());

	     //打印分词结果

	     for(TokenInfo token:list.get(list.size()-1).getTokens()){

	    	 System.out.println(token.getText());

	     }

	}

最后欢迎大家扫码关注微信公众号：我是攻城师(woshigcs)。我们一起学习，进步和交流!（woshigcs）

本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享。也是一个温馨的技术互动交流的小家园，有什么问题随时都能够留言，欢迎大家来訪！

在Lucene或Solr中实现高亮的策略的更多相关文章

lucene、solr中的日期衰减方法-------function query --尚未测试在solr4.8
经常有一种情景是这样的:我们索引了N年的文章,而查询时候无论直接用相关度.或者用时间排序,都是比较鲁莽的:我们想要一种既要相关度比较高,又要时间上比较新的文章. 这时候的解决办法就是,自定义日期衰减的 ...
使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析
使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析使用搜索引擎计数构建快速.高效和可扩展的数据驱动应用程序 Apache Lucene™ 和 Solr™ 是强大的开源搜索技术, ...
Solr 中的 docValues=true
前言: 在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来 ...
在Solr中配置和使用ansj分词
在上一节[编译Ansj之Solr插件]中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lan ...
Solr分页与高亮(使用SolrNet实现)
Solr分页与高亮(使用SolrNet实现) 本节我们使用Asp.net MVC实现Solr客户端查询,建议使用SolrNet这个客户端,开源地址在:https://github.com/mausch ...
Solr 08 - 在Solr Web管理页面中查询索引数据 (Solr中各类查询参数的使用方法)
目录 1 Solr管理页面的查询入口 2 Solr查询输入框简介 3 Solr管理页面的查询方案 1 Solr管理页面的查询入口选中需要查询的SolrCore, 然后在菜单栏选择[Query]: 2 ...
Solr 06 - Solr中配置使用IK分词器 (配置schema.xml)
目录 1 配置中文分词器 1.1 准备IK中文分词器 1.2 配置schema.xml文件 1.3 重启Tomcat并测试 2 配置业务域 2.1 准备商品数据 2.2 配置商品业务域 2.3 配置s ...
solr中Cache综述
一.概述 Solr查询的核心类就是SolrIndexSearcher,每个core通常在同一时刻只由当前的SolrIndexSearcher供上层的handler使用(当切换SolrIndexSear ...
开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx优劣势比较
https://blog.csdn.net/belalds/article/details/82667692 开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr ...

随机推荐

shadowssock启动服务
启动服务:ssserver -c /var/ss/server.json
洛谷 P3128 [USACO15DEC]最大流Max Flow-树上差分(点权/点覆盖)(模板题)
因为徐州现场赛的G是树上差分+组合数学,但是比赛的时候没有写出来(自闭),背锅. 会差分数组但是不会树上差分,然后就学了一下. 看了一些东西之后,对树上差分写一点个人的理解: 首先要知道在树上,两点之 ...
转：GitHub 万星推荐成长技术清单
转:http://www.4hou.com/info/news/7061.html 最近两天,在reddit安全板块和Twitter上有个GitHub项目很火,叫“Awesome Hacking”. ...
HDU 5967 小R与手机（动态树）
[题目链接] http://acm.hdu.edu.cn/showproblem.php?pid=5967 [题目大意] 给出一张图,每个点仅连一条有向边,或者不连, 要求查询在可更改有向边的情况每个 ...
Codeforces 449D Jzzhu and Numbers（高维前缀和）
[题目链接] http://codeforces.com/problemset/problem/449/D [题目大意] 给出一些数字,问其选出一些数字作or为0的方案数有多少 [题解] 题目等价于给 ...
【分块】MIPT-2016 Pre-Finals Workshop, Taiwan NTU Contest, Sunday, March 27, 2016 Problem A. As Easy As Possible
给你一个字符串,多次区间询问,问你在该区间内最多能有几个easy重复的子序列. 显然如果只有一次询问,从左到右贪心做即可. 分块,预处理任意两块间的答案,不过要把以e a s y开头的四个答案都处理出 ...
【MySQL笔记】启动弹窗问题，unable to connect to remote host. catalog download has failed.
安装完MySQL之后,它每天凌晨启动一个Intaller任务,甚是烦人: 这是一个Windows的计划服务,在这里删除即可,开始/附件/系统工具/任务计划程序,把mysql的定时任务计划取消/删除 ...
HDU 1864 Brave Game 【组合游戏，SG函数】
简单取石子游戏,SG函数的简单应用. 有时间将Nim和.SG函数总结一下……暂且搁置. #include <cstdio> #include <cstring> #define ...
Web安全开发指南--异常错误处理与日志审计
1.异常错误处理与日志审计 5.1.日志审计系统安全规则 1 日志系统能够记录特定事件的执行结果(比如成功或失败). 确保日志系统包含如下重要日志信息: 1. 日志发生的时间: 2. 事件的严重 ...
okHttp，greenDao，EventBus组合框架项目中实战
okHttp,greenDao,EventBus组合封装 zzyandroid 介绍开门见山,大体思路是在Activity中启动服务,通过服务创建Http请求,请求处理结果通过EventBus通知前 ...

在Lucene或Solr中实现高亮的策略

在Lucene或Solr中实现高亮的策略的更多相关文章

随机推荐

热门专题