在Lucene或Solr中实现高亮的策略
一:功能背景
近期要做个高亮的搜索需求,曾经也搞过。所以没啥难度。仅仅只是原来用的是Lucene,如今要换成Solr而已,在Lucene4.x的时候,散仙在曾经的文章中也分析过怎样在搜索的时候实现高亮,主要有三种方式。详细内容,请參考散仙曾经的2篇文章:
第一:在Lucene4.3中实现高亮的方式
http://qindongliang.iteye.com/blog/1953409
第二:在Solr4.3中服务端高亮的方式
http://qindongliang.iteye.com/blog/2034270
二:方案探究
从总体来讲。主要有2种实现方式,第一就是前台展示数据时使用js高亮,第二就是服务端高亮后返回给前台
后端高亮的流程:

前端高亮的流程:

三:优劣分析
后端高亮:
性能:并发量大的情况下,可能对server的性能造成一定影响。
可靠性:高,在浏览器禁用js脚本情况下,仍能够正常显示
前端高亮:
性能:由client渲染,相对性能稍高
可靠性:低,在浏览器禁用js脚本情况下,高亮失效
四:注意事项
前台高亮时,须要把句子分词后的词组。返回给前台js,便于正则替换,关于把句子分词,能够用lucene也能够用solr,方式分别例如以下:
在Lucene中:
- /***
- *
- * @param analyzer 分词器
- * @param text 分词句子
- * @throws Exception
- */
- public static void analyzer(Analyzer analyzer,String text)throws Exception{
- TokenStream ts = analyzer.tokenStream("name",text);
- CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
- ts.reset();
- while(ts.incrementToken()){
- System.out.println(term.toString());
- }
- ts.end();
- ts.close();
- }
/***
*
* @param analyzer 分词器
* @param text 分词句子
* @throws Exception
*/
public static void analyzer(Analyzer analyzer,String text)throws Exception{
TokenStream ts = analyzer.tokenStream("name",text);
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
ts.reset();
while(ts.incrementToken()){
System.out.println(term.toString());
}
ts.end();
ts.close();
}
在solr中,方式1:
- /***
- * 依据字段类型分词并打印分词结果
- * @param text
- */
- public static void showAnalysisType(String text)throws Exception{
- String fieldType="ik";//分词类型
- //调用服务
- FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
- //设置类型
- request.addFieldType(fieldType);
- //设置待分词的句子
- request.setFieldValue(text);
- //sc=private static HttpSolrClient sc=new HttpSolrClient("http://localhost:8983/solr/one");
- //得到结果
- FieldAnalysisResponse response =request.process(sc);
- //得到相应的Analysis
- Analysis as = response.getFieldTypeAnalysis(fieldType);
- List<String> results = new ArrayList<String>();
- //使用guava的库,将iteratro对象转换为List对象
- List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
- //取某一个fitler的分词结果,由于一个fieldtype非常有可能配置了多个filter。每一步经过
- //filter的结果都不一样,所以此处。要指定一个获取分词结果的filter。跟由于有关
- //所以散仙这里就写list.size-1了。注意此处的值,并非固定的
- for(TokenInfo token:list.get(list.size()-1).getTokens()){
- //得到分词数据结果
- results.add(token.getText());
- }
- }
/***
* 依据字段类型分词并打印分词结果
* @param text
*/
public static void showAnalysisType(String text)throws Exception{ String fieldType="ik";//分词类型
//调用服务
FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
//设置类型
request.addFieldType(fieldType);
//设置待分词的句子
request.setFieldValue(text);
//sc=private static HttpSolrClient sc=new HttpSolrClient("http://localhost:8983/solr/one");
//得到结果
FieldAnalysisResponse response =request.process(sc);
//得到相应的Analysis
Analysis as = response.getFieldTypeAnalysis(fieldType);
List<String> results = new ArrayList<String>();
//使用guava的库。将iteratro对象转换为List对象
List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
//取某一个fitler的分词结果,由于一个fieldtype非常有可能配置了多个filter,每一步经过
//filter的结果都不一样,所以此处。要指定一个获取分词结果的filter,跟由于有关
//所以散仙这里就写list.size-1了,注意此处的值,并非固定的
for(TokenInfo token:list.get(list.size()-1).getTokens()){
//得到分词数据结果
results.add(token.getText());
} }
在solr中,方式2:
- /***
- * 依据字段名分词并打印分词结果
- * @param text
- */
- public static void showAnalysis(String text)throws Exception{
- //此处是字段名
- String fieldName="cpyName";
- //固定写法
- FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
- //加入field
- request.addFieldName(fieldName);
- //设置须要分词的句子
- request.setFieldValue(text);
- //请求solr服务得到结果
- FieldAnalysisResponse response =request.process(sc);
- //封装结果,返回,可能供其兴许调用的业务处理
- List<String> results = new ArrayList<String>();
- //依据字段名获取结果
- Analysis as=response.getFieldNameAnalysis(fieldName);
- //使用guava工具包,转iterator为List
- List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
- //打印分词结果
- for(TokenInfo token:list.get(list.size()-1).getTokens()){
- System.out.println(token.getText());
- }
- }
/***
* 依据字段名分词并打印分词结果
* @param text
*/
public static void showAnalysis(String text)throws Exception{
//此处是字段名
String fieldName="cpyName";
//固定写法
FieldAnalysisRequest request = new FieldAnalysisRequest("/analysis/field");
//加入field
request.addFieldName(fieldName);
//设置须要分词的句子
request.setFieldValue(text);
//请求solr服务得到结果
FieldAnalysisResponse response =request.process(sc);
//封装结果,返回。可能供其兴许调用的业务处理
List<String> results = new ArrayList<String>();
//依据字段名获取结果
Analysis as=response.getFieldNameAnalysis(fieldName);
//使用guava工具包。转iterator为List
List<AnalysisPhase> list=Lists.newArrayList(as.getIndexPhases().iterator());
//打印分词结果
for(TokenInfo token:list.get(list.size()-1).getTokens()){
System.out.println(token.getText());
} }
最后欢迎大家扫码关注微信公众号:我是攻城师(woshigcs)。我们一起学习,进步和交流!(woshigcs)
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享。也是一个温馨的技术互动交流的小家园,有什么问题随时都能够留言,欢迎大家来訪!

在Lucene或Solr中实现高亮的策略的更多相关文章
- lucene、solr中的日期衰减方法-------function query --尚未测试在solr4.8
经常有一种情景是这样的:我们索引了N年的文章,而查询时候无论直接用相关度.或者用时间排序,都是比较鲁莽的:我们想要一种既要相关度比较高,又要时间上比较新的文章. 这时候的解决办法就是,自定义日期衰减的 ...
- 使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析
使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析 使用搜索引擎计数构建快速.高效和可扩展的数据驱动应用程序 Apache Lucene™ 和 Solr™ 是强大的开源搜索技术, ...
- Solr 中的 docValues=true
前言: 在Lucene4.x之后,出现一个重大的特性,就是索引支持DocValues,这对于广大的solr和elasticsearch用户,无疑来说是一个福音,这玩意的出现通过牺牲一定的磁盘空间带来 ...
- 在Solr中配置和使用ansj分词
在上一节[编译Ansj之Solr插件]中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lan ...
- Solr分页与高亮(使用SolrNet实现)
Solr分页与高亮(使用SolrNet实现) 本节我们使用Asp.net MVC实现Solr客户端查询,建议使用SolrNet这个客户端,开源地址在:https://github.com/mausch ...
- Solr 08 - 在Solr Web管理页面中查询索引数据 (Solr中各类查询参数的使用方法)
目录 1 Solr管理页面的查询入口 2 Solr查询输入框简介 3 Solr管理页面的查询方案 1 Solr管理页面的查询入口 选中需要查询的SolrCore, 然后在菜单栏选择[Query]: 2 ...
- Solr 06 - Solr中配置使用IK分词器 (配置schema.xml)
目录 1 配置中文分词器 1.1 准备IK中文分词器 1.2 配置schema.xml文件 1.3 重启Tomcat并测试 2 配置业务域 2.1 准备商品数据 2.2 配置商品业务域 2.3 配置s ...
- solr中Cache综述
一.概述 Solr查询的核心类就是SolrIndexSearcher,每个core通常在同一时刻只由当前的SolrIndexSearcher供上层的handler使用(当切换SolrIndexSear ...
- 开源搜素引擎:Lucene、Solr、Elasticsearch、Sphinx优劣势比较
https://blog.csdn.net/belalds/article/details/82667692 开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr ...
随机推荐
- QT库在Windows上的编译
1.从http://www.qtcentre.org/下载QT源代码,注意是源代码.我下载到的是QT4.5.1版,文件名为qt-win-opensource-src-4.5.1.zip: 2.解压,注 ...
- Project interpreter not specified(eclipse+pydev) (转)
[小记] 最近因为想配置Android的开发环境,把原来的MyEclipse5.5删了,下载了最新的Eclipse3.7版本,因为之前在进行Python开 发,就下载了最新的Pydev2.4版本,安装 ...
- 牛客练习赛 29 E 位运算?位运算!(线段树)
题目链接 牛客练习赛29E 对$20$位分别建立线段树.首先$1$和$2$可以合起来搞(左移右移其实是等效的) 用个lazy标记下.转移的时候加个中间变量. $3$和$4$其实就是区间$01$覆盖操 ...
- SpringBoot整合SpringBatch实用简例
SpringBatch主要是一个轻量级的大数据量的并行处理(批处理)的框架. 作用和Hadoop很相似,不过Hadoop是基于重量级的分布式环境(处理巨量数据),而SpringBatch是基于轻量的应 ...
- angularjs学习笔记1-angular总体简介及其特点
以前开发(web或者移动端)前端主要使用jQuery+原生js,如果使用某些前端UI框架的话,它自己还可能提供一些API可以使用.而且目前很多UI框架都是基于jQuery的,所以说一下由jQuery跨 ...
- WebForms UnobtrusiveValidationMode 需要“jquery”ScriptResourceMapping——牛腩新闻发布系统
VS2011使用验证控件出现" WebForms UnobtrusiveValidationMode 需要"jquery"ScriptResourceMapping.请添 ...
- 【位运算】【BFS】移动玩具
1054: [HAOI2008]移动玩具 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 2246 Solved: 1246[Submit][Stat ...
- 活动中使用提示框(Toast)
任务名称:活动中使用Toast 任务现象:点击button时,会弹出提示框:You Click Button 步骤 1.创建一个项目,新建活动和加载布局.参考: http://8c925c9a.wiz ...
- 8VC Venture Cup 2016 - Elimination Round G. Raffles 线段树
G. Raffles 题目连接: http://www.codeforces.com/contest/626/problem/G Description Johnny is at a carnival ...
- Linux中KVM虚拟机是什么
概念: Kernel-based Virtual Machine的简称,是一个开源的系统虚拟化模块,自Linux 2.6.20之后集成在Linux的各个主要发行版本中.它使用Linux自身的调度器进行 ...