1 什么是高亮显示

高亮显示是全文检索的一个特点, 指的在搜索结果中对关键词突出显示(加粗和增加颜色).

2 高亮显示实现

Lucene提供了高亮显示组件, 支持高亮显示.

2.1 配置pom.xml文件, 加入高亮显示支持

<project>

    <properties>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <!-- mysql版本 -->

        <mysql.version>5.1.30</mysql.version>

        <!-- lucene版本 -->

        <lucene.version>4.10.3</lucene.version>

        <!-- ik分词器版本 -->

        <ik.version>2012_u6</ik.version>

    </properties>

    <dependencies>

        // ......

        <!--lucene高亮显示 -->

        <dependency>

            <groupId>org.apache.lucene</groupId>

            <artifactId>lucene-highlighter</artifactId>

            <version>${lucene.version}</version>

        </dependency>

    </dependencies>

</project>

2.2 代码实现

步骤为:

(1) 创建分值对象(QueryScorer), 用于计算高亮显示内容的评分;

(2) 创建输出片段对象(Fragmenter), 用于将高亮显示内容切片;

(3) 创建高亮组件对象(Highlighter), 实现高亮显示;

(4) 创建分析器对象(Analyzer), 用于分词;

(5) 使用TokenSources类, 获取高亮显示内容的流对象(TokenStream);

(6) 使用Highlighter对象, 完成高亮显示.

/**

 * 封装搜索方法(高亮显示的方法)

 */

private void searcherHighlighter(Query query) throws Exception {

    // 打印Query对象生成的查询语法

    System.out.println("查询语法: " + query);

    // 1.创建索引库目录位置对象(Directory), 指定索引库的位置

    Directory directory = FSDirectory.open(new File("/Users/healchow/Documents/index"));   

    // 2.创建索引读取对象(IndexReader), 用于将索引数据读取到内存中

    IndexReader reader = DirectoryReader.open(directory);

    // 3.创建索引搜索对象(IndexSearcher), 用于执行搜索

    IndexSearcher searcher = new IndexSearcher(reader);   

    // 4. 使用IndexSearcher对象执行搜索, 返回搜索结果集TopDocs

    // 参数一:使用的查询对象, 参数二:指定要返回的搜索结果排序后的前n个

    TopDocs topDocs = searcher.search(query, 10);

    // 增加高亮显示处理 ============================== start

    // 1.建立分值对象(QueryScorer), 用于对高亮显示内容打分

    QueryScorer qs = new QueryScorer(query);

    // 2.建立输出片段对象(Fragmenter), 用于把高亮显示内容切片

    Fragmenter fragmenter = new SimpleSpanFragmenter(qs);

    // 3.建立高亮组件对象(Highlighter), 实现高亮显示

    Highlighter lighter = new Highlighter(qs);

    // 设置切片对象

    lighter.setTextFragmenter(fragmenter);

    // 4.建立分析器对象(Analyzer), 用于分词

    Analyzer analyzer = new IKAnalyzer();

    // 增加高亮显示处理 ============================== end

    // 5. 处理结果集

    // 5.1 打印实际查询到的结果数量

    System.out.println("实际查询到的结果数量: " + topDocs.totalHits);

    // 5.2 获取搜索的结果数组

    // ScoreDoc中有文档的id及其评分

    ScoreDoc[] scoreDocs = topDocs.scoreDocs;  

    for (ScoreDoc scoreDoc : scoreDocs) {

        System.out.println("= = = = = = = = = = = = = = = = = = =");

        // 获取文档的id和评分

        int docId = scoreDoc.doc;

        float score = scoreDoc.score;

        System.out.println("文档id= " + docId + " , 评分= " + score);   

        // 根据文档Id, 查询文档数据 -- 相当于关系数据库中根据主键Id查询数据

        Document doc = searcher.doc(docId);

        System.out.println("图书Id: " + doc.get("bookId"));

        // 实现图书名称的高亮显示

        String bookName = doc.get("bookName");

        if(bookName != null) {

            // 5.使用TokenSources类, 获取高亮显示内容流对象(TokenStream)

            // getTokenStream方法: 获取当前文档的流对象

            // 参数一: 当前的文档对象

            // 参数二: 要高亮显示的域名称

            // 参数三: 分析器对象

            TokenStream tokenStream = TokenSources.getTokenStream(doc, "bookName", analyzer);

            // 6.使用高亮组件对象，完成高亮显示

            // getBestFragment方法:获取高亮显示结果内容

            // 参数一: 当前文档对象的流对象

            // 参数二: 要高亮显示的目标内容

            bookName = lighter.getBestFragment(tokenStream, bookName);

        }

        System.out.println("图书名称: " + bookName);

        System.out.println("图书价格: " + doc.get("bookPrice"));

        System.out.println("图书图片: " + doc.get("bookPic"));

        System.out.println("图书描述: " + doc.get("bookDesc"));

    }

    // 8. 关闭资源

    reader.close();

}

/**

 * 测试高亮显示 需求：把搜索结果中，图书名称进行高亮显示(关键词值java)

 * @throws Exception

 */

@Test

public void testHighlighter() throws Exception {

    //1.创建查询对象

    TermQuery tq = new TermQuery(new Term("bookName","java"));

    // 2.执行高亮搜索

    this.searcherHighlighter(tq);

}

2.3 自定义html标签高亮显示

问题: 实际项目中，如何实现用自定义的HTML标签，进行搜索结果的高亮显示?

① 创建HTML标签格式化对象(SimpleHTMLFormatter);

② 创建高亮显示组件对象(Highlighter), 指定使用SimpleHTMLFormatter对象.

// 增加高亮显示处理 ============================== start

// 1.建立分值对象(QueryScorer), 用于对高亮显示内容打分

QueryScorer qs = new QueryScorer(query);

// 2.建立输出片段对象(Fragmenter), 用于把高亮显示内容切片

Fragmenter fragmenter = new SimpleSpanFragmenter(qs);

// 3.建立高亮组件对象(Highlighter), 实现高亮显示

// 3.1.实现自定义的HTML标签进行高亮显示搜索结果

// 1) 建立高亮显示HTML格式化标签对象(SimpleHTMLFormatter), 参数说明:

// preTag: 指定HTML标签的开始部分(<font color='red'>)

// postTag: 指定HTML标签的结束部分(</font>)

SimpleHTMLFormatter formatter = new SimpleHTMLFormatter("<font color='red'>", "</font>");

// 2) 指定高亮显示组件对象（Highter）, 使用SimpleHTMLFormatter对象

Highlighter lighter = new Highlighter(formatter, qs);

// 设置切片对象

lighter.setTextFragmenter(fragmenter);

// 4.建立分析器对象(Analyzer), 用于分词

Analyzer analyzer = new IKAnalyzer();

// 增加高亮显示处理 ============================== end

版权声明

作者: 马瘦风

出处: 博客园马瘦风的博客

您的支持是对博主的极大鼓励, 感谢您的阅读.

本文版权归博主所有, 欢迎转载, 但请保留此段声明, 并在文章页面明显位置给出原文链接, 否则博主保留追究相关人员法律责任的权利.

Lucene 09 - 什么是Lucene的高亮显示 + Java API实现高亮显示的更多相关文章

Lucene 08 - 什么是Lucene的相关度排序 + Java API调整相关度
目录 1 什么是相关度 2 相关度评分 3 相关度设置 3.1 更改相关度的需求 3.2 实现需求-设置广告 1 什么是相关度概念: 相关度指两个事物之间的关联关系(相关性). Lucene中指的是 ...
Lucene 04 - 学习使用Lucene的Field(字段)
目录 1 Field的特性 2 常用的Field类型 3 常用的Field种类使用 3.1 准备环境 3.2 需求分析 3.3 修改代码 3.4 重新建立索引 1 Field的特性 Document( ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Lucene系列二：Lucene（Lucene介绍、Lucene架构、Lucene集成）
一.Lucene介绍 1. Lucene简介最受欢迎的java开源全文搜索引擎开发工具包.提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言).Lucene的目的是为软件开发人 ...
Elasticsearch 2.3.3 JAVA api说明文档
原文地址:https://www.blog-china.cn/template\documentHtml\1484101683485.html 翻译作者:@青山常在人不老加入翻译:cdcnsuper ...
ElasticSearch6.0 Java API 使用排序，分组，创建索引，添加索引数据，打分等（一）
ElasticSearch6.0 Java API 使用排序,分组 ,创建索引,添加索引数据,打分等如果此文章对你有帮助,请关注一下哦 1.1 搭建maven 工程创建web工程 ...
Elastic Stack 笔记（八）Elasticsearch5.6 Java API
博客地址:http://www.moonxy.com 一.前言 Elasticsearch 底层依赖于 Lucene 库,而 Lucene 库完全是 Java 编写的,前面的文章都是发送的 RESTf ...
Elasticsearch Java API 很全的整理
Elasticsearch 的API 分为 REST Client API(http请求形式)以及 transportClient API两种.相比来说transportClient API效率更高, ...
使用Java操作Elasticsearch(Elasticsearch的java api使用)
1.Elasticsearch是基于Lucene开发的一个分布式全文检索框架,向Elasticsearch中存储和从Elasticsearch中查询,格式是json. 索引index,相当于数据库中的 ...

随机推荐

Codeforces 1144F Graph Without Long Directed Paths (DFS染色+构造)
<题目链接> 题目大意:给定一个无向图,该无向图不含自环,且无重边.现在要你将这个无向图定向,使得不存在任何一条路径长度大于等于2.然后根输入边的顺序,输出构造的有向图.如果构造的边与输入 ...
Linux-信号量与P,V操作
Linux-信号量与P,V操作内容使用信号量实现进程互斥使用信号量及PV实现子进程读写同步机理 Linux信号量集 Linux信号量作为IPC机制的一种,与其他通信方式类似,Linux也是通过 ...
C# 使用默认浏览器打开链接
public void OpenUrl(string link) { RegistryKey key = Registry.ClassesRoot.OpenSubKey(@"http\she ...
jquery for循环
第一种: for(var i=0,len=$len.length; i<len; i++){//alert($len.eq(i).html());$zongshu=$zongshu+$len.e ...
对Jpa中Entity关系映射中mappedBy的理解
mappedBy 单向关系不需要设置该属性,双向关系必须设置,避免双方都建立外键字段数据库中1对多的关系,关联关系总是被多方维护的即外键建在多方,我们在单方对象的@OneToMany(mappedby ...
mongodb 数据导出
后台找我导数据以此记录在mongodb bin目录下执行 ./mongoexport -d xxx(db name)-c xxx(Collection name)-u xxx(username) ...
RHEL系统初始化步骤
1.配置网络 ##初始化网络(可在虚拟网络编辑器查看自己的网段) ##方法一:静态初始化 read -p "输入你当前Linux的IP地址:" ip ETH=` ifconfig ...
data.table包使用应该注意的一些细节
fread中nThread 参数的使用注意默认nThread=getDTthreads(),即使用所有能用的核心,但并不是核心用的越多越好,本人亲自测试的情况下,其实单核具有较强的性能,只有在数 ...
关于 js中replace 特殊符号 ‘.’ 的问题
问题: 字符串转数组,但是分割点在‘.’ ,需要保留每个后缀的 ‘.’ + 类型解决: let videoType = '.avi.rmvb.rm.asf.divx.mpg.mpeg.mpe.wmv ...
[转]Understanding OpenStack Authentication: Keystone PKI
The latest stable release of OpenStack, codenamed Grizzly, revolutionizes the way user authenticatio ...

Lucene 09 - 什么是Lucene的高亮显示 + Java API实现高亮显示

1 什么是高亮显示

2 高亮显示实现

2.1 配置pom.xml文件, 加入高亮显示支持

2.2 代码实现

2.3 自定义html标签高亮显示

版权声明

Lucene 09 - 什么是Lucene的高亮显示 + Java API实现高亮显示的更多相关文章

随机推荐

热门专题