lucene之中文分词及其高亮显示(五)

中文分词：即换个分词器

Analyzer analyzer = new StandardAnalyzer();// 标准分词器换成 SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();//要加入lucene-analyzers-common-5.3.1.jar

package com.wp.lucene;

import java.nio.file.Paths;

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.IntField;

import org.apache.lucene.document.StringField;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

public class Indexer {

    private Integer ids[] = { 1, 2, 3 };

    private String citys[] = { "青岛", "南京", "上海" };

    private String descs[] = {

            "青岛是一个美丽的城市。",

            "南京是一个有文化的城市。南京是一个文化的城市南京，简称宁，是江苏省会，地处中国东部地区，长江下游，濒江近海。全市下辖11个区，总面积6597平方公里，2013年建成区面积752.83平方公里，常住人口818.78万，其中城镇人口659.1万人。[1-4] “江南佳丽地，金陵帝王州”，南京拥有着6000多年文明史、近2600年建城史和近500年的建都史，是中国四大古都之一，有“六朝古都”、“十朝都会”之称，是中华文明的重要发祥地，历史上曾数次庇佑华夏之正朔，长期是中国南方的政治、经济、文化中心，拥有厚重的文化底蕴和丰富的历史遗存。[5-7] 南京是国家重要的科教中心，自古以来就是一座崇文重教的城市，有“天下文枢”、“东南第一学”的美誉。截至2013年，南京有高等院校75所，其中211高校8所，仅次于北京上海；国家重点实验室25所、国家重点学科169个、两院院士83人，均居中国第三。[8-10] 。",

            "上海是一个繁华的城市。" };

    private Directory dir;

    /**

     * 获取IndexWriter实例

     *

     * @return

     * @throws Exception

     */

    private IndexWriter getWriter() throws Exception {

        // Analyzer analyzer=new StandardAnalyzer(); // 标准分词器

        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();

        IndexWriterConfig iwc = new IndexWriterConfig(analyzer);

        IndexWriter writer = new IndexWriter(dir, iwc);

        return writer;

    }

    /**

     * 生成索引

     *

     * @param indexDir

     * @throws Exception

     */

    private void index(String indexDir) throws Exception {

        dir = FSDirectory.open(Paths.get(indexDir));

        IndexWriter writer = getWriter();

        for (int i = 0; i < ids.length; i++) {

            Document doc = new Document();

            doc.add(new IntField("id", ids[i], Field.Store.YES));

            doc.add(new StringField("city", citys[i], Field.Store.YES));

            doc.add(new TextField("desc", descs[i], Field.Store.YES));

            writer.addDocument(doc); // 添加文档

        }

        writer.close();

    }

    public static void main(String[] args) throws Exception {

        new Indexer().index("D:\\lucene\\luceneIndex");

    }

}

高亮部分：在得到搜索结果后

QueryScorer scorer = new QueryScorer(query);// 查询得分
Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);// 得到得分的片段，就是得到一段包含所查询的关键字的摘要
SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter(
"<b><font color='red'>", "</font></b>");// 对查询的数据格式化；无参构造器的默认是将关键字加粗
Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer);// 根据得分和格式化
highlighter.setTextFragmenter(fragmenter);// 设置成高亮

package com.wp.lucene;

import java.io.StringReader;

import java.nio.file.Paths;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.search.highlight.Fragmenter;

import org.apache.lucene.search.highlight.Highlighter;

import org.apache.lucene.search.highlight.QueryScorer;

import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

import org.apache.lucene.search.highlight.SimpleSpanFragmenter;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

public class Searcher {

    public static void search(String indexDir, String q) throws Exception {

        Directory dir = FSDirectory.open(Paths.get(indexDir));

        IndexReader reader = DirectoryReader.open(dir);

        IndexSearcher is = new IndexSearcher(reader);

        // Analyzer analyzer=new StandardAnalyzer(); // 标准分词器

        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();

        QueryParser parser = new QueryParser("desc", analyzer);

        Query query = parser.parse(q);

        long start = System.currentTimeMillis();

        TopDocs hits = is.search(query, 10);

        long end = System.currentTimeMillis();

        System.out.println("匹配 " + q + " ，总共花费" + (end - start) + "毫秒" + "查询到"

                + hits.totalHits + "个记录");

        QueryScorer scorer = new QueryScorer(query);// 查询得分

        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);// 得到得分的片段，就是得到一段包含所查询的关键字的摘要

        SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter(

                "<b><font color='red'>", "</font></b>");// 对查询的数据格式化；无参构造器的默认是将关键字加粗

        Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer);// 根据得分和格式化

        highlighter.setTextFragmenter(fragmenter);// 设置成高亮

        for (ScoreDoc scoreDoc : hits.scoreDocs) {

            Document doc = is.doc(scoreDoc.doc);

            System.out.println(doc.get("city"));

            System.out.println(doc.get("desc"));

            String desc = doc.get("desc");

            if (desc != null) {

                TokenStream tokenStream = analyzer.tokenStream("desc",

                        new StringReader(desc));// TokenStream将查询出来的搞成片段，得到的是整个内容

                System.out.println(highlighter.getBestFragment(tokenStream,

                        desc));// 将权重高的摘要显示出来，得到的是关键字内容

            }

        }

        reader.close();

    }

    public static void main(String[] args) {

        String indexDir = "D:\\lucene6";

        String q = "南京文明";

        try {

            search(indexDir, q);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

Java小生店铺：

Pc端：http://shop125970977.taobao.com/index.htm

手机端：搜索 java小生店铺

希望店铺的资料能帮助到你！！！

lucene之中文分词及其高亮显示(五)的更多相关文章

lucene之中文分词及其高亮显示
参考:http://www.cnblogs.com/lirenzhujiu/p/5914174.html http://www.cnblogs.com/xing901022/p/3933675.htm ...
Lucene基础（三）-- 中文分词及高亮显示
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按 ...
【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示4
前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用 ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Re ...
（七）lucene之中文检索和高亮显示以及摘要
前提:本章节使用lucene5.3.0版本,luke也是此版本的. 1.1 生成索引 package com.shyroke.lucene; import java.io.IOException; ...
Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
IKAnalyzer结合Lucene实现中文分词
1.基本介绍随着分词在信息检索领域应用的越来越广泛,分词这门技术对大家并不陌生.对于英文分词处理相对简单,经过拆分单词.排斥停止词.提取词干的过程基本就能实现英文分词,单对于中文分词而言,由于语义的 ...
Lucene的中文分词器
1 什么是中文分词器学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分 ...
Lucene整理--中文分词
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/hai_cheng001/article/details/37511379 看lucene主页(htt ...

随机推荐

sql行转列实例
select gh ,xm , max(A.bz) as bz , max(A.jcz) as jcz , max(A.dl) as dl , max(A.czzx) as czzx , max(A. ...
Spring Boot 构建电商基础秒杀项目 (十) 交易下单
SpringBoot构建电商基础秒杀项目学习笔记新建表 create table if not exists order_info ( id varchar(32) not null defaul ...
Tunnel Warfare（线段树取连续区间）
emmmmmmmm我菜爆了思路来自:https://blog.csdn.net/chudongfang2015/article/details/52133243 线段树最难的应该就是要维护什么东西 ...
思路一般创建展示类时候例如page类会在网页上新增多个对应字段的隐藏域用于存储值
思路一般创建展示类时候例如page类会在网页上新增多个对应字段的隐藏域用于存储值
Nginx geo模块
geo 模块默认编译进nginx 可以通过--without-http_geo_module禁用 Syntax: geo [$address] $variable { ... } Default: — ...
BZOJ2127happiness——最小割
题目描述高一一班的座位表是个n*m的矩阵,经过一个学期的相处,每个同学和前后左右相邻的同学互相成为了好朋友.这学期要分文理科了,每个同学对于选择文科与理科有着自己的喜悦值,而一对好朋友如果能同时选文 ...
基准对象object中的基础类型----数字 (二)
object有如下子类: CLASSES object basestring str unicode buffer bytearray classmethod complex dict enumera ...
[SDOI2015] 寻宝游戏
传送门:>Here< 题意:给出一棵树(有边权),刚开始键值全部为0.每次对其中一个键值进行异或,问每一次修改之后:选择任意一个点出发走到所有为1的点再走回来的最短路解题思路由于N,M ...
解决sublime text3 中文字符乱码
前言由于系统编码问题导致的中文乱码解决,linux和windows解决方式都一样. 流程 linux下两步都需要,windows下只需要第二步. 1.在package install中搜索安装:co ...
卢卡斯定理&扩展卢卡斯定理
卢卡斯定理求$C_m^n~mod~p$ 设\(m={a_0}^{p_0}+{a_1}^{p_1}+\cdots+{a_k}^{p_k},n={b_0}^{p_0}+{b_1}^{p_1}+\cd ...

lucene之中文分词及其高亮显示(五)

lucene之中文分词及其高亮显示(五)的更多相关文章

随机推荐

热门专题