全文检索的Demo

用到lucene版本为6.3.0版本，利用的分词器为IKAnalyzer分词器，该分词对中文有较好的支持。关于支持lucene的6.xx以上的IkAnalyzer分词jar包下载地址：https://pan.baidu.com/s/1i5DreTZ

密码：2frx

package com.cn.shupu.util;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.Reader;

import java.nio.file.Paths;

import javax.management.Query;

import org.apache.ibatis.javassist.bytecode.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.Field.Store;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.index.IndexableField;

import org.apache.lucene.index.IndexableFieldType;

import org.apache.lucene.index.LogByteSizeMergePolicy;

import org.apache.lucene.index.LogMergePolicy;

import org.apache.lucene.index.Term;

import org.apache.lucene.index.IndexWriterConfig.OpenMode;

import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;

import org.apache.lucene.queryparser.classic.ParseException;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.Sort;

import org.apache.lucene.search.SortField;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.search.BooleanClause.Occur;

import org.apache.lucene.search.highlight.Fragmenter;

import org.apache.lucene.search.highlight.Highlighter;

import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;

import org.apache.lucene.search.highlight.QueryScorer;

import org.apache.lucene.search.highlight.SimpleFragmenter;

import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.store.RAMDirectory;

import org.apache.lucene.util.BytesRef;

import org.apache.xmlbeans.impl.store.Path;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class LuceneUtils {

    // 索引文件的存放路径

    private static String indexPath = "D://index/path";

    // 要索引的文件(假如要索引的文件类型为txt文件)

    private static String tarPath = "D://font//管理学（第四版）.txt";

    // 创建索引的方法

    public static void createIndex() {

        File filDir = new File(tarPath);

        File idnexDir = new File(indexPath);

        Boolean create = true;

        if (!idnexDir.exists()) {

            idnexDir.mkdirs();

        }

        // 创建文件索引

        try {

            Directory directroy = FSDirectory.open(Paths.get(indexPath));

            // 创建内存索引

            RAMDirectory ramDirectory = new RAMDirectory();

            // 创建分词器

            // 1.创建 SmartChineseAnalyze分词器

            // SmartChineseAnalyzer analyzer=new SmartChineseAnalyzer();

            // 2.创建StantdarAnalyzer

            // StandardAnalyzer analyzer = new StandardAnalyzer();

            // 3.创建IKAnalyzer

            IKAnalyzer analyzer = new IKAnalyzer();

            // 尚未初始化，因为第一次执行分词的时候才会初始化，为了在执行分此前手动添加额外的字典，需要先手动的初始化一下

            /*

             * Configuration cfg = DefaultConfig.getInstance(); // 加载词库

             * cfg.setUseSmart(true); // 设置智能分词

             * org.wltea.analyzer.dic.Dictionary.initial(cfg);

             *

             * org.wltea.analyzer.dic.Dictionary dictionary =

             * org.wltea.analyzer.dic.Dictionary.getSingleton();

             *

             * List<String> newWords = new ArrayList<>();

             *

             * for (BaseLib book : books) {

             *

             * newWords.add(book.getName());

             *

             * } dictionary.addWords(newWords);// 自动添加自定义分词

             */

            // 创建索引器之前的初始化

            IndexWriterConfig iwc = new IndexWriterConfig(analyzer);

            IndexWriterConfig rwc = new IndexWriterConfig(analyzer);

            // SetMergeFactor是控制segment合并频率的，其决定了一个索引块中包括多少个文档，当硬盘上的索引块达到多少时，

            // 将它们合并成一个较大的索引块。当MergeFactor值较大时，生成索引的速度较快。MergeFactor的默认值是10，建议在建立索引前将其设置的大一些。

            LogMergePolicy mergePolicy = new LogByteSizeMergePolicy();

            mergePolicy.setMergeFactor(100);

            iwc.setMergePolicy(mergePolicy);

            iwc.setRAMBufferSizeMB(2048);

            iwc.setMaxBufferedDocs(1000);

            iwc.setMaxBufferedDocs(1000);

            if (create) {

                // Create a new index in the directory, removing any

                // previously indexed documents:

                // 在目录中创建一个新的索引,删除任何先前生成的索引文档

                rwc.setOpenMode(OpenMode.CREATE);

            } else {

                // Add new documents to an existing index:

                // 新文档添加到一个现有的指数

                rwc.setOpenMode(OpenMode.CREATE_OR_APPEND);

            }

            // 文件索引生成器

            IndexWriter fileWriter = new IndexWriter(directroy, iwc);

            // 内存索引生成器

            IndexWriter ramWriter = new IndexWriter(ramDirectory, rwc);

            // 现将索引添加到内存索引中

            // 创建文档

            Document document = new Document();

            // 添加term,term为索引文件中最小的单位，就像数据库中每一表的field。

            // 获取文件的内容

            String content = getTxt(filDir);

            // 其中Store.YESb表示索引的内容要保存的，Store.NO表示索引内容只索引不保存

            document.add(new TextField("path", filDir.getAbsolutePath(), Store.YES));

            document.add(new TextField("content", content, Store.YES));

            // 根据文件的初始的OpenMode来对文件索引的添加或修改

            if (ramWriter.getConfig().getOpenMode() == OpenMode.CREATE) {

                System.out.println("adding " + filDir.getAbsolutePath());

                ramWriter.addDocument(document);

            } else {

                System.out.println("updating " + filDir.getAbsolutePath());

                ramWriter.updateDocument(new Term("path", filDir.toString()), document);

            }

            ramWriter.close();

            // 将内存索引添加文件索引中，永久保存。内存索引只是暂时的保存索引文件，当程序结束时，内存索引的文件会消失

            fileWriter.addIndexes(new Directory[] { ramDirectory });

            fileWriter.forceMerge(1000);

            fileWriter.maybeMerge();

            fileWriter.close();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    /**

     * 121 * 读取txt文件的内容 122 * @param file 想要读取的文件对象 123 * @return 返回文件内容 124

     */

    public static String getTxt(File file) {

        String result = "";

        try {

            BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(file), "GBK"));

            String s = null;

            while ((s = br.readLine()) != null) {// 使用readLine方法，一次读一行

                result = result + "\n" + s;

            }

            br.close();

        } catch (Exception e) {

            e.printStackTrace();

        }

        return result;

    }

    public static void searchByKeyWord(String keyWord) {

        try {

            Directory directory = FSDirectory.open(Paths.get(indexPath));

            // 采用IkAnalyzer,其中true为智能分词。

            IKAnalyzer analuzer = new IKAnalyzer(true);

            // 创建索引的读器

            IndexReader ireader = DirectoryReader.open(directory);

            // 创建索引的搜索器

            IndexSearcher isearcher = new IndexSearcher(ireader);

            String[] stringQuery = { keyWord, keyWord };// 查询关键词的数组

            String[] fields = { "path", "content" };// 多字段查询的值域

            // Occur.MUST表示对应字段必须有查询值， Occur.MUST_NOT

            // 表示对应字段必须没有查询值，Occur.SHOULD表示对应字段应该存在查询值（但不是必须）

            Occur[] occ = { Occur.SHOULD, Occur.SHOULD };

            org.apache.lucene.search.Query query = null;

            try {

                query = MultiFieldQueryParser.parse(stringQuery, fields, occ, analuzer);

            } catch (ParseException e) {

                // TODO Auto-generated catch block

                e.printStackTrace();

            }

            /*

             * // 只对content进行检索 QueryParser parser = new QueryParser("contents",

             * analyzer);

             *

             * Query query = parser.parse(text);

             */

            // 排序

            SortField sf = new SortField(keyWord, SortField.Type.STRING_VAL, true);

            Sort sort = new Sort(sf);

            int count;

            // 获取一共多少条数据

            TopDocs docs = null;

            ScoreDoc[] hits = null;

            docs = isearcher.search(query, Integer.MAX_VALUE, sort);

            hits = docs.scoreDocs;

            // 假如用到分页的时候，用 docs =

            // isearcher.searchAfter(results.scoreDocs[page.getAfterDocId()],

            // query, page.getPagesize(), sort);

            for (int i = 0; i < hits.length; i++) {

                Document doc = isearcher.doc(hits[i].doc);

                System.out.println("文件路径：" + doc.get("path"));

                String content = doc.get("content");

                // 查询字段高亮操作 其中100为字符长度可以自动修改的;

                String s = null;

                try {

                    s = displayHtmlHighlight(query, analuzer, "content", content, 290);

                } catch (InvalidTokenOffsetsException e) {

                    // TODO Auto-generated catch block

                    e.printStackTrace();

                }

                System.out.println("内容：" + s);

            }

            ireader.close();

            directory.close();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    /**

     * 获取高亮显示结果的html代码

     *

     * @param query

     *            查询

     * @param analyzer

     *            分词器

     * @param fieldName

     *            域名

     * @param fieldContent

     *            域内容

     * @param fragmentSize

     *            结果的长度（不含html标签长度）

     * @return 结果（一段html代码）

     * @throws IOException

     * @throws InvalidTokenOffsetsException

     */

    static String displayHtmlHighlight(org.apache.lucene.search.Query query,

            org.apache.lucene.analysis.Analyzer analyzer, String fieldName, String fieldContent, int fragmentSize)

            throws IOException, InvalidTokenOffsetsException {

        // 创建一个高亮器

        Highlighter highlighter = new Highlighter(new SimpleHTMLFormatter("<font color='red'>", "</font>"),

                new QueryScorer(query));

        Fragmenter fragmenter = new SimpleFragmenter(fragmentSize);

        highlighter.setTextFragmenter(fragmenter);

        return highlighter.getBestFragment(analyzer, fieldName, fieldContent);

    }

    public static void main(String[] args) {

        //本Demo只对txt文件类型做的索引

        createIndex();

        searchByKeyWord("管理");

    }

}

全文检索的Demo的更多相关文章

Apache Lucene(全文检索引擎)—分词器
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
Apache Lucene(全文检索引擎)—创建索引
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
全文检索原理以及es
最近要做个文章搜索,对全文检索原理以及es原理进行了一些调研, 1. es索引文件为多个文本文件描述,索引文件中的内容构成可见 http://elasticsearch.cn/article/86 ...
【手把手教你全文检索】Lucene索引的【增、删、改、查】
前言搞检索的,应该多少都会了解Lucene一些,它开源而且简单上手,官方API足够编写些小DEMO.并且根据倒排索引,实现快速检索.本文就简单的实现增量添加索引,删除索引,通过关键字查询,以及更新索 ...
SOLR (全文检索)
SOLR (全文检索) http://sinykk.iteye.com/ 1. 什么是SOLR 官方网站 http://wiki.apache.org/solr http://wiki.apach ...
oracle 全文检索
一.使用 sys 用户登录oracle (1)运行—cmd—sqlplus — sys/密码 @连接字符 as sysdba 二.授权 1.grant ctxapp to 全文检索使用用户: 2.gr ...
Lucene全文检索（一）
全文检索的概念 1.从大量的信息中快速.准确的查找要的信息2.收索的内容是文本信息3.不是根据语句的意思进行处理的(不处理语义)4.全面.快速.准确是衡量全文检索系统的关键指标.5.搜索时英文不区分大 ...
Lucene搜索引擎例子demo
一.导入相应的jar包 KAnalyzer3.2.0Stable.jar lucene-analyzers-3.0.1.jar lucene-core-3.0.1.jar lucene-highlig ...
全文检索Lucene (2)
接着全文检索Lucene (1) . 下面我们来深入的研究一下,如何使用Lucene! 从全文检索Lucene (1)中我们可以看出,Lucene就好比一个双向的工作流,一方面是对索引库的维护,另一方 ...

随机推荐

DUBBO分布式入门
Dubbox框架简介: Dubbox是一个分布式服务框架,其前身是阿里巴巴开源项目Dubbo,被国内电商及互联网项目广泛使用,但是后阿里巴巴对该项目停止维护了,当当网后来组建了一个团队一直维护Dubb ...
Python自然语言处理笔记【二】文本分类之监督式分类的细节问题
一.选择正确的特征 1.建立分类器的工作中如何选择相关特征,并且为其编码来表示这些特征是首要问题. 2.特征提取,要避免过拟合或者欠拟合过拟合,是提供的特征太多,使得算法高度依赖训练数据的特性,而对 ...
SQL语句汇总（二）——数据修改、数据查询
SQL语句第二篇,不说废话直接开始吧. 首先创建一张表如下,创建表的方法在上篇介绍过了,这里就不再赘述. 添加新数据: INSERT INTO <表名> (<列名列表>) VA ...
【Alpha】Scrum Meeting 6
目录前言任务分配燃尽图会议照片签入记录困难前言第6次会议在4月10日22:00由PM在一公寓三楼召开. 交流确认了任务进度,对下一阶段任务进行分配.时长15min. 任务分配姓名当 ...
kvm键盘使用
在新建导向的时候最后一步之前,选择查看细节那里,在desplay的地方选择VNC server ,再在keyboard地方选择us-en,这下进入安装界面就可以了.
tomcat下面web应用发布路径配置 ( 即虚拟目录配置 )
https://blog.csdn.net/AnQ17/article/details/52122236
Linux 安装搭建 tftpd 服务器
---------- For Ubantu 18.0.4 ---------- 0.安装tftp-server sudo apt-get install tftpd-hpa (服务器端) sudo a ...
Learning-Python【25】：绑定方法与非绑定方法
类中定义函数分为了两大类,绑定方法与非绑定方法,它们有一些特殊之处: 1.绑定方法特殊之处:绑定给谁就应该由谁来调用,谁来调用就会将谁当做第一个参数自动传入绑定给对象的方法:这个在面向对象第一篇第六 ...
C# 关闭子窗体释放子窗体对象问题
1 在主窗口中实例化子窗口 Form2 f2 = new Form2(); 2 通过按钮来显示子窗口 f2.Show(); 3 关闭子窗口而不释放子窗口对象的方法 protected override ...
LeetCode--018--四数之和（java）
给定一个包含 n 个整数的数组 nums 和一个目标值 target,判断 nums 中是否存在四个元素 a,b,c 和 d ,使得 a + b + c + d 的值与 target 相等?找出所有满 ...

全文检索的Demo

全文检索的Demo的更多相关文章

随机推荐

热门专题