LuceneTest

/**
 * Created by mhm on 2019/6/24.
 */
@RunWith(SpringJUnit4ClassRunner.class)
public class LuceneTest {

    @Test
    public void test1() throws IOException {
        /**
         * 1.准备数据 文档对象
         * Document 封装数据 要创建索引的数据必须先放着Document
         *
         * id 1
         * title 背影
         * author 朱自清
         * content 你站在这里不要动，我去给你买几个橘子
         *
         * Field 封装数据 实体类中一个属性数据封装在一个Field对象中
         * 八种基本类型 StringField 数据不会做分词处理
         * TextField 文本Field 数据会分词
         *
         * 参数1：name 属性名
         * 参数2：value 属性值
         * 参数3：Field.Store.YES
         */
        Document document = new Document();
        document.add(new IntField("id",1, Field.Store.YES));
        document.add(new TextField("title","背影",Field.Store.YES));
        document.add(new StringField("author","朱自清",Field.Store.YES));
        document.add(new TextField("content","你站在这里不要动，我去给你买几个橘子",Field.Store.YES));

        /**
         * 2.扫描数据 创建索引
         *
         * IndexWriter 索引写出对象
         * 作用
         * 1.将索引持久化 实际上就是流
         * 2.定义分词规则 分词器（别人封装好的分词规则）
         *
         * 参数1：Directory 指明索引保存的位置 这个文件夹的位置就是索引库
         * 参数2：IndexWriterConfig 索引写出配置对象 定义分词规则
         * IndexWriterConfig
         * 参数1：Lucene的版本
         * 参数2：分词器对象
         */

        FSDirectory fsDirectory = FSDirectory.open(new File("E://Lucene"));
        /**
         * StandardAnalyzer 标准分词器
         */
        StandardAnalyzer standardAnalyzer = new StandardAnalyzer(Version.LUCENE_44);
        IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_44,standardAnalyzer);
        IndexWriter indexWriter = new IndexWriter(fsDirectory,indexWriterConfig);

        /**
         * 3.addDocument 把原始数据给写出对象
         * indexWriter 会把原始数据写出到索引库 在写出的同时indexWriter会自动的扫描原始数据创建索引
         */
        indexWriter.addDocument(document);
        /**
         * 4.将索引提交到索引库
         */
        indexWriter.commit();
        /**
         * 5.释放资源
         */
        indexWriter.close();
    }
    /**
     * 查询
     */
    @Test
    public void test2() throws ParseException, IOException {
        /**
         * 1. 准备关键词
         */
        String keyword = "你站在这里不要动";
        /**
         * 2. 处理关键词（拆分） Query对象（封装了拆分好的关键词）
         * MultiFieldQueryParser 关键词处理对象 可以将关键词处理为Query对象
         * 参数1：版本
         * 参数2：属性名的数组（被查询的属性）
         * 参数3：分词器对象 拆分词语 必须和创建的索引时候的分词器一致
         *
         * parse 方法处理关键词
         */
        String[] fileds = {"title","content"};
        MultiFieldQueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_44,fileds,new StandardAnalyzer(Version.LUCENE_44));
        Query query = queryParser.parse(keyword);
        /**
         * 3. 用处理好的关键词 查索引
         *
         * 把索引库读取到JVM里面（内存）
         * IndexSearcher 索引查询对象
         * 参数1：索引读取对象
         *
         * DirectoryReader.open() 读取索引库
         * 参数1：FSDirectory File System 文件系统 指的就是磁盘
         *
         */
        FSDirectory directory = FSDirectory.open(new File("E://Lucene"));
        DirectoryReader directoryReader = DirectoryReader.open(directory);
        IndexSearcher indexSearcher = new IndexSearcher(directoryReader);
        /**
         * 4. 通过查到的索引中的位置信息 获取数据
         *
         * search()
         * 参数1：处理好的关键词
         * 参数2：期望结果条数 你想要查到最多多少条信息
         *
         * 返回值 TopDocs 封装了结果的信息（索引 分数等待）
         *
         */
        TopDocs topDocs = indexSearcher.search(query, 10);
        /**
         * ScoreDoc 分数和文档对象的数组
         * 封装了分数和Document的docId（Lucene在创建索引的时候自动生成的 就是位置信息）
         *
         * Lucene在创建索引库的时候，不仅创建了索引，还把原始数据Document对象也放在了索引库中
         */
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        System.out.println(Arrays.toString(scoreDocs));
        /**
         * 5.通过位置信息docId去索引库中获取原始数据
         */
        for (int i = 0; i < scoreDocs.length; i++) {
            ScoreDoc scoreDoc = scoreDocs[i];
            // 获取docId
            int docId = scoreDoc.doc;
            // 通过docId获取索引库中对应的Document对象（对象中封装了原始数据）
            Document document = indexSearcher.doc(docId);
            System.out.println(document);
            String id = document.get("id");
            String title = document.get("title");
            String author = document.get("author");
            String content = document.get("content");
            System.out.println(id+" "+title+" "+author+" "+content);
        }
    }
}

LuceneTest的更多相关文章

MVC+MQ+WinServices+Lucene.Net Demo
前言: 我之前没有接触过Lucene.Net相关的知识,最近在园子里看到很多大神在分享这块的内容,深受启发.秉着“实践出真知”的精神,再结合公司项目的实际情况,有了写一个Demo的想法,算是对自己能力 ...
lucene4.7学习总结
花了一段时间学习lucene今天有时间把所学的写下来,网上有很多文章但大部分都是2.X和3.X版本的(当前最新版本4.9),希望这篇文章对自己和初学者有所帮助. 学习目录 (1)什么是lucene ( ...
lucene之排序、设置权重、优化、分布式搜索(转)
lucene之排序.设置权重.优化.分布式搜索(转) 1. 基本应用 using System;using System.Collections.Generic;using System.Text;u ...
lucene创建索引简单示例
利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): packa ...
apache pdfbox
转 http://www.blogjava.net/sxyx2008/archive/2010/07/23/326890.html 轻松使用apache pdfbox将pdf文件生成图近期在项目中使 ...
MVC+MQ+WinServices+Lucene.Net
MVC+MQ+WinServices+Lucene.Net Demo 前言: 我之前没有接触过Lucene.Net相关的知识,最近在园子里看到很多大神在分享这块的内容,深受启发.秉着“实践出真知”的精 ...
Spring AOP中的动态代理
0 前言 1 动态代理 1.1 JDK动态代理 1.2 CGLIB动态代理 1.2.1 CGLIB的代理用法 1.2.2 CGLIB的过滤功能 2 Spring AOP中的动态代理机制 2.1 ...
使用Lucene全文检索并使用中文版和高亮显示
使用Lucene全文检索并使用中文版和高亮显示中文分词需要引入中文分词发的jar 包,咱们从maven中获取  <dependency&g ...
Lucene 搜索的初步探究
搜索应用程序和 Lucene 之间的关系一般的搜索引擎都会采用这样的 Lucene 采用的是一种称为反向索引(inverted index)的机制.反向索引就是说我们维护了一个词 / 短语表,对于这 ...

随机推荐

Hibernate的优化方案
使用参数绑定使用绑定参数的原因是让数据库一次解析SQL,对后续的重复请求可以使用生成好的执行计划,这样做节省CPU时间和内存. 避免SQL注入. 尽量少使用NOT 如果where子句中包含not关键 ...
NYOJ247 虚拟城市之旅（spfa）
题目链接:点击打开链接虚拟的城市之旅时间限制: ms | 内存限制: KB 难度: 描述展馆是未来城市的缩影,个人体验和互动是不变的主题.在A国展馆通过多维模式和高科技手段,引领参观者在展示 ...
Web攻击技术---OWASP top
整理OWASP top 10 部分内容,方便日后查看.想深入了解的,请移步参考中的网站. OWASP Top 10 注入将不受信任的数据作为命令或者查询的一部分发送到解析器时,会发生诸如SQL注入. ...
安居客scrapy房产信息爬取到数据可视化(下)-可视化代码
接上篇:安居客scrapy房产信息爬取到数据可视化(下)-可视化代码,可视化的实现~ 先看看保存的数据吧~ 本人之前都是习惯把爬到的数据保存到本地json文件, 这次保存到数据库后发现使用mongod ...
PIE使IE浏览器支持CSS3属性（圆角、阴影、渐变）
http://www.360doc.com/content/12/1214/09/11181348_253939277.shtml PIE使IE浏览器支持CSS3属性(圆角.阴影.渐变) 2012-1 ...
python入门之socket代码练习
Part.1 简单的socket单次数据传输服务端: #服务器端 import socket server = socket.socket() # 声明socket类型,同时生成socket连接对象 ...
HBase 相关API操练(三)：MapReduce操作HBase
MapReduce 操作 HBase 在 HBase 系统上运行批处理运算,最方便和实用的模型依然是 MapReduce,如下图所示. HBase Table 和 Region 的关系类似 HDFS ...
关于docker下容器和宿主机器时间不一致问题
在前几天,在阿里云的ECS上部署一个docker应用时,发现部署的应用在请求第三方应用时,一直出现超时的异常提示,刚开始以为是第三方应用系统的问题(此系统无赖躺枪,反正也不是一次两次了,多躺几次也就习 ...
C#字符串自增自减算法
本文URL:http://www.cnblogs.com/CUIT-DX037/p/6770535.html 实现字符串自增和自减运算: 1.数字从 0-9 变化: 2.字母从 A-Z.a-z 变化: ...
css清除浮动好方法
1.clear:both ==>IE6,7会有高度,所以去高度需要.clear{ clear:both; height:0px; margin:0; padding:0; width:0; bo ...

LuceneTest

LuceneTest的更多相关文章

随机推荐

热门专题