lucene中创建索引库

package com.hope.lucene;

import org.apache.commons.io.FileUtils;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.*;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.junit.Test;

import java.io.File;

/**
 * @author newcityman
 * @date 2020/1/15 - 0:01
 */
public class LuceneFirst {

    /**
     * 创建索引
     * @throws Exception
     */
    @Test
    public void createIndex() throws  Exception{
        //1、创建一个Director对象，指定索引库保存的位置
        //把索引库保存到磁盘
        Directory directory = FSDirectory.open(new File("G:\\workspace_idea3\\lucene\\temp\\index").toPath());
        //2、基于Directory对象，创建一个IndexWriter对象
        IndexWriter indexWriter = new IndexWriter(directory,new IndexWriterConfig());
        //3、读取磁盘上的文件，对应每个文件创建一个文档对象
        File file = new File("G:\\workspace_idea3\\lucene\\temp\\searchsource");
        File[] files = file.listFiles();
        for (File f : files) {
            //取文件名
            String fileName = f.getName();
            //取文件路径
            String filePath = f.getPath();
            //取文件内容
            String fileContent = FileUtils.readFileToString(f, "utf-8");
            //文件大小
            long fileSize = FileUtils.sizeOf(f);

            //创建Field
            TextField fieldName = new TextField("name", fileName, Field.Store.YES);
            TextField fieldPath = new TextField("path", filePath, Field.Store.YES);
            TextField fieldContent = new TextField("content", fileContent, Field.Store.YES);
            TextField fieldSize = new TextField("size", fileSize+"", Field.Store.YES);

            //4、向文档对象中添加Field
            //创建文档
            Document document = new Document();
            document.add(fieldName);
            document.add(fieldPath);
            document.add(fieldContent);
            document.add(fieldSize);
            //5、把文档对象写入到索引库中
            indexWriter.addDocument(document);
        }
        //6、关闭indexWriter对象
            indexWriter.close();
    }

    /**
     * 查询索引
     * @throws Exception
     */
    @Test
    public void  searchIndex() throws  Exception{
        //1、创建一个Directory对象，指定索引库位置
        Directory directory = FSDirectory.open(new File("G:\\workspace_idea3\\lucene\\temp\\index").toPath());
        //2、创建IndexReader对象
        IndexReader indexReader = DirectoryReader.open(directory);
        //3、创建IndexSearch对象
        IndexSearcher indexSearcher = new IndexSearcher(indexReader);
        //4、创建Query对象，TermQuery对象
        TermQuery termQuery = new TermQuery(new Term("content", "spring"));
        //5、执行查询TopDocs
        //参数1：查询对象   参数2：查询结果返回的最大记录数
        TopDocs topDocs = indexSearcher.search(termQuery, 10);
        //6、取查询结果的总记录数
        System.out.println("查询总记录数："+topDocs.totalHits);
        //7、取文档列表
        ScoreDoc[] scoreDocs = topDocs.scoreDocs;
        //8、打印文档内容
        for (ScoreDoc scoreDoc : scoreDocs) {
            //取文档id
            int docId = scoreDoc.doc;
            //根据id取文档对象
            Document document = indexSearcher.doc(docId);
            System.out.println(document.get("name"));
            System.out.println(document.get("path"));
            System.out.println(document.get("size"));
           // System.out.println(document.get("content"));
            System.out.println("++++++++++++++++++++++++++++++");
        }
        //9、关闭IndexReader对象
       indexReader.close();
    }

/**
 * 查询标准分词器的分词效果
 *
 * @throws Exception
 */
@Test
public void testTokenStream() throws Exception {
    // 1、创建一个Analyzer对象，StrandAnalyzer对象
    Analyzer analyzer = new StandardAnalyzer();
    // 2、使用分词器对象的tokenStream方法获取一个TokenStream对象
    TokenStream tokenStream = analyzer.tokenStream("", "Learn how to create a web page with Spring MVC.");
    // 3、向TokenStream对象中设置一个引用，相当于一个指针
    CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    // 4、调用TokenStream对象的reset方法，如果不调用会抛异常
    tokenStream.reset();
    // 5、使用while循环遍历TokenStream对象
    while (tokenStream.incrementToken()) {
        System.out.println(charTermAttribute.toString());
    }
    // 6、关闭TokenStream对象
    tokenStream.close();
}

lucene中创建索引库的更多相关文章

lucene简介创建索引和搜索初步
lucene简介创建索引和搜索初步一.什么是Lucene? Lucene最初是由Doug Cutting开发的,2000年3月,发布第一个版本,是一个全文检索引擎的架构,提供了完整的查询引擎和索引 ...
HBase中创建索引
hbasene(https://github.com/akkumar/hbasene)是开源项目,在hbase存储上封装使用Lucene来创建索引,代码API非常简单,熟悉lucene的朋友可以很方便 ...
lucene入门创建索引——（二）
1.程序宏观结构图
在Linux中创建静态库.a和动态库.so
转自:http://www.cnblogs.com/laojie4321/archive/2012/03/28/2421056.html 在Linux中创建静态库.a和动态库.so 我们通常把一些公用 ...
在Linux中创建静态库和动态库
我们通常把一些公用函数制作成函数库,供其它程序使用. 函数库分为静态库和动态库两种. 静态库在程序编译时会被连接到目标代码中,程序运行时将不再需要该静态库. 动态库在程序编译时并不会被连接到目标代码中 ...
在Linux中创建静态库和动态库（转）
我们通常把一些公用函数制作成函数库,供其它程序使用.函数库分为静态库和动态库两种.静态库在程序编译时会被连接到目标代码中,程序运行时将不再需要该静态库.动态库在程序编译时并不会被连接到目标代码中,而 ...
elasticsearch kabana中创建索引
在kabana中创建索引和索引类型语法 PUT clockin{ "mappings": { "time": { } }} 查询索引下的所有数据 GET clo ...
Elasticsearch之curl创建索引库
关于curl的介绍,请移步 Elasticsearch学习概念之curl 启动es,请移步 Elasticsearch的前后台运行与停止(tar包方式) Elasticsearch的前后台运行与停止( ...
Elasticsearch之curl创建索引库和索引时注意事项
前提, Elasticsearch之curl创建索引库 Elasticsearch之curl创建索引注意事项 1.索引库名称必须要全部小写,不能以下划线开头,也不能包含逗号 2.如果没有明确指定索引 ...

随机推荐

重磅｜Apache ShardingSphere 5.0.0 即将正式发布
Apache ShardingSphere 5.0.0 GA 版在经历 5.0.0-alpha 及 5.0.0-beta 接近两年时间的研发和打磨,终于将在 11 月份与大家正式见面! 11 月 10 ...
CobaltStrike上线Linux
为获得最佳的阅读体验,请访问我的个人主页: https://xzajyjs.cn/ 在红蓝对抗中,我们常需要对目标进行长时间的控制,cobaltstrike原生对于上线windows比较轻松友好,但如 ...
Django笔记&教程 1-2 二常用配置
Django 自学笔记兼学习教程第1章第2节--二常用配置点击查看教程总目录新手建议简单浏览本文,不理解的建议跳过,不要强行理解. Django的设置涉及多个模块,需要了解Django的一些相关 ...
gorm框架表名自动加s问题
查看日志会发现表名自动加了s 在model实现以下方法即可解决 type UsUser struct { ID int64 `gorm:"column:id" db:"c ...
mysql 数据库中 int(3) 和 int(11) 有区别么？？？
今天去面试的时候面试官问到了这个问题:int(3) 和 int(11) 有什么区别?? 当时一听有点蒙,(不知道为什么蒙,后来回来想想可能是觉得考官怎么会问这么简单的问题呢,所以蒙了),当时我的回答 ...
jpg与jpeg的区别在哪
JPG文件的优点是体积小巧,并且兼容性好,因为大部分的程序都能读取这种文件,这是因为JPG格式不仅是一个工业标准格式,而且更是web的标准文件格式.JPG文件如此拥有如此便利的条件,难怪得到了业余玩家 ...
[bzoj1735]泥泞的牧场
考虑木板一定都尽量长,对于每一个污泥,最多只有两种木板会覆盖它(横着和竖的),将这两块木板连边,意味着每一条边两端端点中一定有一个点要被选,即最小点覆盖=最大匹配数. 1 #include<bi ...
[loj3315]抽卡
令$S$表示对于某一种抽卡顺序中某一段长度为$k$的段全部被抽到的时间(这里没有期望)所构成的集合,根据$min-max$容斥的公式,有$E(\min(S))=\sum_{T\subseteq S}( ...
Go语言核心36讲（Go语言实战与应用十六）--学习笔记
38 | bytes包与字节串操作(上) 前导内容: bytes.Buffer基础知识 strings包和bytes包可以说是一对孪生兄弟,它们在 API 方面非常的相似.单从它们提供的函数的数量和功 ...
Java异常与错误
Java错误与异常三种类型的异常检查性异常:用户错误或问题引起的异常,这是程序员无法预见的.例如要打开一个不存在文件时,一个异常就发生了,这些异常在编译时不能被简单的忽略运行时异常:运行时异常是 ...

lucene中创建索引库

lucene中创建索引库的更多相关文章

随机推荐

热门专题