[lucene系列笔记2]在eclipse里初步使用lucene的索引和查询功能

首先，new一个java project，名字叫做LuceneTools。

然后，在project里new一个class，名字叫做IndexFiles。这个类用来给文件建索引（建好索引以后就可以高效检索了）。

在写代码之前，我们要先引入一下lucene包，就类似于C语言里的include。如图：

点击之后看到如下窗口，选择“Add External JARs”

然后找到C:\Lucene-6.2.1目录下（如果是按上一篇文章配置的话应该是在这个目录里）的三个包（这里我们暂时只用到这三个包）引入工程里。之后工程大概是这个模样：

对于中文来说analyzer用smartcn那一个更好，就是除了导入analyzers-common，再导入一个analyzers-smartcn，然后代码里的StandardAnalyzer()都换成SmartChineseAnalyzer()就可以了。

下面我们就可以来写代码了。

打开IndexFiles.java文件，这里我们假设要对D:\lucenetest\files文件夹建立索引，而且，而且我们假设这个目录下只有文件而没有文件夹（为了让代码更简单），然后建立好的索引保存在D:\lucenetest\index目录下。

那么我们写入如下代码：

import java.nio.charset.StandardCharsets;

import java.nio.file.Files;

import java.nio.file.Paths;

import java.io.*;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.StringField;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

/**

 * @author song

 * @description:

 * 依赖jar：Lucene-core，lucene-analyzers-common，lucene-queryparser

 * 作用：简单的索引建立

 */

public class IndexFiles {

    public static Version luceneVersion = Version.LATEST;

    /**

     * 建立索引

     */

    public static void createIndex(){

        IndexWriter writer = null;

        try{

            //1、创建Directory

            //Directory directory = new RAMDirectory();//创建内存directory

            Directory directory = FSDirectory.open(Paths.get("D:/lucenetest/index"));//在硬盘上生成Directory00

            //2、创建IndexWriter

            IndexWriterConfig iwConfig = new IndexWriterConfig( new StandardAnalyzer());

            writer = new IndexWriter(directory, iwConfig);

            //3、创建document对象

            Document document = null;

            //4、为document添加field对象

            File f = new File("D:/lucenetest/files");//索引源文件位置

            for (File file:f.listFiles()){

                    document = new Document();

                    document.add(new StringField("path", f.getName(),Field.Store.YES));

                    System.out.println(file.getName());

                    document.add(new StringField("name", file.getName(),Field.Store.YES));

                    InputStream stream = Files.newInputStream(Paths.get(file.toString()));

                    document.add(new TextField("content", new BufferedReader(new InputStreamReader(stream, StandardCharsets.UTF_8))));//textField内容会进行分词

                    //document.add(new TextField("content", new FileReader(file)));  如果不用utf-8编码的话直接用这个就可以了

                    writer.addDocument(document);

            }

        }catch(Exception e){

            e.printStackTrace();

        }finally{

            //6、使用完成后需要将writer进行关闭

            try {

                writer.close();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

    public static void main(String[] args) throws IOException

    {

        createIndex();

    }

}

在运行之前我们先在D:\lucenetest\files文件夹下创建几个txt，比如第一个文件命名为hello.txt，第二个文件命名为test.txt。然后在里面随便写点什么内容。这里要注意的是，上面的代码是针对中文搜索的问题使用了utf-8编码，所以要求文件也是utf-8的编码。如图：

然后运行IndexFiles.java。会看到索引建立完成。D:\lucenetest目录下多了一个index文件夹。

下面我们就要用这个index来检索了。

new一个class，命名为SearchFiles。然后在里面写入如下代码：

import java.nio.file.Paths;

import java.io.*;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

/**

 * @author song

 * @description:

 * 依赖jar：Lucene-core，lucene-analyzers-common，lucene-queryparser

 * 作用：使用索引搜索文件

 */

public class SearchFiles {

    public static Version luceneVersion = Version.LATEST;

    /**

     * 查询内容

     */

    public static String indexSearch(String keywords){

        String res = "";

        DirectoryReader reader = null;

        try{

//            1、创建Directory

             Directory directory = FSDirectory.open(Paths.get("D:/lucenetest/index"));//在硬盘上生成Directory

//            2、创建IndexReader

             reader = DirectoryReader.open(directory);

//            3、根据IndexWriter创建IndexSearcher

             IndexSearcher searcher =  new IndexSearcher(reader);

//            4、创建搜索的query

//            创建parse用来确定搜索的内容，第二个参数表示搜索的域

             QueryParser parser = new QueryParser("content",new StandardAnalyzer());//content表示搜索的域或者说字段

             Query query = parser.parse(keywords);//被搜索的内容

//            5、根据Searcher返回TopDocs

             TopDocs tds = searcher.search(query, 20);//查询20条记录

//            6、根据TopDocs获取ScoreDoc

             ScoreDoc[] sds = tds.scoreDocs;

//            7、根据Searcher和ScoreDoc获取搜索到的document对象

             int cou=0;

             for(ScoreDoc sd:sds){

                 cou++;

                 Document d = searcher.doc(sd.doc);

//                    8、根据document对象获取查询的字段值

                 /**  查询结果中content为空，是因为索引中没有存储content的内容，需要根据索引path和name从原文件中获取content**/

                 res+=cou+". "+d.get("path")+" "+d.get("name")+" "+d.get("content")+"\n";

             }

        }catch(Exception e){

            e.printStackTrace();

        }finally{

            //9、关闭reader

            try {

                reader.close();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        return res;

    }

    public static void main(String[] args) throws IOException

    {

        System.out.println(indexSearch("你好")); //搜索的内容可以修改

    }

}

运行就会看到，搜索出了nihao.txt这个文件

至此，我们已经学会了简单的建立索引和搜索了~~~

[lucene系列笔记2]在eclipse里初步使用lucene的索引和查询功能的更多相关文章

[lucene系列笔记1]lucene6的安装与配置（Windows系统）
lucene是一个java开源的高效全文检索工具包,最近做项目要用到,把学习的过程记录一下. 第一步:下载安装jdk 1.首先从官网下载jdk(下载之前先查看你的电脑是多少位操作系统,如果是32就下载 ...
[lucene系列笔记3]用socket把lucene做成一个web服务
上一篇介绍了用lucene建立索引和搜索,但是那些都只是在本机上运行的,如果希望在服务器上做成web服务该怎么办呢? 一个有效的方法就是用socket通信,这样可以实现后端与前端的独立,也就是不管前端 ...
Java系列笔记(3) - Java 内存区域和GC机制
目录 Java垃圾回收概况 Java内存区域 Java对象的访问方式 Java内存分配机制 Java GC机制垃圾收集器 Java垃圾回收概况 Java GC(Garbage Collection, ...
【转载】Java系列笔记(3) - Java 内存区域和GC机制
Java系列笔记(3) - Java 内存区域和GC机制转载:原文地址http://www.cnblogs.com/zhguang/p/3257367.html 目录 Java垃圾回收概况 Java ...
Java系列笔记(4) - JVM监控与调优
目录参数设置收集器搭配启动内存分配监控工具和方法调优方法调优实例光说不练假把式,学习Java GC机制的目的是为了实用,也就是为了在JVM出现问题时分析原因并解决之.通过学习,我觉得JVM ...
Java系列笔记(6) - 并发（上）
目录 1,基本概念 2,volatile 3,atom 4,ThreadLocal 5,CountDownLatch和CyclicBarrier 6,信号量 7,Condition 8,Exchang ...
UWP开发入门系列笔记之（一）：UWP初览
标签: 随着微软Build2015带来的好消息,Win10正式版发布的日子已经离我们越来越近了,我们也终于欣喜地看到:一个统一的Windows平台对于开发人员来说充满了吸引力,这局棋下的好大的说--于 ...
Cocos2dx游戏开发系列笔记13：一个横版拳击游戏Demo完结篇
懒骨头(http://blog.csdn.net/iamlazybone QQ:124774397 ) 写下这些东西的同时旁边放了两部电影周星驰的<还魂夜> 甄子丹的<特殊身份& ...
如何在IDEA里给大数据项目导入该项目的相关源码（博主推荐）（类似eclipse里同一个workspace下单个子项目存在）（图文详解）
不多说,直接上干货! 如果在一个界面里,可以是单个项目注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解 ...

随机推荐

使用mysql5.7版本数据库需要注意的地方/持续更新
数据库mysql 5.7版本的初始密码修改安装完后实在是找不到初始密码的文件,后面发现再错误日志中先关闭mysql pkill mysqld 安全模式启动数据库并修改密码 mysqld_safe ...
Tomcat+nginx+keepalived+memcached实现双VIP负载均衡及Session会话保持
准备好tomcat 第一台 tar vxf apache-tomcat-7.0.54.tar.gz mv apache-tomcat-7.0.54 /usr/local/tomcat tar vxf ...
"Mon Dec 31 00:00:00 CST 2012" java日期装换 "yyyy-MM-dd"
import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import ja ...
Windows Store App下代码加载page resource和resw文件里的string
加载page resource 在page的code behind里: this.Resources["textBoxStyle"] 加载resw文件里的string: Resou ...
Tensorflow之MNIST的最佳实践思路总结
Tensorflow之MNIST的最佳实践思路总结在上两篇文章中已经总结出了深层神经网络常用方法和Tensorflow的最佳实践所需要的知识点,如果对这些基础不熟悉,可以返回去看一下.在< ...
小米Pro 15.6 系统重装记录
参考链接:http://bbs.xiaomi.cn/t-14321262,主要是miui论坛和小米社区的一位同学的教程,. 这位同学是针对12.5和13.3的版本做的教程,15.6和之前的版本有一小点 ...
Spark Streaming实时处理应用
1 框架一览事件处理的架构图如下所示. 2 优化总结当我们第一次部署整个方案时,kafka和flume组件都执行得非常好,但是spark streaming应用需要花费4-8分钟来处理单个 ...
ORB-SLAM 代码笔记（二）
ORB-SLAM中除了第三方库,基本没有看到使用c++11的新特性(例如别的SLAM框架中常用的智能指针,拷贝控制,泛型算法等,基本没有使用动态内存,栈内存读取速度较快),因此非常适合初学,代码很清晰 ...
创龙DSP6748的DAC例程研究
1. 创龙DSP6748开发板驱动TL5724这个DAC,输出指定的电压值,此程序是使用 IO 口模拟 SPI 实现与 TL5724 模块的数据交互. 2. 首先是初始化PSC函数 void PSCI ...
名字管理系统demo
# 名字管理系统demo # 打印功能提示 print('欢迎使用名字管理系统v6.6.6') print('1:添加一个名字') print('2:删除一个名字') print('3:修改一个名字' ...

[lucene系列笔记2]在eclipse里初步使用lucene的索引和查询功能

[lucene系列笔记2]在eclipse里初步使用lucene的索引和查询功能的更多相关文章

随机推荐

热门专题