lucene 学习一

索引工具的三部分
　　1.索引部分
　　2.分词部分
　　3.搜索部分

查看索引的工具：luke java -jar fileName.jar

目标：为文件夹的所有的文档生成索引并搜索它

package com.lucene;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.CorruptIndexException;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.queryParser.ParseException;

import org.apache.lucene.queryParser.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.store.LockObtainFailedException;

import org.apache.lucene.util.Version;

// lucene 使用的版本为 3.5

public class HelloLucene {

    public static void main(String[] args) {

        HelloLucene hl = new HelloLucene();

        hl.index();

        hl.search();

    }

    /**

     * 建立文档索引

     */

    public void index() {

        IndexWriter writer = null;

        try {

            //1.创建Director(确定索引建立的位置)

//            Directory directory = new RAMDirectory(); //在内存中建立

            Directory directory = FSDirectory.open(new File("d:/index_01"));

            //2.通过 IndexWriter 写索引

            IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35));

            writer = new IndexWriter(directory, iwc);

            //3.创建 Document 对象

            Document doc = null;

            File f = new File("G:/lucene/");

            for(File file : f.listFiles()){

                //4.为文档 添加Field （文档的每个属性比如名称可以称之为文档的一个Field）

                doc = new  Document();

                doc.add(new Field("content", new FileReader(file)));

                doc.add(new Field("filename", file.getName(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

                doc.add(new Field("path", file.getAbsolutePath(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

                //5.通过IndexWrite添加文档到索引中

                writer.addDocument(doc);

                // 在索引库没有建立并且没有索引文件的时候首先要commit一下让他建立一个 索引库的版本信息

                writer.commit();

            }

        } catch (CorruptIndexException e) {

            e.printStackTrace();

        } catch (LockObtainFailedException e) {

            e.printStackTrace();

        } catch (IOException e) {

                try {

                    if(writer != null) writer.close();

                } catch (CorruptIndexException e1) {

                    e1.printStackTrace();

                } catch (IOException e1) {

                    e1.printStackTrace();

                }

            e.printStackTrace();

        }

    }

    /**

     * 搜索

     */

    public void search(){

        try {

            //1.创建Directory

            Directory directory = FSDirectory.open(new File("d:/index_01"));

            //2.创建IndexReader

            IndexReader reader = IndexReader.open(directory);

            //3.根据IndexReader创建IndexSearcher

            IndexSearcher searcher = new IndexSearcher(reader);

            //4.创建搜索的的Query

            QueryParser parser = new QueryParser(Version.LUCENE_35, "content", new StandardAnalyzer(Version.LUCENE_35));

            //要搜索的内容

            Query query = parser.parse("document");

            //5.根据searcher搜索并返回TopDocs

            TopDocs tds = searcher.search(query, 100);

            //6.根据TopDocs获取scoreDocs对象

            ScoreDoc[] sds = tds.scoreDocs;

            for(ScoreDoc sd:sds)

            {

                //7.根据Search和ScoreDoc对象获取具体的Document对象

                Document  d = searcher.doc(sd.doc);

                //8.根据document对象获取需要的值

                System.out.println(d.get("filename")+"|"+d.get("path"));

            }

            System.out.println(sds.length);    

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        } catch (ParseException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        //2.

    }

}

lucene 学习一的更多相关文章

Lucene学习笔记（更新）
1.Lucene学习笔记 http://www.cnblogs.com/hanganglin/articles/3453415.html
Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
Lucene学习入门——下载初识
本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...
Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Apache Lucene学习笔记
Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包完整的查询引擎和搜索引擎部分文本分析引擎开发人员在此基础建立完整的全文检索引擎以下为转载:http://www ...
Lucene学习笔记
师兄推荐我学习Lucene这门技术,用了两天时间,大概整理了一下相关知识点. 一.什么是Lucene Lucene即全文检索.全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明 ...
Lucene学习笔记：四，Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

随机推荐

【洛谷】1972：[SDOI2009]HH的项链【莫队+树状数组】
P1972 [SDOI2009]HH的项链题目背景无题目描述 HH 有一串由各种漂亮的贝壳组成的项链.HH 相信不同的贝壳会带来好运,所以每次散步完后,他都会随意取出一段贝壳,思考它们所表达的含 ...
SHELL异常处理(转载)
写SHELL好久了,经常被异常困扰,可竟然坚持了若干年没用过,回想以前服务过的公司,阿弥陀佛,罪过罪过.废话少说,希望此篇文章可以协助大家和我彻底结束SHELL脚本就是LINUX命令集合的初级阶段. ...
URAL 1099. Work Scheduling （一般图匹配带花树）
1099. Work Scheduling Time limit: 0.5 secondMemory limit: 64 MB There is certain amount of night gua ...
升压转换器 (Boost)
升压转换器 (Boost) 需要将输入电压转换为较高的输出电压时,升压转换器 (Boost)是唯一的选择. 升压转换器透过内部 MOSFET 对电压充电来达成升压输出的目的,而当 MOSFET 关闭时 ...
PHP str_pad() 函数
str_pad() 函数把字符串填充为指定的长度. 进入详细介绍页面
SharePoint Server 2013 Offline Installation (without Internet)
转自:http://social.msdn.microsoft.com/Forums/sharepoint/zh-CN/08f90e0f-1f52-4eba-9f6e-4dd635ffaadc/sha ...
[Android Pro] Android--Sensor传感器
Android提供了对设备传感器的支持,只要Android设备的硬件提供了这些传感器,Android应用可以通过传感器来获取设备的外界条件,包括手机的运行状态.当前摆放的方向等.Android系统还 ...
Linux进程间通信—管道
Linux下的进程通信手段基本上是从UNIX平台上的进程通信手段继承而来的.而对UNIX发展做出重大贡献的两大主力AT&T的贝尔实验室及BSD(加州大学伯克利分校的伯克利软件发布中心)在进程间 ...
关于TagHelper的那些事情——自定义TagHelper(格式化输出、依赖注入使用)
自定义TagHelper的最后一步就是在Process方法或ProcessAsync方法中添加展现代码.熟悉WebControl开发的朋友都知道Render方法,在这个方法中会添加展现的Html元素和 ...
go语言基础之defer和匿名函数结合使用
1.匿名函数结合使用示例1: package main //必须 import "fmt" func main() { a := 10 b := 20 defer func() ...

lucene 学习一

lucene 学习一的更多相关文章

随机推荐

热门专题