lucene 学习一

索引工具的三部分
　　1.索引部分
　　2.分词部分
　　3.搜索部分

查看索引的工具：luke java -jar fileName.jar

目标：为文件夹的所有的文档生成索引并搜索它

package com.lucene;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.CorruptIndexException;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.queryParser.ParseException;

import org.apache.lucene.queryParser.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.store.LockObtainFailedException;

import org.apache.lucene.util.Version;

// lucene 使用的版本为 3.5

public class HelloLucene {

    public static void main(String[] args) {

        HelloLucene hl = new HelloLucene();

        hl.index();

        hl.search();

    }

    /**

     * 建立文档索引

     */

    public void index() {

        IndexWriter writer = null;

        try {

            //1.创建Director(确定索引建立的位置)

//            Directory directory = new RAMDirectory(); //在内存中建立

            Directory directory = FSDirectory.open(new File("d:/index_01"));

            //2.通过 IndexWriter 写索引

            IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35));

            writer = new IndexWriter(directory, iwc);

            //3.创建 Document 对象

            Document doc = null;

            File f = new File("G:/lucene/");

            for(File file : f.listFiles()){

                //4.为文档 添加Field （文档的每个属性比如名称可以称之为文档的一个Field）

                doc = new  Document();

                doc.add(new Field("content", new FileReader(file)));

                doc.add(new Field("filename", file.getName(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

                doc.add(new Field("path", file.getAbsolutePath(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

                //5.通过IndexWrite添加文档到索引中

                writer.addDocument(doc);

                // 在索引库没有建立并且没有索引文件的时候首先要commit一下让他建立一个 索引库的版本信息

                writer.commit();

            }

        } catch (CorruptIndexException e) {

            e.printStackTrace();

        } catch (LockObtainFailedException e) {

            e.printStackTrace();

        } catch (IOException e) {

                try {

                    if(writer != null) writer.close();

                } catch (CorruptIndexException e1) {

                    e1.printStackTrace();

                } catch (IOException e1) {

                    e1.printStackTrace();

                }

            e.printStackTrace();

        }

    }

    /**

     * 搜索

     */

    public void search(){

        try {

            //1.创建Directory

            Directory directory = FSDirectory.open(new File("d:/index_01"));

            //2.创建IndexReader

            IndexReader reader = IndexReader.open(directory);

            //3.根据IndexReader创建IndexSearcher

            IndexSearcher searcher = new IndexSearcher(reader);

            //4.创建搜索的的Query

            QueryParser parser = new QueryParser(Version.LUCENE_35, "content", new StandardAnalyzer(Version.LUCENE_35));

            //要搜索的内容

            Query query = parser.parse("document");

            //5.根据searcher搜索并返回TopDocs

            TopDocs tds = searcher.search(query, 100);

            //6.根据TopDocs获取scoreDocs对象

            ScoreDoc[] sds = tds.scoreDocs;

            for(ScoreDoc sd:sds)

            {

                //7.根据Search和ScoreDoc对象获取具体的Document对象

                Document  d = searcher.doc(sd.doc);

                //8.根据document对象获取需要的值

                System.out.println(d.get("filename")+"|"+d.get("path"));

            }

            System.out.println(sds.length);    

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        } catch (ParseException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        //2.

    }

}

lucene 学习一的更多相关文章

Lucene学习笔记（更新）
1.Lucene学习笔记 http://www.cnblogs.com/hanganglin/articles/3453415.html
Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
Lucene学习入门——下载初识
本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...
Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Apache Lucene学习笔记
Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包完整的查询引擎和搜索引擎部分文本分析引擎开发人员在此基础建立完整的全文检索引擎以下为转载:http://www ...
Lucene学习笔记
师兄推荐我学习Lucene这门技术,用了两天时间,大概整理了一下相关知识点. 一.什么是Lucene Lucene即全文检索.全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明 ...
Lucene学习笔记：四，Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

随机推荐

BZOJ1002輪狀病毒暴搜 + 找規律 + 高精度
@[暴搜, 找規律, 高精度] Description 轮状病毒有很多变种,所有轮状病毒的变种都是从一个轮状基产生的.一个\(n\)轮状基由圆环上\(n\)个不同的基原子和圆心处一个核原子构成的,2个 ...
Java容器-引用分类与部分Map用法
目录 1.引用分类 2.了解WeakHashMap.IdentityHashMap.EnumMap 3.同步控制与只读设置代码实现 1.引用分类(面试) 强引用(StrongReference):引 ...
Meanshift算法
[转载自Liqizhou],原文地址 Mean Shift算法,一般是指一个迭代的步骤,即先算出当前点的偏移均值,移动该点到其偏移均值,然后以此为新的起始点,继续移动,直到满足一定的条件结束. 1. ...
【mybatis】mybatis查询发生条件传入值但是查询并没有这个条件的查询,Integer类型查询条件需要注意事项
有下面这样一个查询: 下面标紫色的查询条件,type的类型为Integer <select id="findDealerInfo" parameterType="c ...
运行Hadoop的示例程序WordCount-Running Hadoop Example
In the last post we've installed Hadoop 2.2.0 on Ubuntu. Now we'll see how to launch an example ma ...
sql数据库出现可疑
USE master GO SP_CONFIGURE 'allow updates',1 RECONFIGURE WITH OVERRIDE GO UPDATE SYSDATABASES SET ST ...
Jni的Jclass JmethodID JfrieldID的差异
Jni的Jclass JmethodID JfrieldID 这三者都是java类别的属性,本质上都是指标(Pointer).透过这些指标就能快速调用java类别的函数,或存取对象的属性值.在该类别被 ...
Asp.net 在网页编写C#代码示例-- 一个简单的web MsSql 命令执行环境
在给一个客户做的系统上,因为要对数据库进行查看,但之前都是用TeamView来连接到客户的服务器进行数据库操作的但最近客户那边的TeamView好像更改过密码导致我无法正常连接,而巧了客户的网官因为 ...
转：mac下安装homebrew
见: http://brew.sh 在命令行打开:
MySQL插值语句
insert into Daywork( fdayworkId, fuserId, fdate, fhours, fclaimdate ) values ( 2709, '1@2.3', '2013- ...

lucene 学习一

lucene 学习一的更多相关文章

随机推荐

热门专题