【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作

在Lucene对文本进行处理的过程中，可以大致分为三大部分：

1、索引文件：提取文档内容并分析，生成索引

2、搜索内容：搜索索引内容，根据搜索关键字得出搜索结果

3、分析内容：对搜索词汇进行分析，生成Quey对象。

注：事实上，除了最基本的完全匹配搜索以外，其它都需要在搜索前进行分析。

如不加分析步骤，则搜索JAVA，是没有结果的，因为在索引过程中已经将词汇均转化为小写，而此处搜索时则要求关键字完全匹配。

使用了QueryParser类以后，则根据Analyzer的具体实现类，对搜索词汇进行分析，如大小写转换，java and ant等的搜索词解释等。

一、索引文件

基本步骤如下：

1、创建索引库IndexWriter

2、根据文件创建文档Document

3、向索引库中写入文档内容

package com.ljh.search.index;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.LongField;

import org.apache.lucene.document.StringField;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

// 1、创建索引库IndexWriter

// 2、根据文件创建文档Document

// 3、向索引库中写入文档内容

public class IndexFiles {

	public static void main(String[] args) throws IOException {

		String usage = "java IndexFiles"

				+ " [-index INDEX_PATH] [-docs DOCS_PATH] \n\n"

				+ "This indexes the documents in DOCS_PATH, creating a Lucene index"

				+ "in INDEX_PATH that can be searched with SearchFiles";

		String indexPath = null;

		String docsPath = null;

		for (int i = 0; i < args.length; i++) {

			if ("-index".equals(args[i])) {

				indexPath = args[i + 1];

				i++;

			} else if ("-docs".equals(args[i])) {

				docsPath = args[i + 1];

				i++;

			}

		}

		if (docsPath == null) {

			System.err.println("Usage: " + usage);

			System.exit(1);

		}

		final File docDir = new File(docsPath);

		if (!docDir.exists() || !docDir.canRead()) {

			System.out

					.println("Document directory '"

							+ docDir.getAbsolutePath()

							+ "' does not exist or is not readable, please check the path");

			System.exit(1);

		}

		IndexWriter writer = null;

		try {

			// 1、创建索引库IndexWriter

			writer = getIndexWriter(indexPath);

			index(writer, docDir);

		} catch (IOException e) {

			e.printStackTrace();

		} finally {

			writer.close();

		}

	}

	private static IndexWriter getIndexWriter(String indexPath)

			throws IOException {

		Directory indexDir = FSDirectory.open(new File(indexPath));

		IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_48,

				new StandardAnalyzer(Version.LUCENE_48));

		IndexWriter writer = new IndexWriter(indexDir, iwc);

		return writer;

	}

	private static void index(IndexWriter writer, File file) throws IOException {

		if (file.isDirectory()) {

			String[] files = file.list();

			if (files != null) {

				for (int i = 0; i < files.length; i++) {

					index(writer, new File(file, files[i]));

				}

			}

		} else {

			// 2、根据文件创建文档Document

			Document doc = new Document();

			Field pathField = new StringField("path", file.getPath(),

					Field.Store.YES);

			doc.add(pathField);

			doc.add(new LongField("modified", file.lastModified(),

					Field.Store.NO));

			doc.add(new TextField("contents", new FileReader(file)));

			System.out.println("Indexing " + file.getName());

			// 3、向索引库中写入文档内容

			writer.addDocument(doc);

		}

	}

}

（1）使用“java indexfiles -index d:/index -docs d:/tmp”运行程序，索引d:/tmp中的文件，并将索引文件放置到d:/index。

（2）上述生成的索引文件可以使用Luke进行查看。目前Luke已迁移至github进行托管。

二、搜索文件

1、打开索引库IndexSearcher

2、根据关键词进行搜索

3、遍历结果并处理

package com.ljh.search.search;

//1、打开索引库IndexSearcher

//2、根据关键词进行搜索

//3、遍历结果并处理

import java.io.File;

import java.io.IOException;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.Term;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TermQuery;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

public class Searcher {

	public static void main(String[] args) throws IOException {

		String indexPath = null;

		String term = null;

		for (int i = 0; i < args.length; i++) {

			if ("-index".equals(args[i])) {

				indexPath = args[i + 1];

				i++;

			} else if ("-term".equals(args[i])) {

				term = args[i + 1];

				i++;

			}

		}

		System.out.println("Searching " + term + " in " + indexPath);

		// 1、打开索引库

		Directory indexDir = FSDirectory.open(new File(indexPath));

		IndexReader ir = DirectoryReader.open(indexDir);

		IndexSearcher searcher = new IndexSearcher(ir);

		// 2、根据关键词进行搜索

		TopDocs docs = searcher.search(

				new TermQuery(new Term("contents", term)), 20);

		// 3、遍历结果并处理

		ScoreDoc[] hits = docs.scoreDocs;

		System.out.println(hits.length);

		for (ScoreDoc hit : hits) {

			System.out.println("doc: " + hit.doc + " score: " + hit.score);

		}

		ir.close();

	}

}

三、分析

事实上，除了最基本的完全匹配搜索以外，其它都需要在搜索前进行分析。

如不加分析步骤，则搜索JAVA，是没有结果的，因为在索引过程中已经将词汇均转化为小写，而此处搜索时则要求关键字完全匹配。

使用了QueryParser类以后，则根据Analyzer的具体实现类，对搜索词汇进行分析，如大小写转换，java and ant等的搜索词解释等。

分析过程有2个基本步骤：

1、生成QueryParser对象

2、调用QueryParser.parse()生成Query()对象。

具体代码，将下述代码：

		// 2、根据关键词进行搜索

		TopDocs docs = searcher.search(

				new TermQuery(new Term("contents", term)), 20);

用以下代替：

		// 2、根据关键词进行搜索

		/*TopDocs docs = searcher.search(

				new TermQuery(new Term("contents", term)), 10);*/

		QueryParser parser = new QueryParser(Version.LUCENE_48, "contents", new SimpleAnalyzer(Version.LUCENE_48));

		Query query = null;

		try {

			query = parser.parse(term);

		} catch (ParseException e) {

			e.printStackTrace();

		}

		TopDocs docs = searcher.search(query, 30);

【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作的更多相关文章

【Lucene4.8教程之中的一个】使用Lucene4.8进行索引及搜索的基本操作
版权声明:本文为博主原创文章.转载请注明来自http://blog.csdn.net/jediael_lu/ https://blog.csdn.net/jediael_lu/article/deta ...
【Lucene4.8教程之三】搜索
1.关键类 Lucene的搜索过程中涉及的主要类有以下几个: (1)IndexSearcher:执行search()方法的类 (2)IndexReader:对索引文件进行读操作,并为IndexSear ...
【Lucene4.8教程之二】索引
一.基础内容 0.官方文档说明 (1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates ...
【Lucene4.8教程之三】搜索 2014-06-21 09:53 1532人阅读评论(0) 收藏
1.关键类 Lucene的搜索过程中涉及的主要类有以下几个: (1)IndexSearcher:执行search()方法的类 (2)IndexReader:对索引文件进行读操作,并为IndexSear ...
【Lucene4.8教程之二】索引 2014-06-16 11:30 3845人阅读评论(0) 收藏
一.基础内容 0.官方文档说明 (1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates ...
MWeb for Mac使用教程-如何在文档库中快速搜索
使用MWeb for Mac专业的 Markdown 编辑写作软件,可以让你随时记录自己的想法,灵感,创意,为您的工作节省宝贵的时间.本篇文章带来的是MWeb for Mac如何在文档库中快速搜索使用 ...
【Lucene4.8教程之四】分析
1.基础内容 (1)相关概念分析(Analysis),在Lucene中指的是将域(Field)文本转换成最主要的索引表示单元--项(Term)的过程.在搜索过程中,这些项用于决定什么样的文档可以匹配 ...
【Lucene4.8教程之五】Luke
一.Luke基本内容 1.Luke简介 Luke可用于查看Lucene创建的索引,并对其进行基本操作. 2.创建Luke (1)从Github上下载源文件 https://github.com/tar ...
【Lucene4.8教程之六】QueryParser与Query子类：如何生成Query对象
一.概述 1.对于一个搜索而言,其核心语句为: searcher.search(query, 10); 此时,其最重要的参数为一个Qeury对象.构造一个Query对象有2种方法: (1)使用Quer ...

随机推荐

及格率不谢 cast(cast (sum(case when res>=60 then 1 else 0 end)*100/(count(1)*1.0) as float) as nvarchar)+'%' '及格率'
--18.查询各科成绩最高分.最低分和平均分:--以如下形式显示:-- 课程ID,课程name,最高分,最低分,平均分,及格率,中等率,优良率,优秀率--及格为>=60,中等为:70-80,优良 ...
C语言实现界面（不通过MFC\避免遗忘）
感觉MFC不属于程序员细究的东西,今实现基本界面避免日后遗忘. 源代码: #include<windows.h>#include<stdio.h>char str[] = {' ...
python运维开发(十七)----jQuery续(示例)web框架django
内容目录: jQuery示例前端插件 web框架 Django框架 jQuery示例 dom事件绑定,dom绑定在form表单提交按钮地方都会绑定一个onclick事件,所有查看网站的人都能看到代码 ...
python bottle框架（WEB开发、运维开发）教程
教程目录一:python基础(略,基础还是自己看书学吧) 二:bottle基础 python bottle web框架简介 python bottle 框架环境安装 python bottle 框架 ...
Equations（hdu 1496 二分查找+各种剪枝）
Equations Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total S ...
Azure上A/D系列虚拟机到DS系列迁移(2)
11. 该脚本会检测环境,停止虚拟机,拷贝VHD文件,创建磁盘等等,知道出现如下类似画面,他会暂停等待用户操作: 后面这几个步骤非常重要,关系到你后续的创建是否成功: 12. 进入D:\migvm目录 ...
mysql中插入多条记录-微软批处理
当向mysql中插入大量数据时,可以使用微软的批处理方式.这样可以防止内存溢出又提高了效率.我写了一个mysql中插入多条记录的例子.赋值代码可以直接使用. 1.首先需要添加两个dll MySql.D ...
USB匹配电阻
做过USB的人都或许有一个纠结,那就是D+和D-上到底要串多大的电阻,串在源端还是终端. 我想说:网络上的说法都不完全正确,首先USB有低速.全速和高速之分,在低速和全速模式下是电压驱动的,驱动电压为 ...
synchronized常见用法解析及示例
synchronized作用:保证代码执行的原子性:保证可见性(与volatile作用相同) JAVA中synchronized关键字能够作为函数的修饰符,也可作为函数内的语句,也就是平时说的同步方法 ...
bzoj1622 [Usaco2008 Open]Word Power 名字的能量
Description 约翰想要计算他那N(1≤N≤1000)只奶牛的名字的能量．每只奶牛的名字由不超过1000个字待构成,没有一个名字是空字体串, 约翰有一张“能量字符串表”,上面有M(1 ...

【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作

【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作的更多相关文章

随机推荐

热门专题