Lucene建立索引搜索入门实例
第一部分:Lucene建立索引
Lucene建立索引主要有以下两步:
第一步:建立索引器
第二步:添加索引文件
准备在f盘建立lucene文件夹,然后在lucene下建立文件夹test和index两个文件夹。
在test文件夹下建立如下四个txt文件
a.txt 内容:中华人民共和国
b.txt 内容:人民共和国
c.txt 内容:人民
d.txt 内容:共和国
这四个文件就是我们要建立索引的文件,
Index文件夹作为索引结果输出文件夹
准备工作完成以后,我们开始建立索引。
第一步:建立索引器,如下
IndexWriter writer = new IndexWriter("f:\\lucene\\index",
new StandardAnalyzer(), true);
第二步:添加索引文件
writer.addDocument(..);
具体完整代码如下:
package com.peng.mylucene;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.Date;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
public class LuceneIndex {
public static void main(String[] args) {
try {
LuceneIndex index = new LuceneIndex();
Date start = new Date();
index.writeToIndex();
Date end = new Date();
System.out.println("建立索引用时" + (end.getTime() - start.getTime())+" 毫秒");
index.close();
} catch (Exception e) {
e.printStackTrace();
}
}
//索引器
private IndexWriter writer = null;
public LuceneIndex() {
try {
//建立索引器,指定索引存放目录,分析器--new StandardAnalyzer()
writer = new IndexWriter("f:\\lucene\\index",
new StandardAnalyzer(), true);
} catch (Exception e) {
e.printStackTrace();
}
}
private Document getDocument(File f) {
//将要建立索引的文件构造成Document对象,并添加域content
Document doc = new Document();
BufferedReader bufReader = null;
try {
bufReader = new BufferedReader(new InputStreamReader(
new FileInputStream(f)));
} catch (FileNotFoundException e) {
e.printStackTrace();
}
//添加内容
doc.add(Field.Text("contents", bufReader));
doc.add(Field.Keyword("path", f.getAbsolutePath()));
return doc;
}
private void writeToIndex() {
//将目录f:\\lucene\\test下的文件,先通过getDocument(File)函数,
//构造成Document, 然后添加到索引器writer
File folder = new File("f:\\lucene\\test");
if (folder.isDirectory()) {
File[] list = folder.listFiles();
for (File f : list) {
Document doc = getDocument(f);
try {
System.out.println("建立索引:" + f);
writer.addDocument(doc);
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
private void close() {
try {//关闭索引器
writer.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
最后,执行程序,结果如下:
建立索引:f:\lucene\test\a.txt
建立索引:f:\lucene\test\b.txt
建立索引:f:\lucene\test\c.txt
建立索引:f:\lucene\test\d.txt
建立索引用时63 毫秒
在f:\lucene\index下发现索引结果文件
_4.cfs deletable segments
第二部分:在索引上搜索入门实例
在索引上搜索主要包括个步骤,使用两个对象—IndexSearcher和Query。
检索步骤:
第一步:创建索引器
searcher = new IndexSearcher(IndexReader.open("f:\\lucene\\index"));
第二步:将待检索关键字打包成Query对象
query = QueryParser.parse(key, "contents", new StandardAnalyzer());
第三步:使用索引器检索Query,得到检索结果Hits对象
Hits hit = searcher.search(query);
最后,将检索到的结果Hits打印出来:
for (int i = 0; i < h.length(); ++i) {
Document doc = h.doc(i);
System.out.println("这是第 " + i + " 个检索到的结果,文件名为:"
+ doc.get("path"));
}
全部程序如下:
package com.peng.mylucene;
import java.io.IOException;
import java.util.Date;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
public class LuceneSearch {
public static void main(String[] args) {
LuceneSearch test = new LuceneSearch();
Hits hit = null;// new Hits();
hit = test.search("中华");
test.dispalyResult(hit);
hit = test.search("人民");
test.dispalyResult(hit);
hit = test.search("共和国");
test.dispalyResult(hit);
}
public LuceneSearch() {
try {// IndexReader.open()指名索引所在文件夹
searcher = new IndexSearcher(IndexReader.open("f:\\lucene\\index"));
} catch (IOException e) {
e.printStackTrace();
}
}
// 声明IndexSearcher对象
private IndexSearcher searcher = null;
// 声明Query对象
private Query query = null;
public Hits search(String key) {
System.out.println("正在检索关键字:" + key);
try {// 将关键字包装为Query对象
query = QueryParser.parse(key, "contents", new StandardAnalyzer());
Date start = new Date();
Hits hit = searcher.search(query);
Date end = new Date();
System.out.println("检索完成,用时:" + (end.getTime() - start.getTime())
+ " 毫秒");
return hit;
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
public void dispalyResult(Hits h) {
if (h.length() < 1) {
System.out.println("no result !");
return;
} else {
for (int i = 0; i < h.length(); ++i) {
try {
Document doc = h.doc(i);
System.out.println("这是第 " + i + " 个检索到的结果,文件名为:"
+ doc.get("path"));
} catch (IOException e) {
e.printStackTrace();
}
}
System.out.println("----------------------");
}
}
}
在执行第一部分的程序得到索引后,执行搜索程序LuceneSearch,在控制台下得到结果如下:
(对比我们在f:\lucene\test下的四个文件可知,检索结果正确)
正在检索关键字:中华
检索完成,用时:47 毫秒
这是第 0 个检索到的结果,文件名为:f:\lucene\test\a.txt
----------------------
正在检索关键字:人民
检索完成,用时:0 毫秒
这是第 0 个检索到的结果,文件名为:f:\lucene\test\c.txt
这是第 1 个检索到的结果,文件名为:f:\lucene\test\b.txt
这是第 2 个检索到的结果,文件名为:f:\lucene\test\a.txt
----------------------
正在检索关键字:共和国
检索完成,用时:0 毫秒
这是第 0 个检索到的结果,文件名为:f:\lucene\test\d.txt
这是第 1 个检索到的结果,文件名为:f:\lucene\test\b.txt
这是第 2 个检索到的结果,文件名为:f:\lucene\test\a.txt
----------------------
总结
通过以上两篇文章我们看以看到使用lucene建立索引过程主要有一下4步:
1.提取文本
2.构建Document
3.分析
4.建立索引
参考《征服ajax+lucene构建搜索引擎》(转自:http://hi.baidu.com/peng3409)
Lucene建立索引搜索入门实例的更多相关文章
- 【转】Lucene不同版本中Field的Keyword、UnIndex,导致lucene 建立索引总是报错 急!!
lucene 建立索引 总是报错 急!! http://zhidao.baidu.com/link?url=iaVs9JH4DfN6iwaWImt7VMJENWCWGGaWFGPjqhUw_jz7Fs ...
- lucene 建立索引的过程
时间 -- :: CSDN博客 原文 http://blog.csdn.net/caohaicheng/article/details/ 看lucene主页(http://lucene.apach ...
- Lucene4.9学习笔记——Lucene建立索引
基本上创建索引需要三个步骤: 1.创建索引库IndexWriter对象 2.根据文件创建文档Document 3.向索引库中写入文档内容 这其中主要涉及到了IndexWriter(索引的核心组件,用于 ...
- lucene建立索引的过程
建立索引过程 用户提交数据=>solr建立索引=>调用lucene包建立索引 官方建立索引和查询索引的例子如下: http://lucene.apache.org/core/4_10_3/ ...
- lucene 建立索引的不同方式
1.创建一个简单的索引: package lia.meetlucene; import java.io.File; import org.apache.lucene.document.Document ...
- 建立spring项目入门实例
建立maven项目 打开pop.xml文件 添加springframework所依赖的包 <!-- https://mvnrepository.com/artifact/org.springfr ...
- html抽取文本信息-java版(适合lucene建立索引)
import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.beans.StringBe ...
- 利用Lucene将被索引文件目录中的所有文件建立索引
1.新建两个文件夹htm和index,其中htm中存放被索引的文件,index文件中存放建立的索引文件. 2.新建解析目录中所有文件的类,用来解析指定目录下的所有文件. import java.io. ...
- Lucene实现索引和查询
0引言 随着万维网的发展和大数据时代的到来,每天都有大量的数字化信息在生产.存储.传递和转化,如何从大量的信息中以一定的方式找到满足自己需求的信息,使之有序化并加以利用成为一大难题.全文检索技术是现如 ...
随机推荐
- Spark Streaming on Kafka解析和安装实战
本课分2部分讲解: 第一部分,讲解Kafka的概念.架构和用例场景: 第二部分,讲解Kafka的安装和实战. 由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功.后续课程会接着 ...
- 【DP】UVA 624 CD 记录路径
开一个数组p 若dp[i-1][j]<dp[i-1][j-a[i]]+a[i]时就记录下p[j]=a[i];表示此时放进一个轨道 递归输出p #include <stdio.h> # ...
- FBXImport
using UnityEditor; public class MyEditor : AssetPostprocessor{ public void OnPreprocessModel() { Mod ...
- selenuim-webdriver注解之@FindBy、@FindBys、@FindAll的区别
selenium-webdriver中获取页面元素的方式有很多,使用注解获取页面元素是其中一种途径, 方式有3种:@FindBy.@FindBys.@FindAll.下文对3中类型的区别和使用场景进行 ...
- git 命令使用速查手册( 个人版)
1. 克隆远程库 git clone repository_address 通过 git clone 获取的git库只是远程库中的当前工作分支,如果想获取其它分支信息,可参考下面. 2. 查看远程 ...
- mac apt-get--> Homebrew
在最近采集linux进程网络指标的时候,为了对比采集结果,需要linux系统查看进程网络流量命令,最后查到nethogs 这个工具好用,但是在下载安装过程中碰到问题: 1:http://blog.cs ...
- unity, PlayerPrefs.GetInt(key,defaultValue)
PlayerPrefs.GetInt(key,defaultValue)中的defaultValue参数非常有用,因为玩家第一次玩的时候存档还没有建立.所以需要使用defaultValue参数,相当于 ...
- python 分支结构
if 语句 if语句 计算机之所以能做很多自动化的任务,因为它可以自己做条件判断. 比如,输入用户年龄,根据年龄打印不同的内容,在Python程序中,可以用if语句实现: age = 20 if ag ...
- iOS 学习笔记四 【xcode 7.3 ESJsonFormat-Xcode 插件不能使用的解决办法】
步骤: 1.[前提要[关掉xcode],然后终端运行,一次不行,运行两次!] 2.[鼠标双击下方代码,command + c 复制即可] 3.[打开终端,command + V 粘贴,按回车运行即可, ...
- UI-1-UI入门
课程要点: 创建一个iOS工程 AppDelegate类 UIKit框架以及UIWindow 在window上添加第一个试图UIView NSTimer(定时器) 创建一个iOS工程 PS:接下来简单 ...