使用Lucene开发自己的搜索引擎

1、下载Lucene开发包，请到：http://lucene.apache.org/

2、在myeclipse环境部署该开发包：

3、代码编写：

package Lucene;

import java.io.File;

import java.io.FileFilter;

import java.io.FileReader;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

/**

 * 建立索引

 * @author Administrator

 *

 */

public class Indexer {

	/**

	 * @param args

	 */

	public static void main(String[] args) throws Exception{

		String indexDir = "E:\\index";///在指定目录创建索引文件夹

		String dataDir = "E:\\dataSource";///对指定目录中的“.txt”文件进行索引

		long start = System.currentTimeMillis();

		Indexer indexer = new Indexer(indexDir);

		int numIndexed;

		try{

			numIndexed = indexer.index(dataDir, new TextFilesFilter());

		}finally{

			indexer.close();

		}

		long end = System.currentTimeMillis();

		System.out.println("索引 "+ numIndexed + " 文件花费 "+

		(end - start) + "ms");

	}

	private IndexWriter writer;

	//创建Lucene Index Writer

	public Indexer(String indexDir)throws IOException{

		Directory dir = FSDirectory.open(new File(indexDir));

		/*

		 * Version.LUCENE_30:是版本号参数，Lucene会根据输入的版本值，

		 * 针对该值对应的版本进行环境和行为匹配

		 */

		writer = new IndexWriter(dir, new StandardAnalyzer(Version.LUCENE_30), true,

				IndexWriter.MaxFieldLength.UNLIMITED);

	}

	//关闭Index Writer

	public void close()throws IOException{

		writer.close();

	}

	//返回被索引文档文档数

	public int index(String dataDir, FileFilter filter)throws Exception{

		File[] files = new File(dataDir).listFiles();

		for(File f:files){

			if(!f.isDirectory() &&

					!f.isHidden()&&

					f.exists()&&

					f.canRead()&&

					(filter == null || filter.accept(f))){

				indexFile(f);

			}

		}

		return writer.numDocs();

	}

	//只索引.txt文件，采用FileFilter

	private static class TextFilesFilter implements FileFilter{

		@Override

		public boolean accept(File pathname) {

			// TODO Auto-generated method stub

			return pathname.getName().toLowerCase().endsWith(".txt");

		}

	}

	protected Document getDocument(File f) throws Exception{

		Document doc = new Document();

		doc.add(new Field("contents", new FileReader(f)));//索引文件内容

		doc.add(new Field("filename", f.getName(),//索引文件名

				Field.Store.YES, Field.Index.NOT_ANALYZED));

		doc.add(new Field("fullpath", f.getCanonicalPath(),//索引文件完整路径

				Field.Store.YES, Field.Index.NOT_ANALYZED));

		return doc;

	}

	//向Lucene索引中添加文档

	private void indexFile(File f) throws Exception{

		System.out.println("Indexing "+f.getCanonicalPath());

		Document doc = getDocument(f);

		writer.addDocument(doc);

	}

}

这时编译运行代码，如果没出错的话，会出现下面的结果：

Indexing E:\dataSource\1.txt
Indexing E:\dataSource\2.txt
Indexing E:\dataSource\3.txt
Indexing E:\dataSource\4.txt
索引 4 文件花费 259ms

参考：http://biancheng.dnbcw.info/1000wen/448393.html

使用Lucene开发自己的搜索引擎的更多相关文章

2.使用Lucene开发自己的搜索引擎–indexer索引程序中基本类介绍
(1)Directory:Directory类描述了Lucene索引的存放位置,它是一个抽象,其子类负责具体制定索引的存储路径.FSDirectory.open方法来获取真实文件在文件系统中的存储路径 ...
1.使用Lucene开发自己的搜索引擎--倒排索引基础知识
1.单词--文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义.图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系.
【课程分享】基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎
对这个课程有兴趣的朋友,能够加我的QQ2059055336和我联系,能够和您分享. 课程介绍:最有前途的软件开发技术--搜索引擎技术搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个 ...
Lucene.Net+盘古分词->开发自己的搜索引擎
//封装类 using System;using System.Collections.Generic;using System.Linq;using System.Web;using Lucene. ...
lucene开发序之luke神器
lucene是一款很优秀的全文检索的开源库,目前最新的版本是lucene4.4,关于lucene的历史背景以及发展状况,在这里笔者就不多介绍了,如果你真心想学习lucene,想必在这之前你已经对此作过 ...
[原创]一种基于Python爬虫和Lucene检索的垂直搜索引擎的实现方法介绍
声明:本文首发在博客园晨星落羽,Shulin_Cao和lvmememe首页,转载请注明出处. 前言 2016.5到2017.5,我们三人(lvmememe,Shulin_Cao,晨星落羽)共同完成了一 ...
Lucene系列一：搜索引擎核心理论
一.为什么需要搜索引擎问题1:数据库索引的原理是怎样的? 索引原理:对列值创建排序存储,数据结构={列值.行地址}.在有序数据列表中就可以利用二分查找快速找到要查找的行的地址,再根据地址直接取行数据 ...
Lucene开发实例：Lucene中文分词(转载)
1.准备工作下载lucene 3.6.1 : http://lucene.apache.org/下载中文分词IK Analyzer: http://code.google.com/p/ik-analy ...
[转载]用.NET开发的磁力搜索引擎——Btbook.net
去年10月份开始研究相关的协议与资料,中途乱七八糟的事情差点没坚持下来,寒假里修修补补上礼拜把Btbook发布了,经过社交网络的推广之后,上线第三天UV就达到了两万多,也算是对这几个月工作的一点肯定吧 ...

随机推荐

一起学HTML基础-利用CSS和JavaScript制作一个切换图片的网页
由于个人原因,不详细写步骤思路: 一.布局二.制作图片区和按钮区的div及颜色.边框.背景属性等三.用PS将四张图片剪切到同一个尺寸,重叠放置在图片切换区,透明度设置为0 四.点击对应按钮时,将 ...
北京Java培训机构哪个好
又是一年暑期生活的来临,对于即将走出校园的实习生而言,培训潮与就业潮不约而至,培训行业的就业课程开班也如火如荼地进行着. 一直以来,计算机专业的毕业生都会作为一股庞大的生力军涌入社会各个岗位.就目前的 ...
6 this的使用方法
class Person { String name; void talk() { System.out.println("my name is "+this.name); } } ...
Web前端性能优化教程04：压缩组件
本文是Web前端性能优化系列文章中的第四篇,主要讲述内容:压缩组件.完整教程可查看:Web前端性能优化基础知识 gzip编码:gzip是GUNzip的缩写,是使用无损压缩算法的一种,最早是用于Uni ...
tarjan求桥、割顶
若low[v]>dfn[u],则(u,v)为割边.但是实际处理时我们并不这样判断,因为有的图上可能有重边,这样不好处理.我们记录每条边的标号(一条无向边拆成的两条有向边标号相同),记录每个点的父 ...
bzoj 1257
商最多有sqrt(n)个. #include<iostream> #include<cstdio> #include<cstring> #include<al ...
【BZOJ-1853&2393】幸运数字&Cirno的完美算数教室容斥原理 + 爆搜 + 剪枝
1853: [Scoi2010]幸运数字 Time Limit: 2 Sec Memory Limit: 64 MBSubmit: 1817 Solved: 665[Submit][Status] ...
springMVC-InitBinder
-由@initBinder标识的方法,可以对webDataBinder对象进行初始化.WebDataBinder 的子类,用于完成由表单字段到javaBean属性的绑定 -@InitBinder方法不 ...
洛谷P1595 信封问题
题目描述某人写了n封信和n个信封,如果所有的信都装错了信封.求所有信都装错信封共有多少种不同情况. 输入输出格式输入格式: 一个信封数n 输出格式: 一个整数,代表有多少种情况. 输入输出样例输 ...
iOS 自定义对象转NSDictionary
我们在向后台Post数据的时候,常常需要把某个对象作为参数,比如在AF的框架中,我们进行Post时,其中的para参数就是需要NSdictionary的 Alamofire.request(.POST ...

使用Lucene开发自己的搜索引擎

使用Lucene开发自己的搜索引擎的更多相关文章

随机推荐

热门专题