接下来我会写一个lucene的实例。实际上在搜索引擎上随便搜索下都能找到这样的东西。不过还是写一下吧,这也是我学习的经历。

package com.zhyea.doggie;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException; import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version; public class LuceneTest { public static void main(String[] args) {
// 要用来检索的样本文件存储路径
String docPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\docs";
// 索引文件存储路径
String indexPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\index";
try {
// 分析器,这里使用了标准分析器
Analyzer analyzer = new StandardAnalyzer();
// 准备好索引存储目录
Directory dir = FSDirectory.open(new File(indexPath));
// 创建IndexWriter(索引写入器)配置,
// 在配置中指明创建IndexWriter使用的lucene的版本及使用的分析器
IndexWriterConfig config = new IndexWriterConfig(Version.LATEST,
analyzer);
// 创建IndexWriter(索引写入器),并指明索引存储路径和配置文件
IndexWriter writer = new IndexWriter(dir, config);
// 使用IndexWriter(索引写入器)创建索引,这里另外创建一个方法
addDocuments(docPath, writer); /* -------------创建索引结束,以下是进行搜索------------ */
// 创建索引读出器
IndexReader reader = DirectoryReader.open(dir);
// 创建搜索器
IndexSearcher seacher = new IndexSearcher(reader);
// 创建搜索对象
Query query = new TermQuery(new Term("content", "杨过"));
// 执行搜索,并返回结果
TopDocs topDocs = seacher.search(query, 10000);
// 展示搜索结果
Document doc;
for(ScoreDoc tmp : topDocs.scoreDocs){
doc = reader.document(tmp.doc);
System.out.println("书名:" + doc.get("name")
+ "---------------------"
+ "路径:" + doc.get("path"));
}
} catch (Exception e) {
e.printStackTrace();
}
} /**
* 遍历样本文本所在的目录,进行分析。
* 这里采用的样本文本是金庸的三部小说:神雕、射雕和笑傲江湖。
* @param docPath
* 样本文本存储路径
* @param writer
* 索引写入器
* @throws IOException
*/
private static void addDocuments(String docPath, IndexWriter writer)
throws IOException {
File dir = new File(docPath);
for (File tmp : dir.listFiles()) {
//创建Document对象,代表一个被索引的基本单元
Document doc = new Document();
String fileName = tmp.getName();
String filePath = tmp.getCanonicalPath();
String fileContent = readTxt(tmp);
//创建Field,并加入Document
doc.add(new StringField("name", fileName, Field.Store.YES));
doc.add(new StringField("path", filePath, Field.Store.YES));
doc.add(new TextField("content",fileContent,Field.Store.YES));
//将Document从内存写入真实目录
writer.addDocument(doc);
//提交索引,将索引写入索引文件,这个别忘了
writer.commit();
}
} /**
* 换行标志符
*/
static final String NEWLINE = System.getProperty("line.separator"); /**
* 读取txt文件
*
* @param file
* txt文件对象
* @return
* @throws IOException
*/
private static String readTxt(File file) throws IOException {
BufferedReader br = null;
try {
br = new BufferedReader(new FileReader(file));
StringBuilder builder = new StringBuilder();
String line;
while (null != (line = br.readLine())) {
builder.append(line).append(NEWLINE);
}
return builder.toString();
} finally {
if (null != br) br.close();
}
}
}

执行代码,发现没有任何输出。用luke进行查看索引目录,发现content对应的是乱码:

在读取txt文件时,需要调整编码格式,或者直接调整txt的编码格式与工作空间默认编码相同即可。

这里就不写出了。

调整乱码后,再次执行程序,发现还是不能检索出什么东西。再次查看索引目录:

所有的中文字符都被分开成为单独的Term。这次需要调整分析器,将分析器调整为CJKAnalyzer。这次能够检索出结果了:

实际上,影响查询结果的不只是分析器,还有这一句:

new TermQuery(new Term("content", "杨过"));

好了,这些可以留到以后再说。

all。

lucene学习-2 - 一个示例的更多相关文章

  1. SQL 数据库 学习 007 通过一个示例简单介绍什么是字段、属性、列、元组、记录、表、主键、外键 (上)

    SQL 数据库 学习 007 通过一个示例简单介绍什么是字段.属性.列.元组.记录.表.主键.外键 (上) 我们来介绍一下:数据库是如何存储数据的. 数据库是如何存储数据的 来看一个小例子 scott ...

  2. lucene创建索引简单示例

    利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): packa ...

  3. Lucene学习总结之七:Lucene搜索过程解析

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

  4. Lucene学习总结之六:Lucene打分公式的数学推导

    在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

  5. Lucene学习总结之四:Lucene索引过程分析

    对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

  6. Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息

    Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息 在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...

  7. 6、GNU makefile工程管理学习的一个例子

    在之前我们已经学习了一个文件的编译过程,但是做过项目的都知道,一个工程中的源文件不计其数,其按类型.功能.模块会分别放在若干个目录中,而这些文件如何编译就需要有一个编译规则,虽然现在很多大型的项目都是 ...

  8. Lucene学习入门——下载初识

    本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...

  9. Lucene学习总结之七:Lucene搜索过程解析 2014-06-25 14:23 863人阅读 评论(1) 收藏

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

随机推荐

  1. JavaServlet实现下载功能

        我们在项目中经常会用到下载功能,所以今天我们先说下下载功能实现的思路,然后通过一个案例代码来具体体现. 1.下载的思路: ①首先要获取我们要操作的文件对象的路径 ②然后使用获取的文件对象路径构 ...

  2. Spring 框架的 applicationContext.xml 配置文件

    <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.sp ...

  3. Redis二(Hash操作)

    Hash操作 Hash操作,redis中Hash在内存中的存储格式如下图: hset(name, key, value) 1 2 3 4 5 6 7 8 9 # name对应的hash中设置一个键值对 ...

  4. 使用npm构建前端项目基本流程

    现在各种前端框架, 库文件基本都托管到npm上, 我们平常下载到别人的项目文件, 也基本是用npm 构建的, 不了解点node和npm那是寸步难行. 下面介绍的代码示例不敢说是最佳实践, 但都是我亲自 ...

  5. MySQL 数据类型(Day41)

    一.介绍 存储引擎决定了表的类型,而表内存放的数据也要有不同的类型,每种数据类型都有自己的高度,但宽度是可选的. mysql数据类型概览 #1.数字:(默认都是有符号,宽度指的是显示宽度,与存储无关) ...

  6. Python(调用函数、定义函数)

    函数的返回值: return 值:只能返回一次,只要执行return函数就终止 返回值:没有类型限制,也没有个数限制 没有return:None 返回一个值 返回多个值:元组 先定义,后使用,定义阶段 ...

  7. 使用PHP模拟post提交数据

    使用PHP模拟post提交数据 分类: PHP LAMP 2013-04-13 12:03 3954人阅读 评论(0) 收藏 举报 CurlsocketPHP 这也是个老生常谈的话题了,上午花了点时间 ...

  8. SvsUtil.exe生成服务文件

    在程序中调用某个 WCF Services 一般按照如下步骤进行: 生成对应 Service 的代理类.程序创建该代理类实例,访问指定方法. 生成代理类 可通过在 Visual Studio 中针对某 ...

  9. ArcGIS COM Exception 0x80040228

    问题:  string shpDir = Path.GetDirectoryName(shpfile);             string shpfilename = Path.GetFileNa ...

  10. Django:学习笔记(3)——REST实现

    Django:学习笔记(3)——REST实现 了解REST风格 按照传统的开发方式,我们在实现CURD操作时,会写多个映射路径,比如对一本书的操作,我们会写多个URL,可能如下 web/deleteB ...