lucene学习-2 - 一个示例
接下来我会写一个lucene的实例。实际上在搜索引擎上随便搜索下都能找到这样的东西。不过还是写一下吧,这也是我学习的经历。
package com.zhyea.doggie; import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException; import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version; public class LuceneTest { public static void main(String[] args) {
// 要用来检索的样本文件存储路径
String docPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\docs";
// 索引文件存储路径
String indexPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\index";
try {
// 分析器,这里使用了标准分析器
Analyzer analyzer = new StandardAnalyzer();
// 准备好索引存储目录
Directory dir = FSDirectory.open(new File(indexPath));
// 创建IndexWriter(索引写入器)配置,
// 在配置中指明创建IndexWriter使用的lucene的版本及使用的分析器
IndexWriterConfig config = new IndexWriterConfig(Version.LATEST,
analyzer);
// 创建IndexWriter(索引写入器),并指明索引存储路径和配置文件
IndexWriter writer = new IndexWriter(dir, config);
// 使用IndexWriter(索引写入器)创建索引,这里另外创建一个方法
addDocuments(docPath, writer); /* -------------创建索引结束,以下是进行搜索------------ */
// 创建索引读出器
IndexReader reader = DirectoryReader.open(dir);
// 创建搜索器
IndexSearcher seacher = new IndexSearcher(reader);
// 创建搜索对象
Query query = new TermQuery(new Term("content", "杨过"));
// 执行搜索,并返回结果
TopDocs topDocs = seacher.search(query, 10000);
// 展示搜索结果
Document doc;
for(ScoreDoc tmp : topDocs.scoreDocs){
doc = reader.document(tmp.doc);
System.out.println("书名:" + doc.get("name")
+ "---------------------"
+ "路径:" + doc.get("path"));
}
} catch (Exception e) {
e.printStackTrace();
}
} /**
* 遍历样本文本所在的目录,进行分析。
* 这里采用的样本文本是金庸的三部小说:神雕、射雕和笑傲江湖。
* @param docPath
* 样本文本存储路径
* @param writer
* 索引写入器
* @throws IOException
*/
private static void addDocuments(String docPath, IndexWriter writer)
throws IOException {
File dir = new File(docPath);
for (File tmp : dir.listFiles()) {
//创建Document对象,代表一个被索引的基本单元
Document doc = new Document();
String fileName = tmp.getName();
String filePath = tmp.getCanonicalPath();
String fileContent = readTxt(tmp);
//创建Field,并加入Document
doc.add(new StringField("name", fileName, Field.Store.YES));
doc.add(new StringField("path", filePath, Field.Store.YES));
doc.add(new TextField("content",fileContent,Field.Store.YES));
//将Document从内存写入真实目录
writer.addDocument(doc);
//提交索引,将索引写入索引文件,这个别忘了
writer.commit();
}
} /**
* 换行标志符
*/
static final String NEWLINE = System.getProperty("line.separator"); /**
* 读取txt文件
*
* @param file
* txt文件对象
* @return
* @throws IOException
*/
private static String readTxt(File file) throws IOException {
BufferedReader br = null;
try {
br = new BufferedReader(new FileReader(file));
StringBuilder builder = new StringBuilder();
String line;
while (null != (line = br.readLine())) {
builder.append(line).append(NEWLINE);
}
return builder.toString();
} finally {
if (null != br) br.close();
}
}
}
执行代码,发现没有任何输出。用luke进行查看索引目录,发现content对应的是乱码:
在读取txt文件时,需要调整编码格式,或者直接调整txt的编码格式与工作空间默认编码相同即可。
这里就不写出了。
调整乱码后,再次执行程序,发现还是不能检索出什么东西。再次查看索引目录:
所有的中文字符都被分开成为单独的Term。这次需要调整分析器,将分析器调整为CJKAnalyzer。这次能够检索出结果了:
实际上,影响查询结果的不只是分析器,还有这一句:
new TermQuery(new Term("content", "杨过"));
好了,这些可以留到以后再说。
all。
lucene学习-2 - 一个示例的更多相关文章
- SQL 数据库 学习 007 通过一个示例简单介绍什么是字段、属性、列、元组、记录、表、主键、外键 (上)
SQL 数据库 学习 007 通过一个示例简单介绍什么是字段.属性.列.元组.记录.表.主键.外键 (上) 我们来介绍一下:数据库是如何存储数据的. 数据库是如何存储数据的 来看一个小例子 scott ...
- lucene创建索引简单示例
利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): packa ...
- Lucene学习总结之七:Lucene搜索过程解析
一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
- Lucene学习总结之六:Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
- Lucene学习总结之四:Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...
- Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息 在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
- 6、GNU makefile工程管理学习的一个例子
在之前我们已经学习了一个文件的编译过程,但是做过项目的都知道,一个工程中的源文件不计其数,其按类型.功能.模块会分别放在若干个目录中,而这些文件如何编译就需要有一个编译规则,虽然现在很多大型的项目都是 ...
- Lucene学习入门——下载初识
本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...
- Lucene学习总结之七:Lucene搜索过程解析 2014-06-25 14:23 863人阅读 评论(1) 收藏
一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
随机推荐
- postgresql常用
postgresql 字符串转整数 int.integer --把'1234'转成整数 select cast('1234' as integer ) ; --用substring截取字符串,从第8个 ...
- xmapp开启https
在开发微信小程序的时候我们需要开启https本地测试,以下我们说明使用xmapp如何开启https访问 1. php中开启ssl 在php的配置文件中把openssl前面的注释去掉, 大概在配置文件的 ...
- Spoken English Practice(If you fail to do as I say, I will take you suffer.)
绿色:连读: 红色:略读: 蓝色:浊化: 橙色:弱读 下划线_为浊化 口语蜕变(2017/6/29) ...
- FFMPEG推流到RTMP服务器命令 - weixin_37897683的博客 - CSDN博客 https://blog.csdn.net/weixin_37897683/article/details/81225228
FFMPEG推流到RTMP服务器命令 - weixin_37897683的博客 - CSDN博客 https://blog.csdn.net/weixin_37897683/article/detai ...
- centos7 docker镜像加速器配置
CentOS的配置方式略微复杂,需要先将默认的配置文件复制出来 /lib/systemd/system/docker.service -> /etc/systemd/system/docker. ...
- pandas 修改列名
原始文件 下面是Excel打开以及pd.read_csv() 打开: 里面只是干巴巴的数据,没有列名,so,需要给其设置列名. Method1 不让第一行数据默认当作列名(默认第一行数据是列名了). ...
- 基于JSP的学术交流论坛系统的设计与实现
版权声明:本文为[博主](https://zhangkn.github.io)原创文章.未经博主同意不得转载. https://creativecommons.org/licenses/by-nc-s ...
- Android Wear - Design Principles for Android Wear(设计原则)
---------------------------------------------------------------------------------------------------- ...
- Android View学习Tips
1.Canvas.save()和Canvas.restore() canvas.save();和canvas.restore();是两个相互匹配出现的,作用是用来保存画布的状态和取出保存的状态的.这里 ...
- IntelliJ创建main函数、for循环,System.out.println()等快捷建(转载)
在编写代码的时候直接输入psv就会看到一个psvm的提示,此时点击tab键一个main方法就写好了. psvm 也就是public static void main的首字母. 依次还有在方法体内键入f ...