Luence

是Apache软件基金会的一个项目，是一个开发源码的全文检索引擎工具包，是一个全文检索引擎的一个架构。提供了完成的查询引擎和检索引擎，部分文本分析引擎。

全文检索程序库，虽然与搜索引擎相关，但是不能混淆。

官方网址：https://lucene.apache.org/

帮助文档：https://lucene.apache.org/core/4_9_1/index.html

官方解释：

Lucene is a Java full-text search engine. Lucene is not a complete application, but rather a code library and API that can easily be used to add search capabilities to applications.

倒排索引

了解Luence要知道倒排索引；

通俗解释，我们通常都是通过查找文件位置及文件名，再查找文件的内容。倒排索引可以理解为通过文件内容来查找文件位置及文件名的。

倒排索引是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。

倒排索引也是lucence的索引核心。

文件内容可以表示一个field，文件名称可以表示一个field，将整个field进行分词，然后根据分词创建索引，建立一个个term；

如：文件的内容作为一个field，命名为"contents"，将文件内容进行分词，假设文件内容为"A B"，分词结果为"A","B"，这样term的信息就为两条，field的内容为"contents"，term对应的文本内容分别为"A"和"B"。

当查找指定分词的时候就可以获取这个分词所在的doc，并获取doc相关的信息。

demo编程

例子参考官方demo; package位置：org.apache.lucene.demo

自己写了一个demo

依赖的jar包：

commons-io-2.4.jar
lucene-analyzers-common-4.9.1.jar
lucene-core-4.9.1.jar
lucene-queries-4.9.1.jar
lucene-queryparser-4.9.1.jar

MyIndexFiles.java

 import org.apache.commons.io.FileUtils;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.standard.StandardAnalyzer;

 import org.apache.lucene.document.*;

 import org.apache.lucene.index.*;

 import org.apache.lucene.queryparser.classic.ParseException;

 import org.apache.lucene.queryparser.classic.QueryParser;

 import org.apache.lucene.search.IndexSearcher;

 import org.apache.lucene.search.Query;

 import org.apache.lucene.search.ScoreDoc;

 import org.apache.lucene.search.TopDocs;

 import org.apache.lucene.store.Directory;

 import org.apache.lucene.store.FSDirectory;

 import org.apache.lucene.util.Version;

 import org.junit.Test;

 import java.io.File;

 import java.io.IOException;

 /**

  * Created by Edward on 2016/7/25.

  */

 public class MyIndexFiles {

     public static void main(String[] args) throws IOException {

         //文件方式存储索引文件

         FSDirectory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index"));

         //文本解析器，分词器

         Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9);

         //索引写配置，要指定解析器及版本信息

         IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_4_9, analyzer);

         //创建写索引

         IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig );

         //路径

         File path = new File("D:\\documents\\Lucene\\MyDemo\\docs");

         //文件列表

         File[] listFile = path.listFiles();

         for(File file: listFile){

             //创建doc

             Document doc = new Document();

             //获取文件属性信息

             String filename = file.getName();

             long lastModified = file.lastModified();

             //通过commons-io-2.4.jar包中的FileUtils方法，读文件内容转化为String

             String readFile2Sting = FileUtils.readFileToString(file);

             //将field添加到doc

             //StringField不进行分词，当做一个分词

             //Field的有索引和存储属性，

                  //Field.Store.NO代表数据不进行存储，仅能索引到，多用来处理文本内容，可获取文件名然后通过文件位置打开文件获取内容

                  //Field.Store.YES代表存储数据，通常用来直接获取文件路径

             doc.add(new StringField("filename", filename, Field.Store.YES));

             doc.add(new LongField("modify", lastModified, Field.Store.YES));

             doc.add(new TextField("contents",readFile2Sting, Field.Store.NO));

             //新增的方式

             //indexWriter.addDocument(doc);

             //更新的方式， 更新与term匹配的docs

             indexWriter.updateDocument(new Term("filename", file.getName()), doc);

         }

         indexWriter.close();

     }

     @Test

     public void serach() throws IOException, ParseException {

         //本地索引文件

         Directory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index"));

         //读索引目录

         IndexReader indexReader = DirectoryReader.open(directory);

         //创建索引搜索对象

         IndexSearcher indexSearcher = new IndexSearcher(indexReader);

         Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9);

         //查询解析  指定查询的item,解析器,版本

         QueryParser queryParse = new QueryParser(Version.LUCENE_4_9, "contents", analyzer);

         //查询内容

         Query query = queryParse.parse("111");

         //查询指定条数

         int num = 6;

         TopDocs topDocs= indexSearcher.search(query, num);

         //采集数

         ScoreDoc[] docs = topDocs.scoreDocs;

         for(ScoreDoc doc:docs){

             //获取doc编号

             int i = doc.doc;

             //通过文档编号获取文档信息

             Document d = indexSearcher.doc(i);

             //打印文档信息

             System.out.println(d.get("filename"));

             System.out.println(d.get("modify"));

             System.out.println(d.get("contents"));

         }

         indexReader.close();

     }

 }

Luence的更多相关文章

Luence学习笔记
1.Luence的核心索引类 IndexWriter:建立索引的核心组件 Directory:代表一个lucene索引项的位置,是一个抽象类其子类有FSDirectory和RAMDirectory F ...
Luence简单实现1
初步认识Luence,简单按照官方文档做了个例子,大牛绕开,仅供小白路过参考.如有错误,欢迎指正批评. 建一个简单工程,并且加入这几个小奶瓶,如下图: 注:版本不同,可能对jdk的需求是不同的,这个需 ...
Luence简单实现2
上一篇是基于内存存储的,这次的例子是基于本地存储索引库. 上一次的代码稍微修改,代码如下: //创建词法分析器 Analyzer analyzer = new StandardAnalyzer(); ...
luence全文检索（数据库检索）
注解:从数据库中查询所有数据然后放入luence中,然后在luence来检索 package com.zhu.demo; import java.io.IOException; import java ...
luence全文检索（简介）
刚开始做全文检索也是找了很多资料但是网上的都不是很齐全luence是个很不多的工具 Lucene4.0的官网文档:http://lucene.apache.org/core/4_0_0/core/ov ...
（二）Luence——代码实现索引及搜索
完成需求:使用Lucene完成对数据库中图书信息的索引和搜索功能. 1. 环境准备及工程搭建 1.1 环境准备 mysql5.5+java8+lucene4.10.3(目前最新7.0.1,这里够用就好 ...
luence优化速度
一. .索引优化背景很多网站都有自己的搜索引擎,比如百度,搜狗等等,而他们每天添加的索引量可想而知多么庞大,所以为了能提升用户的搜索响应速度,好的优化方案必不可少:当然对于一些网站的站内搜索也很有必 ...
【NLP】十分钟快览自然语言处理学习总结
十分钟学习自然语言处理概述作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文 ...
logstash日志分析的配置和使用
logstash是一个数据分析软件,主要目的是分析log日志.整一套软件可以当作一个MVC模型,logstash是controller层,Elasticsearch是一个model层,kibana是v ...

随机推荐

JavaScrip 概述 -- 前端知识
JavaScript概述 ECMAScript和JavaScript的关系 1996年11月,JavaScript的创造者--Netscape公司,决定将JavaScript提交给国际标准化组织ECM ...
SAP FI/CO 基本概念
每一个SAP从业者都对这些概念不陌生,理解透了这些概念,对SAP的业务体系构架才能有明确地认识. 1.集团(client)的概念:是SAP中的最高等级:每一个集团建立主数据库. 2.公司(Compan ...
php递归获取无限分类菜单
从数据库获取所有菜单信息,需要根据id,pid字段获取主菜单及其子菜单,以及子菜单下的子菜单,可以通过函数递归来实现. <?php class Menu { public $menu = arr ...
排错-Ad Hoc Distributed Queries组件被禁用的解决办法
Ad Hoc Distributed Queries组件被禁用的解决办法 by:授客 QQ:1033553122 SQL Server 阻止了对组件 'Ad Hoc Distributed Queri ...
Android HandlerThread和IntentService
HandlerThreadHandlerThread继承了Thread,它是一种可以使用Handler的Thread,它实现也很简单,就是在run中通过Looper.prepare()来创建消息队列, ...
常用的第三方模块 chardet url
chardet 字符串编码一直是令人非常头疼的问题,尤其是我们在处理一些不规范的第三方网页的时候.虽然Python提供了Unicode表示的str和bytes两种数据类型,并且可以通过encode() ...
windows 服务器远程桌面你的凭据不工作
一.问题描述通过windows 远程桌面连接服务器时,输入正确的用户名和密码,点击连接按钮时,提示“你的凭据不工作”,但是其他个别电脑可以通过远程桌面远程到目标服务器.问题描述如下图所示: 二. ...
jqgrid 使用altRows和altclass属性实现隔行换色
如果只是简单的区别奇偶行的话,设置两个属性,加一个样式 altRows:true, altclass:'someClass' .someClass { background-color: #DDDDD ...
修改Sql Server 数据库文件默认存放目录
-- 更改数据文件存放目录 EXEC xp_instance_regwrite @rootkey='HKEY_LOCAL_MACHINE', @key='Software\Micr ...
接口调用，输出结果为Json格式（ConvertTo-Json），提交参数给URL（WebRequest）
1.直接输出为json格式: Get-Process -Id $pid | ConvertTo-Json | clip.exe 2.自定义结果为json格式: $serverinfoj = @&quo ...

Luence

Luence

倒排索引

demo编程

Luence的更多相关文章

随机推荐

热门专题