Lucence

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包.

粘贴这句话的意思就是想说明 Lucene仅仅是一个工具包,搜索引擎的工具包.

有人会问?Lucene和solr的区别,solr是一个搜索系统,打个比方,就如servlet和struts2的区别 Lucene就是servlet,solr就好比solr,solr封装了Lucene.

下面说说Lucene的原理:

我们使用Lucene,其实使用的是他的倒排查询

什么是倒排查询?举个例子

新华字典,我们都用过吧,新华字典分为两部分,第一部门就是目录的边旁部首,第二部分就是正文,一个一个字的解释,

我们在用新华字典的时候,一般我们都是通过边旁部首找字,没有人一页一页的翻字典找字吧.

Lucene的倒排就是如此,他会检索文本,数据库,web网页,在把内容分词,就像边旁部首

再次强调

搜索引擎(百度,谷歌)和lucene的区别

搜索引擎就是一个应用,lucene就是一个搜索工具类

name:lucene表示要搜索name这个Field域中，内容为“lucene”的文档。

desc:lucene AND desc:java 表示要搜索即包括关键字“lucene”也包括“java”的文档。

看不懂没关系

我接下来说明Doucment和Field关系

这里我用数据库中的一条数据说明

这一条数据就是一个document文档

每一个字段就是一个Field域

这样说是不是豁然开朗了.

接下来,我们说说分词器

这个lucene是外国人搞得,对中文的支持不说你也知道,不多外国人也想到这一点,"我是中国人">>我是中国人 >> 这样的效果其实还不是我们想要的,我们要的是"中国","国人"这样的词汇,这里我也不打哑谜了,市场上有很多中文分词器,无敌的存在我觉得就是IK了,这是一个jar包,导入项目即可,说他无敌是因为他可以自己加词,比如"屌丝","高富帅",这也词,可以自己加到分词器中,让程序认得.

这就是要用到的包;

ik下载后把这3个文件也要导入项目中,ext.dic是加词的,stop是停词的.

前面的都是Lucece的理论,只有理论搞懂了,下面的代码实现过程也就轻松了

 package com.itheima.lucene;

 import java.io.File;

 import java.util.ArrayList;

 import java.util.List;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.standard.StandardAnalyzer;

 import org.apache.lucene.document.Document;

 import org.apache.lucene.document.Field.Store;

 import org.apache.lucene.document.TextField;

 import org.apache.lucene.index.DirectoryReader;

 import org.apache.lucene.index.IndexReader;

 import org.apache.lucene.index.IndexWriter;

 import org.apache.lucene.index.IndexWriterConfig;

 import org.apache.lucene.queryparser.classic.QueryParser;

 import org.apache.lucene.search.IndexSearcher;

 import org.apache.lucene.search.Query;

 import org.apache.lucene.search.ScoreDoc;

 import org.apache.lucene.search.TopDocs;

 import org.apache.lucene.store.Directory;

 import org.apache.lucene.store.FSDirectory;

 import org.apache.lucene.util.Version;

 import org.junit.Test;

 import org.wltea.analyzer.lucene.IKAnalyzer;

 import com.itheima.dao.BookDao;

 import com.itheima.dao.impl.BookDaoImpl;

 import com.itheima.pojo.Book;

 public class CreateIndexTest {

     //分词

     @Test

     public void testCreateIndex() throws Exception{

     //    1. 采集数据

         BookDao bookDao = new BookDaoImpl();

         List<Book> listBook = bookDao.queryBookList();

     //    2. 创建Document文档对象

         List<Document> documents = new ArrayList<>();

         for (Book bk : listBook) {

             Document doc = new Document();

             doc.add(new TextField("id", String.valueOf(bk.getId()), Store.YES));// Store.YES:表示存储到文档域中

             doc.add(new TextField("name", bk.getName(), Store.YES));

             doc.add(new TextField("price", String.valueOf(bk.getPrice()), Store.YES));

             doc.add(new TextField("pic", bk.getPic(), Store.YES));

             doc.add(new TextField("desc", bk.getDesc(), Store.YES));

             // 把Document放到list中

             documents.add(doc);

         }

     //    3. 创建分析器（分词器）

         //Analyzer analyzer = new StandardAnalyzer();

         //中文  IK

         Analyzer analyzer = new IKAnalyzer();

     //    4. 创建IndexWriterConfig配置信息类

         IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);

     //    5. 创建Directory对象，声明索引库存储位置

         Directory directory = FSDirectory.open(new File("H:\\temp"));

     //    6. 创建IndexWriter写入对象

         IndexWriter writer = new IndexWriter(directory, config);

     //    7. 把Document写入到索引库中

         for (Document doc : documents) {

             writer.addDocument(doc);

         }

     //    8. 释放资源

         writer.close();

     }

         //查

     @Test

     public void serachIndex() throws Exception{

         //创建分词器   必须和检索时的分析器一致

         Analyzer analyzer = new StandardAnalyzer();

         // 创建搜索解析器，第一个参数：默认Field域，第二个参数：分词器

         QueryParser queryParser = new QueryParser("desc", analyzer);

         // 1. 创建Query搜索对象

         Query query = queryParser.parse("desc:java AND lucene");

         // 2. 创建Directory流对象,声明索引库位置

         Directory directory = FSDirectory.open(new File("H:\\temp"));

         // 3. 创建索引读取对象IndexReader

         IndexReader indexReader = DirectoryReader.open(directory);

         // 4. 创建索引搜索对象IndexSearcher

         IndexSearcher indexSearcher = new IndexSearcher(indexReader);

         // 5. 使用索引搜索对象，执行搜索，返回结果集TopDocs

         // 第一个参数：搜索对象，第二个参数：返回的数据条数，指定查询结果最顶部的n条数据返回

         TopDocs topDocs  = indexSearcher.search(query, 10);

         System.out.println("查询到的数据总条数是：" + topDocs.totalHits);

         //获得结果集

         ScoreDoc[] docs = topDocs.scoreDocs;

         // 6. 解析结果集

         for (ScoreDoc scoreDoc : docs) {

             //获得文档

             int docID = scoreDoc.doc;

             Document doc = indexSearcher.doc(docID);

             System.out.println("docID:"+docID);

             System.out.println("bookid:"+doc.get("id"));

             System.out.println("pic:"+doc.get("pic"));

             System.out.println("name:"+doc.get("name"));

             System.out.println("desc:"+doc.get("desc"));

             System.out.println("price:"+doc.get("price"));

         }

         // 7. 释放资源

         indexReader.close();

     }

 }

Lucence的更多相关文章

lucence.net+盘古分词
第一步: 添加盘古和lucence的dll引用第二步: 拷贝Dict文件夹到项目 demo里面是Dictionaries 不过官方建议改成Dict 然后把所有项右击属性改为“如果较新则复制” 第 ...
Lucence工作原理
lucence 是一个高性能的java全文检索工具包,他使用倒排序文件索引结构,改结构和相应的生成算法如下: 一.设有两篇文章1和2 文章1的内容为:Tom lives in guangzh ...
lucence学习系列之一基本概念
1. Lucence基本概念 Lucence是一个java编写的全文检索类库,使用它可以为一个应用或者站点增加检索功能. 它通过增加内容到一个全文索引来完成检索功能.然后允许你基于这个索引去查询,返回 ...
Lucence使用入门
参考: https://blog.csdn.net/u014209975/article/details/50525624 https://www.cnblogs.com/hanyinglong/p/ ...
apache开源项目--lucence
Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎.Lucene的目的是为软件开发人员提供一个简单易用 ...
Lucence.net索引技术二
一. Lucene索引创建和优化 [版本2.9.0以上] Lucene索引的创建首先需要取得几个必须的对象: 1.分词器//可以采用其他的中文分词器 StandardAnalyzer analyzer ...
Lucence.net索引技术一
1.建立索引为了对文档进行索引,Lucene 提供了五个基础的类,他们分别是 Document, Field, IndexWriter, Analyzer, Directory.下面我们分别介绍一下 ...
Lucence.Net+添加关键词+分页+排序
1.使用queryparser完成解析搜索请求 2.基本格式如: QueryParser parser=new QueryParser("字段名称","分析器实例&quo ...
Lucence.Net学习+盘古分词
创建索引库 //读取文件,存储到索引库 public string CreateDatebase() { //获取索引库的路径 ...

随机推荐

spring cloud微服务搭建第一天
martin fowler大神提出微服务的概念后,各种微服务的技术满天飞,现在用的比较多的是spring cloud和阿里的dubbo,由于dubbo 在16年10月份就停止更新了,这里我们讲解spr ...
OC分类(Category)
Category 分类 ,又称为类别.类目概念 Category有多种翻译:分类.类别.类目(一般叫分类的多) Category式OC特有的语法,其他语言没有的语法(类似于C#语言中的"扩 ...
PXC5.7集群部署
PXC三节点安装: node1:10.157.26.132 node2:10.157.26.133 node3:10.157.26.134 配置服务器ssh登录无密码验证 ssh-keygen实现 ...
for循环-0,1,1,2,2可以组成多少个不重复的五位数？
今天想到了一个比较有意思的for循环题:0,1,1,2,2可以组成多少个不重复的五位数? 它主要是for循环多层嵌套外加if判断,代码如下: protected void Button1_Click( ...
用ajax写分页查询-----2017-05-17
要写分页,首先你得清楚,一页你想显示多少条信息?如何计算总共显示的页数? 先说一下思路: (1)从数据库读取数据,以chenai表为例,读取所有留言信息.并能够实现输入发送者,可以查询该发送者的留言总 ...
学习spring前，先了解了解代理模式
什么是代理模式举个例子,我是一个包租公,我现在想卖房,但是我不想麻烦,每天被电话骚扰,所以这个时候我找了楼下一个中介,让他帮我代理这些事,那么他自然有租房的方法.以后如果有人想租房,直接找中介就行了 ...
Jenkins获取git tags代码
配置Jenkins获取git tag代码的方式其实方法很多,目前我使用比较多的主要是通过Git Parameter 来配置动态的获取最新tags代码,主要我们首先需要安装一下Git Parameter ...
如何创建并运行java线程
本文转载地址: http://ifeve.com/creating-and-starting-java-threads/ Java线程类也是一个object类,它的实例都继承自j ...
Thread in Java
References: [1]. http://www.javaworld.com/article/2074481/java-concurrency/java-101--understanding-j ...
Centos5搭建vsftpd服务
更换镜像源由于centos5已经历史久远,内置的镜像源已经不能用.看: 因此,我手工更换了阿里云的源.(ps:我本来是想用网易的源,但不知为什么,这个源在安装vsftpd时提示http 404错误) ...

Lucence

Lucence的更多相关文章

随机推荐

热门专题