lucene入门

一、lucene简介

　　Lucene是apache下的一个靠性能的、功能全面的用纯java开发的一个全文搜索引擎库。它几乎适合任何需要全文搜索应用程序，尤其是跨平台。lucene是开源的免费的工程。lucene使用简单但是提供的功能非常强大。相关特点如下：

在硬件上的速度超过150GB/小时
更小的内存需求，只需要1MB堆空间
快速地增加索引、与批量索引
索引的大小大于为被索引文本的20%-30%

　　lucene下载地址为：http://lucene.apache.org/

　　文本示例工程使用maven构建，lucene版本为5.2.1。相关依赖文件如下：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>com.shh</groupId>

    <artifactId>lucene</artifactId>

    <packaging>war</packaging>

    <version>0.0.1-SNAPSHOT</version>

    <name>lucene Maven Webapp</name>

    <url>http://maven.apache.org</url>

    <properties>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <lucene.version>5.2.1</lucene.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.lucene</groupId>

            <artifactId>lucene-core</artifactId>

            <version>${lucene.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.lucene</groupId>

            <artifactId>lucene-queryparser</artifactId>

            <version>${lucene.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.lucene</groupId>

            <artifactId>lucene-analyzers-common</artifactId>

            <version>${lucene.version}</version>

        </dependency>

        <!-- 分词器 -->

        <dependency>

            <groupId>org.apache.lucene</groupId>

            <artifactId>lucene-analyzers-smartcn</artifactId>

            <version>${lucene.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.lucene</groupId>

            <artifactId>lucene-highlighter</artifactId>

            <version>${lucene.version}</version>

        </dependency>

    </dependencies>

    <build>

        <finalName>lucene</finalName>

    </build>

</project>

二、示例

　　1、索引的创建

　　相关代码如下：

 package com.test.lucene;

 import java.io.IOException;

 import java.nio.file.Paths; 

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.standard.StandardAnalyzer;

 import org.apache.lucene.document.Document;

 import org.apache.lucene.document.Field.Store;

 import org.apache.lucene.document.IntField;

 import org.apache.lucene.document.StringField;

 import org.apache.lucene.document.TextField;

 import org.apache.lucene.index.IndexWriter;

 import org.apache.lucene.index.IndexWriterConfig;

 import org.apache.lucene.index.IndexWriterConfig.OpenMode;

 import org.apache.lucene.store.Directory;

 import org.apache.lucene.store.FSDirectory;

 /**

  * 创建索引

  */

 public class IndexCreate {

     public static void main(String[] args) {

         // 指定分词技术，这里使用的是标准分词

         Analyzer analyzer = new StandardAnalyzer();

         // indexWriter的配置信息

         IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

         // 索引的打开方式：没有则创建，有则打开

         indexWriterConfig.setOpenMode(OpenMode.CREATE_OR_APPEND);

         Directory directory = null;

         IndexWriter indexWriter = null;

         try {

             // 索引在硬盘上的存储路径

             directory = FSDirectory.open(Paths.get("D://index/test"));

             //indexWriter用来创建索引文件

             indexWriter = new IndexWriter(directory, indexWriterConfig);

         } catch (IOException e) {

             e.printStackTrace();

         }

         //创建文档一

         Document doc1 = new Document();

         doc1.add(new StringField("id", "abcde", Store.YES));

         doc1.add(new TextField("content", "中国广州", Store.YES));

         doc1.add(new IntField("num", 1, Store.YES));

         //创建文档二

         Document doc2 = new Document();

         doc2.add(new StringField("id", "asdff", Store.YES));

         doc2.add(new TextField("content", "中国上海", Store.YES));

         doc2.add(new IntField("num", 2, Store.YES));

         try {

             //添加需要索引的文档

             indexWriter.addDocument(doc1);

             indexWriter.addDocument(doc2);

             // 将indexWrite操作提交，如果不提交，之前的操作将不会保存到硬盘

             // 但是这一步很消耗系统资源，索引执行该操作需要有一定的策略

             indexWriter.commit();

         } catch (IOException e) {

             e.printStackTrace();

         } finally {

             // 关闭资源

             try {

                 indexWriter.close();

                 directory.close();

             } catch (IOException e) {

                 e.printStackTrace();

             }

         }

     }

 }

　　2、搜索

　　相关代码如下：

 package com.test.lucene;

 import java.io.IOException;

 import java.nio.file.Paths;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.standard.StandardAnalyzer;

 import org.apache.lucene.document.Document;

 import org.apache.lucene.index.DirectoryReader;

 import org.apache.lucene.queryparser.classic.ParseException;

 import org.apache.lucene.queryparser.classic.QueryParser;

 import org.apache.lucene.search.IndexSearcher;

 import org.apache.lucene.search.Query;

 import org.apache.lucene.search.TopDocs;

 import org.apache.lucene.store.Directory;

 import org.apache.lucene.store.FSDirectory;

 /**

  * 搜索

  */

 public class IndexSearch {

     public static void main(String[] args) {

         //索引存放的位置

         Directory directory = null;

         try {

             // 索引硬盘存储路径

             directory = FSDirectory.open(Paths.get("D://index/test"));

             // 读取索引

             DirectoryReader directoryReader = DirectoryReader.open(directory);

             // 创建索引检索对象

             IndexSearcher searcher = new IndexSearcher(directoryReader);

             // 分词技术

             Analyzer analyzer = new StandardAnalyzer();

             // 创建Query

             QueryParser parser = new QueryParser("content", analyzer);

             Query query = parser.parse("广州");// 查询content为广州的

             // 检索索引，获取符合条件的前10条记录

             TopDocs topDocs = searcher.search(query, 10);

             if (topDocs != null) {

                 System.out.println("符合条件的记录为： " + topDocs.totalHits);

                 for (int i = 0; i < topDocs.scoreDocs.length; i++) {

                     Document doc = searcher.doc(topDocs.scoreDocs[i].doc);

                     System.out.println("id = " + doc.get("id"));

                     System.out.println("content = " + doc.get("content"));

                     System.out.println("num = " + doc.get("num"));

                 }

             }

             directory.close();

             directoryReader.close();

         } catch (IOException e) {

             e.printStackTrace();

         } catch (ParseException e) {

             e.printStackTrace();

         }

     }

 }

　　运行结果如下：

三、lucene的工作原理

　　lucene全文搜索分为两个步骤：

　　索引创建：将数据（包括数据库数据、文件等）进行信息提取，并创建索引文件。

　　搜索索引：根据用户的搜索请求，对创建的索引进行搜索，并将搜索的结果返回给用户。

　　相关示意图如下：

lucene入门的更多相关文章

Lucene入门学习
技术原理: 开发环境: lucene包:分词包,核心包,高亮显示(highlight和memory),查询包.(下载请到官网去查看,如若下载其他版本,请看我的上篇文档,在luke里面) 原文文档: 入 ...
Lucene 入门需要了解的东西
全文搜索引擎的原理网上大段的内容,要想深入的学习,最好的办法就是先用一下,lucene 发展比较快,下面是写第一个demo 要注意的一些事情: 1.Lucene的核心jar包,下面几个包分别位于不同 ...
Lucene入门的基本知识（四）
刚才在写创建索引和搜索类的时候发现非常多类的概念还不是非常清楚,这里我总结了一下. 1 lucene简单介绍 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不 ...
Lucene入门教程
Lucene教程 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么 ...
Lucene入门教程（转载）
http://blog.csdn.net/tianlincao/article/details/6867127 Lucene教程 1 lucene简介 1.1 什么是lucene Lucene ...
Lucene入门-安装和运行Demo程序
Lucene版本:7.1 一.下载安装包 https://lucene.apache.org/core/downloads.html 二.安装把4个必备jar包和路径添加到CLASSPATH \lu ...
Lucene入门简介
一 Lucene产生的背景数据库中的搜索很容易实现,通常都是使用sql语句进行查询,而且能很快的得到查询结果. 为什么数据库搜索很容易? 因为数据库中的数据存储是有规律的,有行有列而且数据格式.数 ...
Lucene入门案例一
1. 配置开发环境官方网站:http://lucene.apache.org/ Jdk要求:1.7以上创建索引库必须的jar包(lucene-core-4.10.3.jar,lucene-anal ...
Java Lucene入门
1.lucene版本:7.2.1 pom文件: <?xml version="1.0" encoding="UTF-8"?> <project ...

随机推荐

Redis设计与实现-持久化篇
redis数据库默认16个数据库,每个数据库由一个redis.h/redisDb结构表示,此结构里的dict字典与expires字典,其中dict保存了该库所有键值对,此字典即为键空间:expire ...
eclipse中 properties文件编码问题
1. Eclipse修改设置项目中用到了配置文件,所以在Eclipse中新建.properties文件,文件中编辑了中文,在保存时Eclipse报出以下错误: 解决这个问题的方法: 依次选择: 菜单 ...
C#设计模式——工厂方法模式(Factory Method Pattern)
一.概述在软件系统中,经常面临着“某个对象”的创建工作,由于需求的变化,这个对象的具体实现经常面临着剧烈的变化,但是它却拥有比较稳定的接口.如何应对这种变化?如何提供一种封装机制来隔离出“这个易变对象 ...
交通银行 Java Socket 服务启动管理 WINDOWS 版
按照交通银行提供的无界面启动方法试验了很多次,都没有成功,所以自己动手用C# 知识写了一个. 小工具可以判断交通银行 JAVA SOCKET 服务是否启动,并可以启动/关闭服务主要代码如下: 判断 ...
实例对比剖析c#引用参数的用法
c#引用参数传递的深入剖析值类型的变量存储数据,而引用类型的变量存储对实际数据的引用.(这一点很重要,明白了之后就能区分开值类型和引用类型的差别) 在参数传递时,值类型是以值的形式传递的(传递的是值, ...
ACdrea 1217---Cracking' RSA（高斯消元）
ACdrea 1217---高斯消元 Description The following problem is somehow related to the final stage of many ...
jsp页面列表展示 ajax异步实现
1. 服务端先返回页面基本结构(如message.jsp), <%@ page language="java" contentType="text/html; ch ...
[ASP.NET MVC] ASP.NET Identity学习笔记 - 原始码下载、ID型别差异
[ASP.NET MVC] ASP.NET Identity学习笔记 - 原始码下载.ID型别差异原始码下载 ASP.NET Identity是微软所贡献的开源项目,用来提供ASP.NET的验证.授 ...
How to Install Hadoop on Ubuntu
安装教程,https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-on-ubuntu-13-10
如何在树莓派上运行雷神之锤III
昨天在树莓派上尝试运行了一下雷神之锤III,流畅运行,效果不错~~~ RPI这个小身板的东东总是可以给你带来惊喜,这里记录一下步骤以备后续再用先确保RPI的程序和固件都已经更新 sudo apt-g ...

lucene入门

lucene入门的更多相关文章

随机推荐

热门专题