搜索引擎Lucene之皮毛

　　一、Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言，Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库，虽然与搜索引擎有关，但不应该将信息检索程序库与搜索引擎相混淆。

　　二、搜索引擎这个东西还是很大的，我这里只是用了一点点皮毛，有兴趣还是去学习一下Solr

　　三、简易版的搜索实现依赖包

　　　　<dependency>

            <groupId>com.github.magese</groupId>

            <artifactId>ik-analyzer</artifactId>

            <version>7.4.0</version>

        </dependency>

　　四、代码

import com.alibaba.fastjson.JSONObject;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.*;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.RAMDirectory;

import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

/**

 * Funtion: 搜索引擎核心工具类.

 * <p>

 * Date: 2018/9/18 14:08

 */

public class LuceneUtils {

    //索引字段

    private static final String INDEX_NAME = "searchName";

    //用于传输实体类型

    public static final String ENTITY_TYPE = "entityType";

    //关键词，用于前端

    public static final String KEY_WORDS = "keyWords";

    private static final Integer VIEW_NUMBER = 100;

    /**

     * 搜索引擎，查询结果

     * @param searchName

     * @param objects

     * @return

     * @throws Exception

     */

    public static List<JSONObject> search(String searchName, List<Object> objects) throws Exception {

        //1、准备中文分词器

        IKAnalyzer analyzer = new IKAnalyzer();

        //2、获取关键词，用于前端使用

        List<String> keywords = getKeywords(searchName, analyzer);

        //3、索引

        Directory directory = addIndex(analyzer, objects);

        //4、查询器

        Query query = new QueryParser(INDEX_NAME, analyzer).parse(searchName);

        //5、搜索

        IndexReader reader = DirectoryReader.open(directory);

        IndexSearcher searcher = new IndexSearcher(reader);

        ScoreDoc[] scoreDocs = searcher.search(query, VIEW_NUMBER).scoreDocs;

        //6、查询结果

        List<JSONObject> results = getResults(searcher, scoreDocs, keywords);

        //7、关闭查询

        reader.close();

        directory.close();

        //8、返回结果

        return results;

    }

    /**

     * 获取关键词

     * @param searchName

     * @param analyzer

     * @return

     * @throws IOException

     */

    private static List<String> getKeywords(String searchName, IKAnalyzer analyzer) throws IOException {

        List<String> keyWords = new ArrayList<>();

        TokenStream tokenStream = analyzer.tokenStream("", searchName);

        CharTermAttribute attribute = tokenStream.getAttribute(CharTermAttribute.class);

        tokenStream.reset();

        while (tokenStream.incrementToken()) {

            keyWords.add(attribute.toString());

        }

        tokenStream.close();

        return keyWords;

    }

    /**

     * 获取搜索结果

     * @param searcher

     * @param scoreDocs

     * @return

     * @throws Exception

     */

    private static List<JSONObject> getResults(IndexSearcher searcher, ScoreDoc[] scoreDocs, List<String> keyWords) throws Exception {

        if (scoreDocs != null && scoreDocs.length > 0) {

            IKAnalyzer analyzer = new IKAnalyzer();

            List<JSONObject> objects = new ArrayList<>();

            //遍历文本

            for (ScoreDoc scoreDoc:scoreDocs) {

                Document document = searcher.doc(scoreDoc.doc);

                List<IndexableField> fields = document.getFields();

                if (fields != null && !fields.isEmpty()) {

                    //获取指定索引数据

                    JSONObject jsonObject = JSONObject.parseObject(document.get(INDEX_NAME));

                    jsonObject.put(ENTITY_TYPE, document.get(ENTITY_TYPE));

                    jsonObject.put(KEY_WORDS, keyWords);

                    objects.add(jsonObject);

                }

            }

            return objects;

        }

        return null;

    }

    /**

     * 添加索引

     * @param analyzer

     * @param objects

     * @return

     * @throws IOException

     */

    private static Directory addIndex(IKAnalyzer analyzer, List<Object> objects) throws IOException {

        //使用内存方式

        Directory directory = new RAMDirectory();

        IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

        IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

        if (objects != null && !objects.isEmpty()) {

            //添加索引

            for (Object object:objects) {

                Document document = new Document();

                document.add(new TextField(INDEX_NAME, JSONObject.toJSONString(object), Field.Store.YES));

                document.add(new TextField(ENTITY_TYPE, object.getClass().getName(), Field.Store.YES));

                indexWriter.addDocument(document);

            }

        }

        indexWriter.close();

        return directory;

    }

}

搜索引擎Lucene之皮毛的更多相关文章

[垂直化搜索引擎]lucene简介及使用
摘自:大型分布式网站架构-设计与实践
1、什么是Lucene，Lucene能干什么
1.什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让 ...
lucene简介创建索引和搜索初步
lucene简介创建索引和搜索初步一.什么是Lucene? Lucene最初是由Doug Cutting开发的,2000年3月,发布第一个版本,是一个全文检索引擎的架构,提供了完整的查询引擎和索引 ...
Solr vs. Elasticsearch谁是开源搜索引擎王者
当前是云计算和数据快速增长的时代,今天的应用程序正以PB级和ZB级的速度生产数据,但人们依然在不停的追求更高更快的性能需求.随着数据的堆积,如何快速有效的搜索这些数据,成为对后端服务的挑战.本文,我们 ...
转 Solr vs. Elasticsearch谁是开源搜索引擎王者
转 https://www.cnblogs.com/xiaoqi/p/6545314.html Solr vs. Elasticsearch谁是开源搜索引擎王者当前是云计算和数据快速增长的时代,今天 ...
Elasticsearch vs Solr 搜索引擎对比和选型
前言全文搜索属于最常见的需求,开源的 Elasticsearch 是目前全文搜索引擎的首选. 基于Lucene它可以快速地储存.搜索和分析海量数据.维基百科.Stack Overflow.Githu ...
Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法
2019独角兽企业重金招聘Python工程师标准>>> Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法博客分类: java 搜索引擎 ...
基于.NET平台常用的框架整理(转)
自从学习.NET以来,优雅的编程风格,极度简单的可扩展性,足够强大开发工具,极小的学习曲线,让我对这个平台产生了浓厚的兴趣,在工作和学习中也积累了一些开源的组件,就目前想到的先整理于此,如果再想到, ...
Index
我主要在研究.NET/C# 实现 PC IMERP 和 Android IMERP ,目的在解决企业通信中遇到的各类自动化问题分布式缓存框架: Microsoft Velocity:微软自家分布 ...

随机推荐

POJ 1122 FDNY to the Rescue!（最短路+路径输出）
http://poj.org/problem?id=1122 题意:给出地图并且给出终点和多个起点,输出从各个起点到终点的路径和时间. 思路: 因为有多个起点,所以这里反向建图,这样就相当于把终点变成 ...
Pro Git读书笔记 - Git 常用命令
在工作目录中初始化新仓库要对现有的某个项目开始用 Git 管理,只需到此项目所在的目录,执行git init 检查当前文件状态要查看哪些文件处于什么状态,可以用git status命令将工作文件 ...
单例模式（Singleton-Pattern）百媚生
1 动机对于系统中的某些类来说,只有一个实例很重要,例如,一个系统中可以存在多个打印任务,但是只能有一个正在工作的任务;一个系统只能有一个窗口管理器或文件系统;一个系统只能有一个计时工具或ID(序号 ...
Socket编程理论
Socket理论本地IP地址.本地端口号.外地IP地址.外地端口号组成一对套接字对. socket(套接字),就是 IP:端口号的形式. 一个完整的Socket有一个本地唯一的Socket号,由操作 ...
JSP Cookies 处理
JSP Cookies 处理 Cookies是存储在客户机的文本文件,它们保存了大量轨迹信息.在servlet技术基础上,JSP显然能够提供对HTTP cookies的支持. 通常有三个步骤来识别回头 ...
HDU 4522 (恶心建图)
湫湫系列故事——过年回家 Time Limit: 500/200 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)Total ...
快速切题 sgu134.Centroid 树形dp
134. Centroid time limit per test: 0.25 sec. memory limit per test: 4096 KB You are given an undirec ...
git 基础入门操作
前言: 介绍基础的git入门级指令,虽然git指令非常多,但是实际工作中,我们会用到的非常少,小项目中甚至只需要用到2.3个.而且大部分人都会采用gui,而不是每次都打开终端然后输一长串难记的指令. ...
Toncat-OpenSSL双向认证配置（iOS）
OpenSSL生成证书要生成证书的目录下建立几个文件和文件夹,有./demoCA/ ./demoCA/newcerts/ ./demoCA/private/ ./demoCA/index.txt ( ...
Alpha阶段第2周/共2周 Scrum立会报告+燃尽图 04
作业要求[https://edu.cnblogs.com/campus/nenu/2018fall/homework/2287] 版本控制:https://git.coding.net/liuyy08 ...

搜索引擎Lucene之皮毛

搜索引擎Lucene之皮毛的更多相关文章

随机推荐

热门专题