谈谈个人网站的建立（二）—

首先，帮忙点击一下我的网站http://www.wenzhihuai.com/ 。谢谢啊，如果可以，GitHub上麻烦给个star，以后面试能讲讲这个项目，GitHub地址https://github.com/Zephery/newblog 。

Lucene的整体架构

搜索引擎的几个重要概念：

倒排索引：将文档中的词作为关键字，建立词与文档的映射关系，通过对倒排索引的检索，可以根据词快速获取包含这个词的文档列表。倒排索引一般需要对句子做去除停用词。
停用词：在一段句子中，去掉之后对句子的表达意向没有印象的词语，如“非常”、“如果”，中文中主要包括冠词，副词等。
排序：搜索引擎在对一个关键词进行搜索时，可能会命中许多文档，这个时候，搜索引擎就需要快速的查找的用户所需要的文档，因此，相关度大的结果需要进行排序，这个设计到搜索引擎的相关度算法。

Lucene中的几个概念

文档（Document）：文档是一系列域的组合，文档的域则代表一系列域文档相关的内容。
域（Field）：每个文档可以包含一个或者多个不同名称的域。
词（Term）：Term是搜索的基本单元，与Field相对应，包含了搜索的域的名称和关键词。
查询（Query）：一系列Term的条件组合，成为TermQuery，但也有可能是短语查询等。
分词器（Analyzer）：主要是用来做分词以及去除停用词的处理。

索引的建立

索引的搜索

lucene在本网站的使用：

搜索 2. 自动分词

一、搜索

注意：本文使用最新的lucene，版本6.6.0。lucene的版本更新很快，每跨越一次大版本，使用方式就不一样。首先需要导入lucene所使用的包。使用maven：

<dependency>

    <groupId>org.apache.lucene</groupId>

    <artifactId>lucene-core</artifactId><!--lucene核心-->

    <version>${lucene.version}</version>

</dependency>

<dependency>

    <groupId>org.apache.lucene</groupId>

    <artifactId>lucene-analyzers-common</artifactId><!--分词器-->

    <version>${lucene.version}</version>

</dependency>

<dependency>

    <groupId>org.apache.lucene</groupId>

    <artifactId>lucene-analyzers-smartcn</artifactId><!--中文分词器-->

    <version>${lucene.version}</version>

</dependency>

<dependency>

    <groupId>org.apache.lucene</groupId>

    <artifactId>lucene-queryparser</artifactId><!--格式化-->

    <version>${lucene.version}</version>

</dependency>

<dependency>

    <groupId>org.apache.lucene</groupId>

    <artifactId>lucene-highlighter</artifactId><!--lucene高亮-->

    <version>${lucene.version}</version>

</dependency>

构建索引

Directory dir = FSDirectory.open(Paths.get("blog_index"));//索引存储的位置

SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();//简单的分词器

IndexWriterConfig config = new IndexWriterConfig(analyzer);

IndexWriter writer = new IndexWriter(dir, config);

Document doc = new Document();

doc.add(new TextField("title", blog.getTitle(), Field.Store.YES)); //对标题做索引

doc.add(new TextField("content", Jsoup.parse(blog.getContent()).text(), Field.Store.YES));//对文章内容做索引

writer.addDocument(doc);

writer.close();

更新与删除

IndexWriter writer = getWriter();

Document doc = new Document();

doc.add(new TextField("title", blog.getTitle(), Field.Store.YES));

doc.add(new TextField("content", Jsoup.parse(blog.getContent()).text(), Field.Store.YES));

writer.updateDocument(new Term("blogid", String.valueOf(blog.getBlogid())), doc);   //更新索引

writer.close();

查询

private static void search_index(String keyword) {

    try {

        Directory dir = FSDirectory.open(Paths.get("blog_index")); //获取要查询的路径，也就是索引所在的位置

        IndexReader reader = DirectoryReader.open(dir);

        IndexSearcher searcher = new IndexSearcher(reader);

        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();

        QueryParser parser = new QueryParser("content", analyzer); //查询解析器

        Query query = parser.parse(keyword); //通过解析要查询的String，获取查询对象

        TopDocs docs = searcher.search(query, 10);//开始查询，查询前10条数据，将记录保存在docs中,

        for (ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果

            Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档

            System.out.println(doc.get("title")); //fullPath是刚刚建立索引的时候我们定义的一个字段

        }

        reader.close();

    } catch (IOException | ParseException e) {

        logger.error(e.toString());

    }

}

高亮

Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);

SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<b><font color='red'>", "</font></b>");

Highlighter highlighter = new Highlighter(simpleHTMLFormatter, scorer);

highlighter.setTextFragmenter(fragmenter);

for (ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果

    Document doc = searcher.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档

    String title = doc.get("title");

    TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(title));

    String hTitle = highlighter.getBestFragment(tokenStream, title);

    System.out.println(hTitle);

}

结果

<b><font color='red'>Java</font></b>堆.栈和常量池 笔记

分页

目前lucene分页的方式主要有两种：

(1). 每次都全部查询，然后通过截取获得所需要的记录。由于采用了分词与倒排索引，所有速度是足够快的，但是在数据量过大的时候，占用内存过大，容易造成内存溢出

(2). 使用searchAfter把数据保存在缓存里面，然后再去取。这种方式对大量的数据友好，但是当数据量比较小的时候，速度会相对慢。

lucene中使用searchafter来筛选顺序

ScoreDoc lastBottom = null;//相当于pageSize

BooleanQuery.Builder booleanQuery = new BooleanQuery.Builder();

QueryParser parser1 = new QueryParser("title", analyzer);//对文章标题进行搜索

Query query1 = parser1.parse(q);

booleanQuery.add(query1, BooleanClause.Occur.SHOULD);

TopDocs hits = search.searchAfter(lastBottom, booleanQuery.build(), pagehits);  //lastBottom（pageSize），pagehits（pagenum）

使用效果

全部代码放在这里，代码写的不太好，光从代码规范上就不咋地。在网页上的使用效果如下：

二、lucene自动补全

百度、谷歌等在输入文字的时候会弹出补全框，如下图：

在搭建lucene自动补全的时候，也有考虑过使用SQL语句中使用like来进行，主要还是like对数据库压力会大，而且相关度没有lucene的高。主要使用了官方suggest库以及autocompelte.js这个插件。

suggest的原理看这,以及索引结构看这。

使用：

导入maven包

<dependency>

    <groupId>org.apache.lucene</groupId>

    <artifactId>lucene-suggest</artifactId>

    <version>6.6.0</version>

</dependency>

如果想将结果反序列化，声明实体类的时候要加上：

public class Blog implements Serializable {

实现InputIterator接口

InputIterator的几个方法：

long weight():返回的权重值，大小会影响排序，默认是1L

BytesRef payload():对某个对象进行序列化

boolean hasPayloads():是否有设置payload信息

Set contexts():存入context，context里可以是任意的自定义数据，一般用于数据过滤

boolean hasContexts():判断是否有下一个，默认为false

public class BlogIterator implements InputIterator {

    /**

     * logger

     */

    private static final Logger logger = LoggerFactory.getLogger(BlogIterator.class);

    private Iterator<Blog> blogIterator;

    private Blog currentBlog;

    public BlogIterator(Iterator<Blog> blogIterator) {

        this.blogIterator = blogIterator;

    }

    @Override

    public boolean hasContexts() {

        return true;

    }

    @Override

    public boolean hasPayloads() {

        return true;

    }

    public Comparator<BytesRef> getComparator() {

        return null;

    }

    @Override

    public BytesRef next() {

        if (blogIterator.hasNext()) {

            currentBlog = blogIterator.next();

            try {

                //返回当前Project的name值，把blog类的name属性值作为key

                return new BytesRef(Jsoup.parse(currentBlog.getTitle()).text().getBytes("utf8"));

            } catch (Exception e) {

                e.printStackTrace();

                return null;

            }

        } else {

            return null;

        }

    }

    /**

     * 将Blog对象序列化存入payload

     * 可以只将所需要的字段存入payload，这里对整个实体类进行序列化，方便以后需求，不建议采用这种方法

     */

    @Override

    public BytesRef payload() {

        try {

            ByteArrayOutputStream bos = new ByteArrayOutputStream();

            ObjectOutputStream out = new ObjectOutputStream(bos);

            out.writeObject(currentBlog);

            out.close();

            BytesRef bytesRef = new BytesRef(bos.toByteArray());

            return bytesRef;

        } catch (IOException e) {

            logger.error("", e);

            return null;

        }

    }

    /**

     * 文章标题

     */

    @Override

    public Set<BytesRef> contexts() {

        try {

            Set<BytesRef> regions = new HashSet<BytesRef>();

            regions.add(new BytesRef(currentBlog.getTitle().getBytes("UTF8")));

            return regions;

        } catch (UnsupportedEncodingException e) {

            throw new RuntimeException("Couldn't convert to UTF-8");

        }

    }

    /**

     * 返回权重值，这个值会影响排序

     * 这里以产品的销售量作为权重值，weight值即最终返回的热词列表里每个热词的权重值

     */

    @Override

    public long weight() {

        return currentBlog.getHits();   //change to hits

    }

}

ajax 建立索引

/**

 * ajax建立索引

 */

@Override

public void ajaxbuild() {

    try {

        Directory dir = FSDirectory.open(Paths.get("autocomplete"));

        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();

        AnalyzingInfixSuggester suggester = new AnalyzingInfixSuggester(dir, analyzer);

        //创建Blog测试数据

        List<Blog> blogs = blogMapper.getAllBlog();

        suggester.build(new BlogIterator(blogs.iterator()));

    } catch (IOException e) {

        System.err.println("Error!");

    }

}

查找

因为有些文章的标题是一样的，先对list排序，将标题短的放前面，长的放后面，然后使用LinkHashSet来存储。

@Override

public Set<String> ajaxsearch(String keyword) {

    try {

        Directory dir = FSDirectory.open(Paths.get("autocomplete"));

        SmartChineseAnalyzer analyzer = new SmartChineseAnalyzer();

        AnalyzingInfixSuggester suggester = new AnalyzingInfixSuggester(dir, analyzer);

        List<String> list = lookup(suggester, keyword);

        list.sort(new Comparator<String>() {

            @Override

            public int compare(String o1, String o2) {

                if (o1.length() > o2.length()) {

                    return 1;

                } else {

                    return -1;

                }

            }

        });

        Set<String> set = new LinkedHashSet<>();

        for (String string : list) {

            set.add(string);

        }

        ssubSet(set, 7);

        return set;

    } catch (IOException e) {

        System.err.println("Error!");

        return null;

    }

}

controller层

@RequestMapping("ajaxsearch")

public void ajaxsearch(HttpServletRequest request, HttpServletResponse response) throws IOException {

    String keyword = request.getParameter("keyword");

    if (StringUtils.isEmpty(keyword)) {

        return;

    }

    Set<String> set = blogService.ajaxsearch(keyword);

    Gson gson = new Gson();

    response.getWriter().write(gson.toJson(set));//返回的数据使用json

}

ajax来提交请求

autocomplete.js源代码与介绍：https://github.com/xdan/autocomplete

<link rel="stylesheet" href="js/autocomplete/jquery.autocomplete.css">

<script src="js/autocomplete/jquery.autocomplete.js" type="text/javascript"></script>

<script type="text/javascript">

    /******************** remote start **********************/

    $('#remote_input').autocomplete({

        source: [

            {

                url: "ajaxsearch.html?keyword=%QUERY%",

                type: 'remote'

            }

        ]

    });

    /********************* remote end ********************/

</script>

效果：

欢迎访问我的个人网站

参考：

https://www.ibm.com/developerworks/cn/java/j-lo-lucene1/

http://iamyida.iteye.com/blog/2205114

谈谈个人网站的建立（二）—— lucene的使用的更多相关文章

MVC5 网站开发之二创建项目
昨天对项目的思路大致理了一下,今天先把解决方案建立起来.整个解决包含Ninesky.Web.Ninesky.Core,Ninesky.DataLibrary等3个项目.Ninesky.Web是web应 ...
ASP.NET MVC5 网站开发实践(二) Member区域 - 用户部分（3）修改资料、修改密码
在上一篇博客中实现了用户的注销和登录,其实代码里落了点东西,就是用户登录要更新最后一次登录时间和登录IP,这次补上.今天做修改资料和修改密码,TryUpdateModel是新用到的东西. 目录: AS ...
[译]MVC网站教程（二）：异常管理
介绍 “MVC网站教程”系列的目的是教你如何使用 ASP.NET MVC 创建一个基本的.可扩展的网站. 1) MVC网站教程(一):多语言网站框架 2) MVC网站教程(二):异常管理 3) ...
ASP.NET MVC5 网站开发实践(二) Member区域–管理列表、回复及删除
本来想接着上次把这篇写完的,没想到后来工作的一些事落下了,放假了赶紧补上. 目录: ASP.NET MVC5 网站开发实践 - 概述 ASP.NET MVC5 网站开发实践(一) - 项目框架 ASP ...
ASP.NET MVC5 网站开发实践(二) Member区域–我的咨询列表及添加咨询
上次把咨询的架构搭好了,现在分两次来完成咨询:1.用户部分,2管理部分.这次实现用户部分,包含两个功能,查看我的咨询和进行咨询. 目录: ASP.NET MVC5 网站开发实践 - 概述 ASP.NE ...
ASP.NET MVC5 网站开发实践(二) Member区域 - 咨询管理的架构
咨询.留言.投诉等功能是网站应具备的基本功能,可以加强管理员与用户的交流,在上次完成文章部分后,这次开始做Member区域的咨询功能(留言.投诉都是咨询).咨询跟文章非常相似,而且内容更少.更简单. ...
ASP.NET MVC5 网站开发实践(二) Member区域 - 修改及删除文章
上次做了显示文章列表,再实现修改和删除文章这部分内容就结束了,这次内容比较简单,由于做过了添加文章,修改文章非常类似,就是多了一个TryUpdateModel部分更新模型数据. 目录: ASP.N ...
ASP.NET MVC5 网站开发实践(二) Member区域 - 全部文章列表
显示文章列表分两块,管理员可以显示全部文章列表,一般用户只显示自己的文章列表.文章列表的显示采用easyui-datagrid.后台需要与之对应的action返回json类型数据目录 ASP.N ...
ASP.NET MVC5 网站开发实践(二) Member区域 - 添加文章
上次把架构做好了,这次做添加文章.添加文章涉及附件的上传管理及富文本编辑器的使用,早添加文章时一并实现. 要点: 富文本编辑器采用KindEditor.功能很强大,国人开发,LGPL开源,自己人的好东 ...

随机推荐

b.控制结构
1. if/ if... else...与java 相同. 2.while/ do while 用法与java 相同,返回值始终为Unit. 3.for循环终于有自己的风格,如下: // <- ...
Linux shell for while 循环
1.数字段形式for i in {1..10}do echo $idone 2.详细列出(字符且项数不多)for File in 1 2 3 4 5 do echo $File done ...
FPGA计算3行同列数据之和
实验:FPGA计算3行同列数据之和实验要求:PC机通过串口发送3行数据(一行有56个数据,3行共有56*3=168个数据)给FPGA,FPGA计算3行同一列数据的和,并将结果通过串口返回给上位机. ...
修改wampsever默认密码
wamp初始默认mysql账号:root 密码: 空准备修改为,账号:root 密码:xys829475 1.在phpMyAdmin界面中点击[用户],将用户概况中的所有用户名为[root]的用户的 ...
cn_office2016
office 2016是可用激活器激活的,但是激活office 365就有点困难了. 附上office 2016下载地址:http://pan.baidu.com/s/1pLTqPyr 破解机:htt ...
docker - 设置HTTP/HTTPS 代理
背景将docker的服务器环境切换到新的网络之后,由于服务器的internet是受限制的(需要连接配置远程代理,不能直接上网).因此,在使用docker连接docker hub 的时候,就会出错: ...
用于NLP的CNN架构搬运：from keras0.x to keras2.x
本文亮点: 将用于自然语言处理的CNN架构,从keras0.3.3搬运到了keras2.x,强行练习了Sequential+Model的混合使用,具体来说,是Model里嵌套了Sequential. ...
尝试在CentOS7.2上编译安装Swift
苹果提供 Ubuntu上构建Swift 的教程,通过这个教程我尝试使用CentOS7.2上玩儿一把.目前已经成功在CentOS7.2上班成功安装 swift 4.0 https://github.co ...
ida和idr机制分析（盘符分配机制）
# ida和idr机制分析 ida和idr的机制在我个人看来,是内核管理整数资源的一种方法.在内核中,许多地方都用到了该结构(例如class的id,disk的id),更直观的说,硬盘的sda到sdz的 ...
Bear and Three Balls
链接:http://codeforces.com/problemset/problem/653/A ...

谈谈个人网站的建立（二）—— lucene的使用