搜索引擎之全文搜索算法功能实现（基于Lucene）

之前做去转盘网的时候，我已经公开了非全文搜索的代码，需要的朋友希望能够前去阅读我的博客。本文主要讨论如何进行全文搜索，由于本人花了很长时间设计了新作：观点，观点对全文搜索的要求还是很高的，所以我又花了不少时间研究全文搜索，你可以先体验下：点我搜索。废话也不多说了，直接上代码：

 public Map<String,Object>  articleSearchAlgorithms(SearchCondition condition,IndexSearcher searcher) throws ParseException, IOException{

            Map<String,Object> map =new HashMap<String,Object>();

             String[] filedsList=condition.getFiledsList();

             String keyWord=condition.getKeyWord();

             int currentPage=condition.getCurrentPage();

             int pageSize=condition.getPageSize();

             String sortField=condition.getSortField();

             boolean isASC=condition.isDESC();

             String sDate=condition.getsDate();

            String eDate=condition.geteDate();

            String classify=condition.getClassify();

            //过滤终结字符

            keyWord=escapeExprSpecialWord(keyWord);

            BooleanQuery q1 = new BooleanQuery();

            BooleanQuery q2 = new BooleanQuery();

             BooleanQuery booleanQuery = new BooleanQuery(); //boolean查询

             if(classify!=null&&(classify.equals("guanzhi")||classify.equals("opinion")||classify.equals("write"))){

                 String typeId="1";//默认言论

                 if(classify.equals("guanzhi")){

                     typeId="2";

                 }

                 if(classify.equals("opinion")){

                     typeId="3";

                 }

                 Query termQuery = new TermQuery(new Term("typeId",typeId));

                 q1.add(termQuery,BooleanClause.Occur.MUST);

             }

             if(sDate!=null&&eDate!=null){//是否范围查询由这两个参数决定

                Query rangeQuery = new TermRangeQuery("writingTime", new BytesRef(sDate), new BytesRef(eDate),true, true);

                q1.add(rangeQuery,BooleanClause.Occur.MUST);

             }

            Sort sort = new Sort(); // 排序

            sort.setSort(SortField.FIELD_SCORE);

            if(sortField!=null){

                sort.setSort(new SortField(sortField, SortField.Type.STRING, isASC));

            }

            int start = (currentPage - 1) * pageSize;

            int hm = start + pageSize;

            TopFieldCollector res = TopFieldCollector.create(sort,hm,false, false, false, false);

            //完全匹配查询

            Term t0=new Term(filedsList[1],keyWord);

            TermQuery termQuery = new TermQuery(t0);//两种高度匹配的查询

            q2.add(termQuery,BooleanClause.Occur.SHOULD);

            //前缀匹配

            Term t1=new Term(filedsList[1],keyWord);

            PrefixQuery prefixQuery=new PrefixQuery(t1);

            q2.add(prefixQuery,BooleanClause.Occur.SHOULD);

            //短语，相似度匹配，适用于分词的内容

            for(int i=0;i<filedsList.length;i++){ //多字段term查询算法

                if(i!=1){

                    PhraseQuery phraseQuery=new PhraseQuery();

                    Term ts0=new Term(filedsList[i],keyWord);

                    phraseQuery.add(ts0);

                    FuzzyQuery fQuery=new FuzzyQuery(new Term(filedsList[i],keyWord),2);//最后相似度查询

                    q2.add(phraseQuery,BooleanClause.Occur.SHOULD);

                    q2.add(fQuery,BooleanClause.Occur.SHOULD);//后缀相似的拿出来

                }

            }

            MultiFieldQueryParser  queryParser = new MultiFieldQueryParser(Version.LUCENE_47,filedsList,analyzer);

            queryParser.setDefaultOperator(QueryParser.AND_OPERATOR);

            Query query = queryParser.parse(keyWord);

            q2.add(query,BooleanClause.Occur.SHOULD);

            //必须加逻辑判断，否则结果是不同的

            if(q1!=null && q1.toString().length()>0){

                booleanQuery.add(q1,BooleanClause.Occur.MUST);

            }

            if(q2!=null && q2.toString().length()>0){

                 booleanQuery.add(q2,BooleanClause.Occur.MUST);

            }

            searcher.search(booleanQuery, res);

            long amount = res.getTotalHits();

            TopDocs tds = res.topDocs(start, pageSize);

            map.put("amount",amount);

            map.put("tds",tds);

            map.put("query",booleanQuery);

            return map;

    }

注意下：上面代码的搜索条件（SearchCondition ）是观点网的具体需求，您可以按照您自己的搜索条件做改动，这里也很难适配所有读者。

public Map<String, Object> searchArticle(SearchCondition condition) throws Exception{

        Map<String,Object> map =new HashMap<String,Object>();

        List<Write> list=new ArrayList<Write>();

         DirectoryReader reader=condition.getReader();

         String URL=condition.getURL();

         boolean isHighligth=condition.isHighlight();

         String keyWord=condition.getKeyWord();

         IndexSearcher searcher=getSearcher(reader,URL);

        try{

            Map<String,Object> output=articleSearchAlgorithms(condition,searcher);

            if(output==null){

                map.put("amount",0L);

                map.put("source",null);

                return map;

            }

            map.put("amount", output.get("amount"));

            TopDocs tds = (TopDocs) output.get("tds");

            ScoreDoc[] sd = tds.scoreDocs;

            Query query =(Query) output.get("query");

            for (int i = 0; i < sd.length; i++) {

                Document doc = searcher.doc(sd[i].doc);

                String id = doc.get("id");

                /**********************start*************************需要处理的放一块儿********************/

                String temp=doc.get("title");

                String title =temp; //默认不高亮

                if(isHighligth){

                    //高亮文章标题

                    Highlighter highlighterTitle = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

                    highlighterTitle.setTextFragmenter(new SimpleFragmenter(40)); // 字长度

                    TokenStream ts = analyzer.tokenStream("title", new StringReader(temp));

                    title= highlighterTitle.getBestFragment(ts,temp);

                    if(title==null){

                        title=temp.replace(keyWord,"<span style='color:red'>"+keyWord+"</span>");//高亮处理插件bug，加这句话避免

                    }

                }

                String temp1=HtmlEnDecode.htmlEncode(doc.get("content"));

                String content=temp1;//使用自己封装的方法来转义

                if(isHighligth){

                    //做高亮处理,content

                    Highlighter highlighterContent = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));

                    highlighterContent.setTextFragmenter(new SimpleFragmenter(Constant.HIGHLIGHT_CONTENT_LENGTH)); // 字长度

                    //temp1=StringEscapeUtils.escapeHtml(temp1);//将汉字转义导致高亮失效

                    TokenStream ts1 = analyzer.tokenStream("content", new StringReader(temp1));

                    content = highlighterContent.getBestFragment(ts1,temp1);

                    if(content==null){

                        content=temp1.replace(keyWord,"<span style='color:red'>"+keyWord+"</span>");//高亮处理插件bug，加这句话避免

                        //假设遇上这种情况做处理，其他的高亮器会自动截图

                        content=subContent(content);//截取处理

                        content=HtmlEnDecode.htmldecode(content);//html解码

                        content=SubStringHTML.sub(content,Constant.HIGHLIGHT_CONTENT_LENGTH);

                    }

                }

                /*---------------------------------------不断变动的数据放一块儿----------------------------*/

                Write write=writeDao.getArticle(Long.parseLong(id));

                if(write!=null){

                    write.setTitle(title);

                    write.setContent(content);

                    Date writingTime=write.getWritingTime();

                    String timeGap=DateUtil.dateGap(writingTime);//timeGap

                    write.setTimeGap(timeGap);

                    list.add(write);

                }

            }

        }catch(Exception e){

            e.printStackTrace();

        }

        map.put("source",list);

        return map;

    }

注意上面，这是具体的搜索代码，不同的应用场景有不同的需求，请您按照自己的需求封装对象，查询数据库等，代码毫无保留，绝对可用。

如果有什么疑问可以加qq群：284205104 如果群满了就麻烦去趟去转盘找下最新的群加了即可，谢谢您的阅读。

搜索引擎之全文搜索算法功能实现（基于Lucene）的更多相关文章

8 个基于 Lucene 的开源搜索引擎推荐
Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出了8种基于Lucene的搜索引擎,你可以想象它们有多么强大. 1. Apache Solr Solr 是一个高性能,采用Java5开发,基于L ...
Apache Solr采用Java开发、基于Lucene的全文搜索服务器
http://docs.spring.io/spring-data/solr/ 首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源.高性能.采用Java开发.基于Luc ...
通通WPF随笔（1）——基于lucene.NET让ComboBox拥有强大的下拉联想功能
原文:通通WPF随笔(1)--基于lucene.NET让ComboBox拥有强大的下拉联想功能我一直很疑惑百度.谷哥搜索框的下拉联想功能是怎么实现的?是不断地查询数据库吗?其实到现在我也不知道,他们 ...
Lucene5.5.4入门以及基于Lucene实现博客搜索功能
前言一直以来个人博客的搜索功能很蹩脚,只是自己简单用数据库的like %keyword%来实现的,所以导致经常搜不到想要找的内容,而且高亮显示.摘要截取等也不好实现,所以决定采用Lucene改写博客 ...
聊聊基于Lucene的搜索引擎核心技术实践
最近公司用到了ES搜索引擎,由于ES是基于Lucene的企业搜索引擎,无意间在“聊聊架构”微信公众号里发现了这篇文章,分享给大家. 请点击链接:聊聊基于Lucene的搜索引擎核心技术实践
C#编写了一个基于Lucene.Net的搜索引擎查询通用工具类：SearchEngineUtil
最近由于工作原因,一直忙于公司的各种项目(大部份都是基于spring cloud的微服务项目),故有一段时间没有与大家分享总结最近的技术研究成果的,其实最近我一直在不断的深入研究学习Spring.Sp ...
Postgres全文搜索功能
当构建一个Web应用时,经常被要求加上搜索功能.其实有时候我们也不知道我要搜索个啥,反正就是要有这个功能.搜索确实很重要的特性,这也是为什么像Elasticsearch和Solr这样基于Lucene的 ...
为什么要用全文搜索引擎：全文搜索引擎 VS 数据库管理系统
正文一:Full Text Search Engines vs. DBMS 发表于2009年正文二:Elasticsearch - A High-Performance Full-Text Sea ...
WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可 ...

随机推荐

记一下flex弹性布局
flex弹性布局也越来越广泛的在我们代码中出现了,更加方便我们的布局.自己用了查,查了用,有些还是记不住,俗话说好脑子不如烂笔头,原来都是写在本子上的,很不幸的一次次的想翻的时候总是找不到,还是写博客 ...
UnityShader-菲涅尔反射（Fresnel Reflection）
菲涅耳公式(或菲涅耳方程),由奥古斯丁·让·菲涅耳导出.用来描述光在不同折射率的介质之间的行为.由公式推导出的光的反射称之为"菲涅尔反射".菲涅尔公式是光学中的重要公式,用它能解释 ...
windows配置git
每次要使用git指令的时候都要去打开git bash 操作,太麻烦,要想直接在dos窗口下使用git指令需要再进行如下环境变量配置. 1.系统环境变量path添加:D://programFiles/g ...
php中session 入库的实现
ini_set("session.save_handler","user");//session.gc_probability = 1 分子ini_set(&q ...
三十天学不会TCP,UDP/IP编程--MAC地址和数据链路层
这篇文章主要是来做(da)推(guang)介(gao)的!由于这两年接触到了比较多的这方面的知识,不想忘了,我决定把他们记录下来,所以决定在GitBook用半年时间上面写下来,这是目前写的一节,后面会 ...
python 正则表达式之零宽断言
零宽断言:用于查找特定内容之前或之后的内容,但并不包括特定内容本身.对于零宽断言来说,我认为最重要的一个概念是位置,零宽断言用于指定一个位置,这个位置应该满足一定的条件(它附近满足什么表达式),并且这 ...
webpack安装配置
webpack安装 1.安装之前你必须要安装node.js,如果你没安装可以在node.js网去下载node.js 2.全局安装webpack,打开cmd输入npm install webpack - ...
Atcoder R84 D Small Multiple
题意:给定一个正整数K,求K的倍数中,各位上的数字之和最小是多少? 思路非常巧妙,对于一个数,我们有定义两种改变方式: 1.加1,则数字之和+1(9的情况另行考虑) 2.乘10,数字之和不变对于末位 ...
JaveScript变量的简介及其变量的简单使用(JS知识点归纳一)
变量简介 "变量是一个容器" 为什么要有变量? 程序的执行过程中,会使用到许多的数据(用户输入的内容,动态效果的运动数据等),当这些数据需要重复在多个地方使用的时候,就需要一个容器 ...
ofBiz-groovy-freemarker
ofBiz-groovy-freemarker根据浏览器的地址不同进入不同的页面第一步:(2选一)创建groovy文件,或者java文件.在文件中定义变量要放在 request.setAttrib ...

搜索引擎之全文搜索算法功能实现（基于Lucene）

搜索引擎之全文搜索算法功能实现（基于Lucene）的更多相关文章

随机推荐

热门专题