Lucene笔记二

lucene 的排序

package cn.itcast.lucene;

import java.io.IOException;

import org.apache.lucene.document.Document;

import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.Sort;

import org.apache.lucene.search.SortField;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.search.SortField.Type;

import cn.itcast.uitls.LuceneUtils;

/**

 *

 * 根据lucene 的字段的名称进行排序...

 *

 * 对查询出来的结果进行排序\

 * 加了排序条件之后，每个文档得分将失效..

 * @author Administrator

 *

 */

public class TestSort1 {

    public static void main(String[] args) throws Exception {

        IndexSearcher indexSearcher=LuceneUtils.getIndexSearcher();

        String keywords="全文检索服务器";

        String fields []={"content"};

        QueryParser queryParser=new MultiFieldQueryParser(LuceneUtils.getVersion(),fields,LuceneUtils.getAnalyzer());

        Query query=queryParser.parse(keywords); 

        //需要根据那个字段进行排序

        /**

         * 1:需要根据那个字段进行排序

         *

         * 2：排序的字段对应的类型

         *

         * 3:是否反转  （升序(true) 降序 （false））

         *

         */

        SortField sortField=new SortField("id", Type.INT,true);

        //设置排序的条件

        Sort sort=new Sort(sortField);

        TopDocs topDocs=indexSearcher.search(query, 100, sort);

        ScoreDoc scoreDocs[]=topDocs.scoreDocs;

        for(ScoreDoc scoreDoc :scoreDocs){

            //根据id 去击中一个文档呢..

            Document document=indexSearcher.doc(scoreDoc.doc);

            //每个文档都有一个得分,这个得分是float 类型，他是lucene 自己内部算出来，VSM

            System.out.println("id==="+document.get("id")+"得分===="+scoreDoc.score);

            System.out.println("title==="+document.get("title"));

            System.out.println("content==="+document.get("content"));

            System.out.println("url==="+document.get("url"));

            System.out.println("author==="+document.get("author"));

        }

    }

}

lucene 的过滤器

package cn.itcast.lucene;

import java.io.IOException;

import org.apache.lucene.document.Document;

import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.Filter;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.NumericRangeFilter;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import cn.itcast.uitls.LuceneUtils;

/**

 *

 * 对查询出来的结果进行过滤，以获得更小范围的结果...

 * @author Administrator

 *

 */

public class TestFilter {

    public static void main(String[] args) throws Exception {

        IndexSearcher indexSearcher=LuceneUtils.getIndexSearcher();

        String keywords="全文检索服务器";

        String fields []={"content"};

        QueryParser queryParser=new MultiFieldQueryParser(LuceneUtils.getVersion(),fields,LuceneUtils.getAnalyzer());

        Query query=queryParser.parse(keywords);

        //过滤器

        /**

         * 1:需要根据那个字段进行过滤

         *

         * 2：字段对应范围的最小值

         *

         * 3：字段对应范围的最大值

         *

         * 4：是否包含最小值

         *

         * 5：是否包含最大值...

         *

         */

        /**

         *

         * Filter 是一个抽象类，我们后面可以继承它，来定义我们 自己的过滤规则，

         *

         * 使用过滤的效率比较低，我们在后面可以使用其它查询条件实现一样的效果，性能比过滤器要高...

         */

        Filter filter=NumericRangeFilter.newIntRange("id",2, 10,true, false);

        TopDocs topDocs=indexSearcher.search(query, filter, 100);

        ScoreDoc scoreDocs[]=topDocs.scoreDocs;

        for(ScoreDoc scoreDoc :scoreDocs){

            //根据id 去击中一个文档呢..

            Document document=indexSearcher.doc(scoreDoc.doc);

            //每个文档都有一个得分,这个得分是float 类型，他是lucene 自己内部算出来，VSM

            System.out.println("id==="+document.get("id"));

            System.out.println("title==="+document.get("title"));

            System.out.println("content==="+document.get("content"));

            System.out.println("url==="+document.get("url"));

            System.out.println("author==="+document.get("author"));

        }        

    }

}

lucene 的高亮器的使用

package cn.itcast.lucene;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.apache.lucene.document.Document;

import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.Sort;

import org.apache.lucene.search.SortField;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.search.SortField.Type;

import org.apache.lucene.search.highlight.Formatter;

import org.apache.lucene.search.highlight.Highlighter;

import org.apache.lucene.search.highlight.QueryScorer;

import org.apache.lucene.search.highlight.Scorer;

import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

import cn.itcast.bean.Article;

import cn.itcast.uitls.LuceneUtils;

/**

 *

 * 测试高亮，

 *

 * 使用高亮的时候我们需要导入两个jar

 * lucene-highlighter-4.4.0.jar

 * lucene-memory-4.4.0.jar

 *

 *

 * @author Administrator

 * 对查询出来的结果当中包含的搜索关键字进行高亮...

 */

public class TestHighlighter {

    public static void main(String[] args) throws Exception {

        IndexSearcher indexSearcher=LuceneUtils.getIndexSearcher();

        String keywords="全文检索服务器";

        String fields []={"content"};

        QueryParser queryParser=new MultiFieldQueryParser(LuceneUtils.getVersion(),fields,LuceneUtils.getAnalyzer());

        Query query=queryParser.parse(keywords);

        TopDocs topDocs=indexSearcher.search(query, 1);

        ScoreDoc scoreDocs[]=topDocs.scoreDocs;

        //高亮显示的格式...

//        solr 是基于lucene 的<font color='blue'>全</font><font color='blue'>文</font><font color='blue'>检</font>索服务器

        Formatter formatter=new SimpleHTMLFormatter("<font color='red'>","</font>");

        //与query 查询条件进行关联，因为query 包含了搜索的关键字

        //只有知道了搜索的关键字，高亮显示的格式，我才能把一段文本进行高亮...

        Scorer scorer=new QueryScorer(query);

        //创建一个高亮器，我们使用lucene 自带的高亮器进行高亮..

        Highlighter highlighter=new Highlighter(formatter,scorer);

        List<Article> articles=new ArrayList<Article>();

        Article article=null;

        for(ScoreDoc scoreDoc :scoreDocs){

            article=new Article();

            Document document=indexSearcher.doc(scoreDoc.doc);

            String title=document.get("title");

            String content=document.get("content");

            System.out.println("id=="+document.get("id"));

            System.out.println("title==="+title);

            System.out.println("content==="+content);

            System.out.println("没有高亮之前的结果....----------------------------------------------------");

            if(content!=null){

                //返回高亮过后的文本...

                String highcontent=highlighter.getBestFragment(LuceneUtils.getAnalyzer(), "content", content);

                System.out.println("高亮过后的highcontent="+highcontent);

                if(highcontent==null){

                    article.setContent(content);

                }else{

                    article.setContent(highcontent);

                }

            }

            if(title!=null){

                String hightitle=highlighter.getBestFragment(LuceneUtils.getAnalyzer(), "title", title);

                //假设我们对一段文本进行高亮，如果这段文本当中不包含搜索关键字，对这段文本高亮，返回的结果为null

                System.out.println("高亮过后的hightitle="+hightitle);

                //不能把null 返回到客户端，所以我们需要进行判断，如果为null值，就返回没有高亮之前的文本，

                if(hightitle==null){

                    article.setTitle(title);

                }else{

                    article.setTitle(hightitle);

                }

            }

            //title 当中有没有可能不包含搜索的关键字...

        }

    }

}

lucene 查询条件的使用

package cn.itcast.lucene;

import java.io.IOException;

import org.apache.lucene.document.Document;

import org.apache.lucene.index.Term;

import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;

import org.apache.lucene.queryparser.classic.ParseException;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.BooleanQuery;

import org.apache.lucene.search.FuzzyQuery;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.MatchAllDocsQuery;

import org.apache.lucene.search.NumericRangeQuery;

import org.apache.lucene.search.PhraseQuery;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TermQuery;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.search.WildcardQuery;

import org.apache.lucene.search.BooleanClause.Occur;

import cn.itcast.uitls.LuceneUtils;

public class TestQuery {

    public static void main(String[] args) throws IOException, ParseException {

//        article.setId(i);   intfield

//        article.setTitle("lucene 是传智播客一个工具包");  textfield

//        article.setContent("solr 是基于lucene 的全文检索服务器"); textfield

//        article.setUrl("http://apche.cn"); StringField

//        article.setAuthor("爱新觉罗王姐杰杰结节"); StringField

//        1:第一种查询条件: 单字段查询..

//        Query query=new TermQuery(new Term("title","传"));

        //2:第二种查询：多字段查询，字符串搜索...

//        String fields []={"title"};

//

//        String keywords="传智播客";

//

//        QueryParser queryParser=new MultiFieldQueryParser(LuceneUtils.getVersion(),fields,LuceneUtils.getAnalyzer());

//        //会使用分词器把关键字进行分词之后再组拼查询条件...

//        Query query=queryParser.parse(keywords);

        //第三种查询:查询所有..

//        Query query=new MatchAllDocsQuery();

        //第四种查询，通配符查询...

        //? 代表单个的任意字符，* 代表是多个任意字符

        //使用*代表匹配的结果越多，性能越低...

//        Query query=new WildcardQuery(new Term("title","luce*"));

        //第五种查询：范围查询：可以使用此查询来替代过滤器..

//        Query query=NumericRangeQuery.newIntRange("id", 1, 10, true, false);

        //第六种查询:模糊查询...

        /**

         * 1:查询的条件term

         *

         * 2：maxEidts 默认值为2  ，最大的可编辑数，允许我的查询当中的值可以错误几个字符..

         *

         */

//        FuzzyQuery query=new FuzzyQuery(new Term("author","爱新觉罗王姐杰杰班长"),2);

//        /第七种查询：短语查询:

//        PhraseQuery query=new PhraseQuery();

//        //lucene 是传智播客一个工具包

//        query.add(new Term("title", "lucene"));

//        query.add(new Term("title", "具"));

//

//        //设置两个短语之间的最大间隔数..

//        //如果设置短语的间隔越小，越是我们想要的数据，

//        //如果设置的短语的间隔越大，被匹配到的内容越多，性能越慢...

//        query.setSlop(1111111111);

        //第八种查询，boolean 类型的查询..

        BooleanQuery query=new BooleanQuery();

        //查询条件1

        //1,9

        Query query1=NumericRangeQuery.newIntRange("id", 1, 10, true, false);

        //6~17

        Query query2=NumericRangeQuery.newIntRange("id", 6, 18, true, false);

        //select * from table where username ="bangzhang" and  sex ='nv'

        //boolean 组拼多个查询条件，取交集...

        //=

        query.add(query1,Occur.MUST);

        //!=

        query.add(query2, Occur.MUST_NOT);

        //or

        query.add(query2, Occur.SHOULD);

        testQuery(query);

    }

    public static void testQuery(Query query) throws IOException{

        IndexSearcher indexSearcher=LuceneUtils.getIndexSearcher();

        TopDocs topDocs=indexSearcher.search(query, 100);

        ScoreDoc scoreDocs[]=topDocs.scoreDocs;

        for(ScoreDoc scoreDoc :scoreDocs){

            //根据id 去击中一个文档呢..

            Document document=indexSearcher.doc(scoreDoc.doc);

            //每个文档都有一个得分,这个得分是float 类型，他是lucene 自己内部算出来，VSM

            System.out.println("id==="+document.get("id"));

            System.out.println("title==="+document.get("title"));

            System.out.println("content==="+document.get("content"));

            System.out.println("url==="+document.get("url"));

            System.out.println("author==="+document.get("author"));

        }        

    }

}

Lucene笔记二的更多相关文章

《CMake实践》笔记二：INSTALL/CMAKE_INSTALL_PREFIX
<CMake实践>笔记一:PROJECT/MESSAGE/ADD_EXECUTABLE <CMake实践>笔记二:INSTALL/CMAKE_INSTALL_PREFIX &l ...
jQuery源码笔记(二)：定义了一些变量和函数 jQuery = function(){}
笔记(二)也分为三部分: 一. 介绍: 注释说明:v2.0.3版本.Sizzle选择器.MIT软件许可注释中的#的信息索引.查询地址(英文版)匿名函数自执行:window参数及undefined参数意 ...
Mastering Web Application Development with AngularJS 读书笔记(二)
第一章笔记 (二) 一.scopes的层级和事件系统(the eventing system) 在层级中管理的scopes可以被用做事件总线.AngularJS 允许我们去传播已经命名的事件用一种有效 ...
Python 学习笔记二
笔记二 :print 以及基本文件操作笔记一已取消置顶链接地址 http://www.cnblogs.com/dzzy/p/5140899.html 暑假只是快速过了一遍python ,现在起开始仔 ...
WPF的Binding学习笔记(二)
原文: http://www.cnblogs.com/pasoraku/archive/2012/10/25/2738428.htmlWPF的Binding学习笔记(二) 上次学了点点Binding的 ...
webpy使用笔记(二) session/sessionid的使用
webpy使用笔记(二) session的使用 webpy使用系列之session的使用,虽然工作中使用的是django,但是自己并不喜欢那种大而全的东西~什么都给你准备好了,自己好像一个机器人一样赶 ...
AJax 学习笔记二(onreadystatechange的作用)
AJax 学习笔记二(onreadystatechange的作用) 当发送一个请求后,客户端无法确定什么时候会完成这个请求,所以需要用事件机制来捕获请求的状态XMLHttpRequest对象提供了on ...
《MFC游戏开发》笔记二建立工程、调整窗口
本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9300383 作者:七十一雾央新浪微博:http:/ ...
JavaScript基础笔记二
一.函数返回值1.什么是函数返回值函数的执行结果2. 可以没有return // 没有return或者return后面为空则会返回undefined3.一个函数应该只返回一种类型的值二.可变 ...

随机推荐

设置cell高度的两种方法（label高度的可变引起cell高度可变的情况）
第一种:(iOS8以后可用) 在Xib或stroyboard中(代码也可以) 利用AutoLayout设置好label的约束(比如可以设置四个边都距离屏幕50等方式,必须四个边都要固定好). 在代码部 ...
Java语言简介
Java即计算机编程语言 1.概念 Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此Java语言具有功能强大和简单易用两个特征.Jav ...
弹性分布式数据集RDD概述
[Spark]弹性分布式数据集RDD概述弹性分布数据集RDD RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作 ...
CC3200使用MQTT的SSL加密证书可用日期修改
1. 在使用CC3200进行SSL加密的时候,需要证书,但是证书有一个截止日期,如果当前CC3200没有设置这个日期,那么证书通信会失败,需要添加代码 int setDeviceTime() { Sl ...
VS2015 更改C++模式
亲爱的小伙伴,有没有发现你们的VS2015装完以后和老江湖们用的不一样了,人家的界面打开是这样的而你的界面打开是这样的虽然看是只有一左一右的区别,但是内在确实有好多不一样. 想不想想老江湖一样,拥 ...
Qt-QML-ComboBox-自定义，实现状态表示，内容可以动态正价，使用ListModel
哎呀呀呀, 问:杀死一个程序员一个程序要需要进步? 答:改三次需求我感觉我就要再这需求的变更中被杀死了.不管怎么说,总是要跟着需求走的的,客户才是第一么(要不是因为钱,我才不会了) 下面先上个效果 ...
GIt学习第一天之安装和版本库创建
搬运自 ‘廖雪峰的官方网站’ 1.git安装官网下载地址:https://git-scm.com/download/win 百度网盘下载地址:https://pan.baidu.com/s/1k ...
使用python+selenium控制手工已打开的浏览器
我们可以利用Chrome DevTools协议.它允许客户检查和调试Chrome浏览器. 打开cmd,在命令行中输入命令: chrome.exe --remote-debugging-port=922 ...
157. Unique Characters 【LintCode by java】
Description Implement an algorithm to determine if a string has all unique characters. Example Given ...
（python）leetcode刷题笔记 01 TWO SUM
1. Two Sum Given an array of integers, return indices of the two numbers such that they add up to a ...

Lucene笔记二

lucene 的排序

lucene 的过滤器

lucene 的高亮器的使用

lucene 查询条件的使用

Lucene笔记二的更多相关文章

随机推荐

热门专题