Lucene 评分机制二 Payload

这里使用的Lucene4.7.0和Lucene3.X稍有不同

有下面三段内容,我想对船一系列的搜索进行加分

　　bike car jeep truck bus boat

　　train car ship boat van subway

　　car plane taxi boat vessel railway

定义自定义的MyAnalyzer,实现对字段的有效载荷进行赋值

 package com.pera.lucene.score.payload;

 import java.io.Reader;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.Tokenizer;

 import org.apache.lucene.analysis.core.WhitespaceTokenizer;

 import org.apache.lucene.analysis.payloads.PayloadEncoder;

 import org.apache.lucene.util.Version;

 public class MyAnalyzer extends Analyzer

 {

     private PayloadEncoder encoder;

     MyAnalyzer(PayloadEncoder encoder)

     {

         this.encoder = encoder;

     }

     @Override

     protected TokenStreamComponents createComponents(String fieldName, Reader reader)

     {

         // 用来解析空格分隔的各个类别

         Tokenizer source = new WhitespaceTokenizer(Version.LUCENE_47, reader);

         // 自定义的Filter,用来获取字段的Payload值

         MyTokenFilter filter = new MyTokenFilter(source, encoder);

         return new TokenStreamComponents(source, filter);

     }

 }

自定义TokenFilter来达到取得字段的PayLoad值或通过字段对PayLoad值进行分析赋值

 package com.pera.lucene.score.payload;

 import java.io.IOException;

 import org.apache.lucene.analysis.TokenFilter;

 import org.apache.lucene.analysis.TokenStream;

 import org.apache.lucene.analysis.payloads.PayloadEncoder;

 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

 import org.apache.lucene.analysis.tokenattributes.PayloadAttribute;

 public class MyTokenFilter extends TokenFilter

 {

     private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);

     private final PayloadAttribute payAtt = addAttribute(PayloadAttribute.class);

     private final PayloadEncoder encoder;

     public MyTokenFilter(TokenStream input, PayloadEncoder encoder)

     {

         super(input);

         this.encoder = encoder;

     }

     @Override

     public boolean incrementToken() throws IOException

     {

         if (input.incrementToken())

         {

             String term = termAtt.toString();

             if (App.scoreMap.containsKey(term))

             {

                 payAtt.setPayload(encoder.encode(App.scoreMap.get(term).toCharArray()));

             } else

             {

                 payAtt.setPayload(null);

             }

             return true;

         } else

             return false;

     }

 }

     public static ImmutableMap<String, String> scoreMap = ImmutableMap.of("boat", "5f", "ship", "20f", "vessel", "100f");

自定义PayloadSimilarity继承DefaultSimilarity 重载scorePayload方法,在检索时获得之前设置的PayLoad值

 package com.pera.lucene.score.payload;

 import org.apache.lucene.analysis.payloads.PayloadHelper;

 import org.apache.lucene.search.similarities.DefaultSimilarity;

 import org.apache.lucene.util.BytesRef;

 public class PayloadSimilarity extends DefaultSimilarity

 {

     @Override

     public float scorePayload(int doc, int start, int end, BytesRef payload)

     {

         return PayloadHelper.decodeFloat(payload.bytes);

     }

 }

建立索引需要将之前定义的Analyzer和PayloadSimilarity设置到Config中

 package com.pera.lucene.score.payload;

 import java.io.File;

 import java.io.IOException;

 import java.util.Date;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.payloads.FloatEncoder;

 import org.apache.lucene.document.Document;

 import org.apache.lucene.document.Field.Store;

 import org.apache.lucene.document.TextField;

 import org.apache.lucene.index.IndexWriter;

 import org.apache.lucene.index.IndexWriterConfig;

 import org.apache.lucene.index.IndexWriterConfig.OpenMode;

 import org.apache.lucene.search.similarities.Similarity;

 import org.apache.lucene.store.Directory;

 import org.apache.lucene.store.FSDirectory;

 import org.apache.lucene.util.Version;

 public class Indexing

 {

     public void indexPayload() throws IOException

     {

         Directory dir = FSDirectory.open(new File(App.indexPath));

         Analyzer analyzer = new MyAnalyzer(new FloatEncoder());

         Similarity similarity = new PayloadSimilarity();

         IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_47, analyzer);

         iwc.setOpenMode(OpenMode.CREATE).setSimilarity(similarity);

         Date start = new Date();

         System.out.println("Indexing to directory '" + App.indexPath + "'...");

         IndexWriter writer = new IndexWriter(dir, iwc);

         Document doc = new Document();

         doc.add(new TextField("tools", "bike car jeep truck bus boat", Store.YES));

         writer.addDocument(doc);

         doc = new Document();

         doc.add(new TextField("tools", "train car ship boat van subway", Store.YES));

         writer.addDocument(doc);

         doc = new Document();

         doc.add(new TextField("tools", "car plane taxi boat vessel railway", Store.YES));

         writer.addDocument(doc);

         writer.close();

         Date end = new Date();

         System.out.println(end.getTime() - start.getTime() + " total milliseconds");

     }

 }

进行检索检索时要将PayloadSimilarity设置到searcher中

 package com.pera.lucene.score.payload;

 import java.io.File;

 import java.io.IOException;

 import org.apache.lucene.index.DirectoryReader;

 import org.apache.lucene.index.IndexReader;

 import org.apache.lucene.index.Term;

 import org.apache.lucene.queryparser.classic.ParseException;

 import org.apache.lucene.search.BooleanClause.Occur;

 import org.apache.lucene.search.BooleanQuery;

 import org.apache.lucene.search.Explanation;

 import org.apache.lucene.search.IndexSearcher;

 import org.apache.lucene.search.ScoreDoc;

 import org.apache.lucene.search.TopDocs;

 import org.apache.lucene.search.payloads.AveragePayloadFunction;

 import org.apache.lucene.search.payloads.PayloadTermQuery;

 import org.apache.lucene.store.FSDirectory;

 public class Searching

 {

     public void searchPayload() throws IOException, ParseException

     {

         IndexReader reader = DirectoryReader.open(FSDirectory.open(new File(App.indexPath)));

         IndexSearcher searcher = new IndexSearcher(reader);

         BooleanQuery bq = new BooleanQuery();

         PayloadTermQuery ptq1 = new PayloadTermQuery(new Term("tools", "ship"), new AveragePayloadFunction());

         PayloadTermQuery ptq2 = new PayloadTermQuery(new Term("tools", "boat"), new AveragePayloadFunction());

         PayloadTermQuery ptq3 = new PayloadTermQuery(new Term("tools", "vessel"), new AveragePayloadFunction());

         bq.add(ptq1, Occur.SHOULD);

         bq.add(ptq2, Occur.SHOULD);

         bq.add(ptq3, Occur.SHOULD);

         // 设置自定义的PayloadSimilarity

         searcher.setSimilarity(new PayloadSimilarity());

         TopDocs results = searcher.search(bq, 10);

         ScoreDoc[] hits = results.scoreDocs;

         int numTotalHits = results.totalHits;

         System.out.println(numTotalHits + " total matching documents");

         for (int i = 0; i < hits.length; i++)

         {

             int docId = hits[i].doc; // 文档编号

             float lucene_score = hits[i].score;

             String tools = searcher.doc(docId).get("tools");

             System.out.println("DocId:" + docId + "\tLucene Score:" + lucene_score + "\tTools:" + tools);

             Explanation explanation = searcher.explain(bq, docId);

             System.out.println(explanation.toString());

         }

     }

 }

检索结果可以看到Doc2的排序由于有了PayLoad值排名得到了提升

3 total matching documents

DocId:2    Lucene Score:16.750757    Tools:car plane taxi boat vessel railway

16.750757 = (MATCH) product of:

  25.126135 = (MATCH) sum of:

    0.3186112 = (MATCH) btq, product of:

      0.06372224 = weight(tools:boat in 2) [PayloadSimilarity], result of:

        0.06372224 = score(doc=2,freq=0.5 = phraseFreq=0.5

), product of:

          0.33736566 = queryWeight, product of:

            0.71231794 = idf(docFreq=3, maxDocs=3)

            0.4736167 = queryNorm

          0.18888181 = fieldWeight in 2, product of:

            0.70710677 = tf(freq=0.5), with freq of:

              0.5 = phraseFreq=0.5

            0.71231794 = idf(docFreq=3, maxDocs=3)

            0.375 = fieldNorm(doc=2)

      5.0 = AveragePayloadFunction.docScore()

    24.807524 = (MATCH) btq, product of:

      0.24807523 = weight(tools:vessel in 2) [PayloadSimilarity], result of:

        0.24807523 = score(doc=2,freq=0.5 = phraseFreq=0.5

), product of:

          0.66565174 = queryWeight, product of:

            1.4054651 = idf(docFreq=1, maxDocs=3)

            0.4736167 = queryNorm

          0.37268022 = fieldWeight in 2, product of:

            0.70710677 = tf(freq=0.5), with freq of:

              0.5 = phraseFreq=0.5

            1.4054651 = idf(docFreq=1, maxDocs=3)

            0.375 = fieldNorm(doc=2)

      100.0 = AveragePayloadFunction.docScore()

  0.6666667 = coord(2/3)

DocId:1    Lucene Score:3.5200772    Tools:train car ship boat van subway

3.5200772 = (MATCH) product of:

  5.2801156 = (MATCH) sum of:

    4.9615045 = (MATCH) btq, product of:

      0.24807523 = weight(tools:ship in 1) [PayloadSimilarity], result of:

        0.24807523 = score(doc=1,freq=0.5 = phraseFreq=0.5

), product of:

          0.66565174 = queryWeight, product of:

            1.4054651 = idf(docFreq=1, maxDocs=3)

            0.4736167 = queryNorm

          0.37268022 = fieldWeight in 1, product of:

            0.70710677 = tf(freq=0.5), with freq of:

              0.5 = phraseFreq=0.5

            1.4054651 = idf(docFreq=1, maxDocs=3)

            0.375 = fieldNorm(doc=1)

      20.0 = AveragePayloadFunction.docScore()

    0.3186112 = (MATCH) btq, product of:

      0.06372224 = weight(tools:boat in 1) [PayloadSimilarity], result of:

        0.06372224 = score(doc=1,freq=0.5 = phraseFreq=0.5

), product of:

          0.33736566 = queryWeight, product of:

            0.71231794 = idf(docFreq=3, maxDocs=3)

            0.4736167 = queryNorm

          0.18888181 = fieldWeight in 1, product of:

            0.70710677 = tf(freq=0.5), with freq of:

              0.5 = phraseFreq=0.5

            0.71231794 = idf(docFreq=3, maxDocs=3)

            0.375 = fieldNorm(doc=1)

      5.0 = AveragePayloadFunction.docScore()

  0.6666667 = coord(2/3)

DocId:0    Lucene Score:0.106203735    Tools:bike car jeep truck bus boat

0.106203735 = (MATCH) product of:

  0.3186112 = (MATCH) sum of:

    0.3186112 = (MATCH) btq, product of:

      0.06372224 = weight(tools:boat in 0) [PayloadSimilarity], result of:

        0.06372224 = score(doc=0,freq=0.5 = phraseFreq=0.5

), product of:

          0.33736566 = queryWeight, product of:

            0.71231794 = idf(docFreq=3, maxDocs=3)

            0.4736167 = queryNorm

          0.18888181 = fieldWeight in 0, product of:

            0.70710677 = tf(freq=0.5), with freq of:

              0.5 = phraseFreq=0.5

            0.71231794 = idf(docFreq=3, maxDocs=3)

            0.375 = fieldNorm(doc=0)

      5.0 = AveragePayloadFunction.docScore()

  0.33333334 = coord(1/3)

Lucene 评分机制二 Payload的更多相关文章

Apache Lucene评分机制的内部工作原理
Apache Lucene评分机制的内部工作原理' 第5章
Lucene 评分机制一
1. 评分公式 1.1 公式介绍这个公式是Lucene实际计算时使用的公式,是由原型公式推导而来 tf(t in d) 表示某个term的出现频率,定义了term t出现在当前document d的 ...
lucene 的评分机制
lucene 的评分机制 elasticsearch是基于lucene的,所以他的评分机制也是基于lucene的.评分就是我们搜索的短语和索引中每篇文档的相关度打分. 如果没有干预评分算法的时候,每次 ...
Lucene Scoring 评分机制
原文出处:http://blog.chenlb.com/2009/08/lucene-scoring-architecture.html Lucene 评分体系/机制(lucene scoring)是 ...
Lucene 的 Scoring 评分机制
转自: http://www.oschina.net/question/5189_7707 Lucene 评分体系/机制(lucene scoring)是 Lucene 出名的一核心部分.它对用户来 ...
Solr4.8.0源码分析(19)之缓存机制(二)
Solr4.8.0源码分析(19)之缓存机制(二) 前文<Solr4.8.0源码分析(18)之缓存机制(一)>介绍了Solr缓存的生命周期,重点介绍了Solr缓存的warn过程.本节将更深 ...
Solr In Action 笔记(2) 之评分机制(相似性计算)
Solr In Action 笔记(2) 之评分机制(相似性计算) 1 简述我们对搜索引擎进行查询时候,很少会有人进行翻页操作.这就要求我们对索引的内容提取具有高度的匹配性,这就搜索引擎文档的相似性 ...
Elasticseach的评分机制
lucene 的评分机制 elasticsearch是基于lucene的,所以他的评分机制也是基于lucene的.评分就是我们搜索的短语和索引中每篇文档的相关度打分. 如果没有干预评分算法的时候,每次 ...
Wifi 评分机制分析
从android N开始,引入了wifi评分机制,选择wifi的时候会通过评分来选择. android O源码 frameworks\opt\net\wifi\service\java\com\and ...

随机推荐

校园商铺-4店铺注册功能模块-10店铺注册之js实现
1. 建立js目录和文件 1.1 建立js目录在webapp下新建文件夹js,再在js目录下新建shop文件夹. 1.2 js文件 js的功能: 1.从后台获取到店铺分类.区域等是信息,将它填充到前 ...
Perl 基础语法
Perl 基础语法 Perl借用了C.sed.awk.shell脚本以及很多其他编程语言的特性,语法与这些语言有些类似,也有自己的特点. Perl 程序有声明与语句组成,程序自上而下执行,包含了循环, ...
Oracle大数据查询优化
1.对于像状态之类的列,不是很多的,就可以加位图索引,对于唯一的列,就加唯一索引,其余的创建普通索引. 2.尽量不要使用select * 这样的查询,指定需要查询的列. 3.使用hits selec ...
luogu P1332 血色先锋队[bfs]
题目描述巫妖王的天灾军团终于卷土重来,血色十字军组织了一支先锋军前往诺森德大陆对抗天灾军团,以及一切沾有亡灵气息的生物.孤立于联盟和部落的血色先锋军很快就遭到了天灾军团的重重包围,现在他们将主力只好 ...
函数开始处的MOV EDI, EDI的作用
调试程序调试到系统库函数的代码时,总会发现系统函数都是从一条MOV EDI, EDI指令开始的,紧接着这条指令下面才是标准的建立函数局部栈的代码.对系统DLL比如ntdll.dll进行反汇编,可以发现 ...
怎么规划一个零基础学习Unity3D的“方法”或者“流程”？
具体出处:https://www.zhihu.com/question/35542990 我只是一个计算机相关专业毕业的,已经掌握了基础的C#并开发过.net的.目前突然心血来潮对unity3D有兴趣 ...
Pycharm VS VS Code(个人使用感受)
Pycharm IDE (community enough!) 简单介绍:Pycharn的确是我刚开始学习python时,除了Visual Studio之外,上手的第二个IDE,最初是因其好看的界面, ...
Censored! POJ - 1625 AC自动机+大数DP
题意: 给出一n种字符的字典,有p个禁用的单词, 问能组成多少个不同的长度为m的合法字符串.(m<=50) 题解: 是不是个我们之前做的题目非常非常像,题意都一样. 直接将上次写的AC自动机+矩 ...
iOS开发系列-iOS签名机制
概述想要了解iOS的签名机制需要有一定密码学有一定的了解.下面依次介绍的数据的加密解密.单向散列函数.数字签名.证书.iOS签名机制. 数据加密解密在网络通信中想要防止数据被攻击者拦截,我们通常对 ...
2019-9-2-贡献自己的服务器搭建tor中转
title author date CreateTime categories 贡献自己的服务器搭建tor中转 lindexi 2019-09-02 12:57:38 +0800 2018-2-13 ...

Lucene 评分机制二 Payload

Lucene 评分机制二 Payload的更多相关文章

随机推荐

热门专题