Lucene Query Term Weighting

方法

     public static Query TermWeighting(Query tquery,Map<String,Float>term2weight){

         BooleanQuery nquery = new BooleanQuery();

         Set<Term> terms = new HashSet<Term>();

         tquery.extractTerms(terms);
         for(Term itr : terms){

             float weight = term2weight.get(itr.text());

             Query q =  new TermQuery(new Term(itr.field(), itr.text()));

             q.setBoost(weight); //设置权重

             nquery.add(q, BooleanClause.Occur.SHOULD);

         }

11         return nquery;

12     }

传入参数说明：

　　　　tquery：经过QueryParser解析后的Query对象
　　　　term2weight：计算好或人为设定的每个词的检索权重

背景

近期搜索：lucene如何设置query中不同term权重，浏览了不下百个页面和解答。

使用最多的搜索词组合如标题：Lucene Query Term Weighting

得到的信息大致如下

1、对lucene的score公式的说明：也就是在假设query中term的tf都为1，新的query不列入df的计算，然后推导出一个vsm下的文档之间的cosine similarity；

2、 lucene如何在index阶段给不同的Document.setBoost, index或检索阶段给Filed.setBoost，以及检索阶段给Query.setBoost

　　吐槽1: 对于刚开始接触lucene的同学，对Query.setBoost <--- TermQuery.setBoost时略微有些迷茫的；

　　吐槽2: 额外， Clause的概念让人有些迷茫，为何不直接叫QueryTerm这种呢？

3、对于TermWeight树的解释，基本同1；

乱入

上述都不能很好的解答我的需求，连stackoverflow中有些问答也是。

但，这跟初学者没有熟识lucene也有关。

抑或说，是我搜索时用词的姿势不对。

Lucene Query Term Weighting的更多相关文章

Term Weighting
对文本分词后,接下来需要对分词后的每个term计算一个权重,重要的term应该给与更高的权重.举例来说,“什么产品对减肥帮助最大?”的term weighting结果可能是: “什么 0.1,产品 0 ...
lucene query
在lucene的搜索中,最重要的无疑就是对query的理解和掌握了.这里扒拉一下源码(版本3.5.0)的query和query实现: query是一个抽象类,实现类有以下几个: termQuery m ...
Lucene Query In Kibana
1. Terms 一个查询由词条与操作组成.词条可以是单词,或者短语. hello #单独项 "hello pzdn" #双引号引起来短语 2. Field Lucene 支持字段 ...
使用lucene query的CharFilter 去掉字符中的script脚本和html标签
1.准备数据,这里我从数据库读取一个带有html标签和script脚本的数据
lucene 3.0.2 search 各种各样的Query类型
http://blog.sina.com.cn/s/blog_61d2047c010195mo.html lucene的这种各种各样的查询类型 1.TermQuery 最简单的Qu ...
Elasticsearch 5.x 关于term query和match query的认识
http://blog.csdn.net/yangwenbo214/article/details/54142786 一.基本情况前言:term query和match query牵扯的东西比较多, ...
lucene自定义过滤器
先介绍下查询与过滤的区别和联系,其实查询(各种Query)和过滤(各种Filter)之间非常相似,可以这样说只要用Query能完成的事,用过滤也都可以完成,它们之间可以相互转换,最大的区别就是使用过滤 ...
全文检索解决方案（lucene工具类以及sphinx相关资料）
介绍两种全文检索的技术. 1. lucene+ 中文分词(IK) 关于lucene的原理,在这里可以得到很好的学习. http://www.blogjava.net/zhyiwww/archive/ ...
Apache Lucene(全文检索引擎)—搜索
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...

随机推荐

set集合_变长
//set可变集合 //便利初始化函数分配大小 NSMutableSet *mutableSet1 = [[NSMutableSet alloc] initWithCapacity:3]; NSMut ...
ubuntu下android源码下载
步骤一: 首先保证你的ubuntu系统电脑可以顺利游览google,我们是将etc下 hosts替换掉,推荐hosts: http://laod.cn/hosts/2015-google...host ...
Msys 编译 VS2013 ffmpeg
1.新版本msys2编译ffmpeg 的时候提示无法找到cl 重新安装了msys2及vs2013环境,msys2升级更新后,执行编译提示没有发现c编译器. 开始以为是新装的msys2_shell.ba ...
[HDOJ4635]Strongly connected（强连通分量，缩点）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4635 题意:给一张图,问最多往这张图上加多少条边,使这张图仍然无法成为一个强连通图. 起初是先分析样例 ...
Lunix中文乱码解决方案
sudo vi /var/lib/locales/supported.d/local#添加下面的中文字符集zh_CN.GBK GBKzh_CN.GB2312 GB2312zh_CN.GB18030 G ...
poj 1699 Best Sequence (搜索技巧剪枝 dfs)
题目链接题意:给出几个基因片段,要求你将它们排列成一个最短的序列,序列中使用了所有的基因片段,而且不能翻转基因. 分析:先计算出add数组,再dfs枚举. 空间复杂度O(n*n), 最坏时间复杂度 ...
[转]Jquery Ajax用法
原文地址:http://www.php100.com/html/program/jquery/2013/0905/6004.html jQuery学习之jQuery Ajax用法详解来源: 时间 ...
uva 10047 The Monocycle（搜索）
好复杂的样子..其实就是纸老虎,多了方向.颜色两个状态罢了,依旧是bfs. 更新的时候注意处理好就行了,vis[][][][]要勇敢地开. 不过这个代码交了十几遍的submission error,手 ...
codeforces 333A - Secrets
题意:保证不能正好配齐n,要求输出可以用的最大硬币数. 注意如果用到某种硬币,那么这种硬币就有无穷多个.所以11=3+3+3+3,12=9+9,13=3+3+3+3+3 #include<cst ...
Task '' not found in root project '***'.
android编译app报错:Task '' not found in root project '***'.将build.gradle里的 if (gradle.gradleVersion > ...

Lucene Query Term Weighting

Lucene Query Term Weighting的更多相关文章

随机推荐

热门专题