es之得分(加权)
随着应用程序的增长,提高搜索质量的需求也进一步增大。我们把它叫做搜索体验。我们需要知道什么对用户更重要,关注用户如何使用搜索功能。这导致不同的结论,例如,有些文档比其他的更重要,或特定查询需强调一个字段而弱化其他字段。这就是可以用到加权的地方。
进一步说搜索体验,我们更希望检索出来的数据是最想得到的数据;
这个其实就是关于文档的【相关性得分】
进一步细节说:我们查询的所有文档,会在内部做一次相关性的评分score;然后会根据这个score从大到小的排序,依次展示给客户端;
如何计算评分?
Elasticsearch使用的计算评分公式TF-IDF算法的实用计算公式如下:
score(q,d) coord(q,d)queryNorm(q)(tf (tind)idf (t)2 boost(t)norm(t,d))

TF:词频,词在文档中出现的频度是多少? 频度越高,权重 越高
IDF:逆向文档率,词在集合所有文档里出现的频率是多少?频次越高,权重 越低
在我们实际的工作中,我们经常会控制boost来调整score(boost默认值是1)
创建索引和映射:
1):创建索引
@Test
public void createIndex(){
/**
* 创建索引
* */
client.admin().indices().prepareCreate("blog").get();
}
2):创建映射
/**
* 创建映射
*/
@Test
public void testCreateIndexMapping_boost() throws Exception{
/**
* 格式:
* "mappings" : {
* "document" : {
* "dynamic" : "false",
* "properties" :{
* "id" : { "type" : "string" },
* "content" : { "type" : "string" },
* "comment" : {"type" : "string"},
* "author" : { "type" : "string" }
* }
* }
* }
*/
//构建json的数据格式,创建映射
XContentBuilder mappingBuilder = XContentFactory.jsonBuilder()
.startObject()
.startObject("document")
.startObject("properties")
.startObject("id").field("type","integer").field("store", "yes")
.endObject()
.startObject("title").field("type","string").field("store", "yes").field("analyzer" , "ik_max_word")
.endObject()
.startObject("content").field("type","string").field("store", "yes").field("analyzer" , "ik_max_word")
.endObject()
.startObject("comment").field("type","string").field("store", "yes").field("analyzer" , "ik_max_word")
.endObject()
.endObject()
.endObject()
.endObject();
PutMappingRequest request = Requests.putMappingRequest("blog")
.type("document")
.source(mappingBuilder);
client.admin().indices().putMapping(request).get();
}
3):创建Document实体类
package com.elasticsearch.bean;
/**
* Created by angel;
*/
public class Document {
private Integer id;
private String title;
private String content;
private String comment;
public Integer getId() {
return id;
}
public String getComment() {
return comment;
}
public String getContent() {
return content;
}
public String getTitle() {
return title;
}
public void setComment(String comment) {
this.comment = comment;
}
public void setContent(String content) {
this.content = content;
}
public void setId(Integer id) {
this.id = id;
}
public void setTitle(String title) {
this.title = title;
}
}
4):重新创建索引和映射,创建文档
/**
* 创建文档
* */
@Test
public void createDocument() throws JsonProcessingException {
Document document = new Document();
// document.setId(1);
// document.setTitle("搜索引擎服务器");
// document.setContent("基于restful的数据风格");
// document.setComment("我们学习Elasticsearch搜索引擎服务器");
//
// document.setId(2);
// document.setTitle("什么是Elasticsearch");
// document.setContent("Elasticsearch搜索引擎服务器");
// document.setComment("Elasticsearch封装了lucene");
//
document.setId(3);
document.setTitle("Elasticsearch的用途");
document.setContent("Elasticsearch可以用来进行海量数据的检索");
document.setComment("Elasticsearch真NB");
ObjectMapper objectMapper = new ObjectMapper();
String source = objectMapper.writeValueAsString(document);
System.out.println("source:"+source);
IndexResponse indexResponse = client.prepareIndex("blog", "document", document.getId().toString()).setSource(source).get();
// 获取响应的信息
System.out.println("索引名称:"+indexResponse.getIndex());
System.out.println("文档类型:"+indexResponse.getType());
System.out.println("ID:"+indexResponse.getId());
System.out.println("版本:"+indexResponse.getVersion());
System.out.println("是否创建成功:"+indexResponse.status());
client.close();
}
5):测试:
//TODO 如何让id2 在 id1前面
@Test
public void BoolQuery_boost(){
SearchResponse searchResponse = client.prepareSearch("blog").setTypes("document")
.setQuery(QueryBuilders.boolQuery()
.should(QueryBuilders.termQuery("title" , "搜索"))
.should(QueryBuilders.termQuery("content" , "搜索"))
.should(QueryBuilders.termQuery("comment" , "搜索"))
).get();
SearchHits hits = searchResponse.getHits();//获取数据的结果集对象,获取命中次数
// 显示数据
printSearch(hits);
}
public void printSearch(SearchHits hits){
System.out.println("查询的结果数量有"+hits.getTotalHits()+"条");
System.out.println("结果中最高分:"+hits.getMaxScore());
// 遍历每条数据
Iterator<SearchHit> iterator = hits.iterator();
while(iterator.hasNext()){
SearchHit searchHit = iterator.next();
System.out.println("所有的数据JSON的数据格式:"+searchHit.getSourceAsString());
System.out.println("每条得分:"+searchHit.getScore());
// 获取每个字段的数据
System.out.println("id:"+searchHit.getSource().get("id"));
System.out.println("title:"+searchHit.getSource().get("title"));
System.out.println("content:"+searchHit.getSource().get("content"));
System.out.println("**********************************************");
for(Iterator<SearchHitField> ite = searchHit.iterator(); ite.hasNext();){
SearchHitField next = ite.next();
System.out.println(next.getValues());
}
}
}
es之得分(加权)的更多相关文章
- Elasticsearch--更好的搜索_加权得分,脚本,同义词
目录 Apache Lucene评分 Elasticsearch的脚本功能 脚本执行过程中可以使用的对象 使用自定义的脚本库 搜索不同语言的内容 使用加权影响得分 加权 function_score查 ...
- Paper | Blind Quality Assessment Based on Pseudo-Reference Image
目录 1. 技术细节 1.1 失真识别 1.2 得到对应的PRI并评估质量 块效应 模糊和噪声 1.3 扩展为通用的质量评价指标--BPRI 归一化3种质量评分 判断失真类型 加权求和 2. 总结 这 ...
- 因果推理综述——《A Survey on Causal Inference》一文的总结和梳理
因果推理 本文档是对<A Survey on Causal Inference>一文的总结和梳理. 论文地址 简介 关联与因果 先有的鸡,还是先有的蛋?这里研究的是因果关系,因果关系与普通 ...
- C#如何使用ES
Elasticsearch简介 Elasticsearch (ES)是一个基于 Lucene 的开源搜索引擎,它不但稳定.可靠.快速,而且也具有良好的水平扩展能力,是专门为分布式环境设计的. Elas ...
- C# 如何使用 Elasticsearch (ES)
Elasticsearch简介 Elasticsearch (ES)是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进.性能最好 ...
- C#使用ES
C#如何使用ES Elasticsearch简介 Elasticsearch (ES)是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为 ...
- ES相关信息
漫画版原理介绍 搜索引擎的核心:倒排索引 elasticsearch 基于Lucene的,封装成一个restful的api,通过api就可进行操作(Lucene是一个apache开放源代码的全文检索引 ...
- #研发解决方案介绍#基于ES的搜索+筛选+排序解决方案
郑昀 基于胡耀华和王超的设计文档 最后更新于2014/12/3 关键词:ElasticSearch.Lucene.solr.搜索.facet.高可用.可伸缩.mongodb.SearchHub.商品中 ...
- ES搜索引擎-简单入门
基本概念: 索引Index es吧数据放到一个或者多个索引中,如果用关系型数据库模型对比,索引的地位与数据库实例(db)相当.索引存放和读取的基本单元是文档(document).es内部使用的是apa ...
随机推荐
- java 数组详细介绍
一.概述 数组(Array),是多个相同类型数据按一定顺序排列的集合,并使用一个名字命名,并通过编号的方式对这些数据进行统一管理 数组常见概念: 数组名, 下标(或索引), 元素, 数组的长度 数组本 ...
- Python中函数传递参数有四种形式
Python中函数传递参数有四种形式 fun1(a,b,c) fun2(a=1,b=2,c=3) fun3(*args) fun4(**kargs) 四种中最常见是前两种,基本上一般点的教程都会涉及, ...
- mongodb启动报错,child process failed, exited with error number 1
error: child process failed, exited with error number 1 第一次安装mongodb,随后启动一般不会出现上面的错误,出现这种错误的原因一般是mon ...
- 剑指offer-序列化和反序列化二叉树-树-python
题目描述 请实现两个函数,分别用来序列化和反序列化二叉树 二叉树的序列化是指:把一棵二叉树按照某种遍历方式的结果以某种格式保存为字符串,从而使得内存中建立起来的二叉树可以持久保存.序列化可以基于先 ...
- C#修改电脑桌面图
win32helper public class Win32Helper { [DllImport("user32.dll", EntryPoint = "SystemP ...
- js工厂函数创建对象与对象构造函数的理解
工厂函数,顾名思义,就是通过一个"工厂的加工" 来创建一个对象的函数 //工厂函数 function createPerson(name,sex){ sex = sex == '男' ? '女' : ...
- verilog中的timescale
`timescale是Verilog HDL 中的一种时间尺度预编译指令,它用来定义模块的仿真 时的时间单位和时间精度.格式如下: `timescale 仿真时间单位/时间精度 注意:,不能为其它的 ...
- 一、left
一.left - right 就是遍历(以左边遍历,以右边遍历) inner join 就是求公共部分的结果集 left join 查询结果 right join结果 inner join 解决的办法 ...
- MyBatis中返回List
一般情况下,我们需要返回一个List 在Dao层定义: List<TbAddress> selectAll(); 那么在对应的mapper文件中,应该如下: <select id=& ...
- 028-实现阿里云ESC多FLAT网络
实现类似于阿里云ECS的网络结构,其效果为云主机拥有两块和两个不同的网络,一个网络是用于用于和外网连接,一个用于内网通信,但宿主机上至少有两个网卡,整体配置如下:1.在wmare里给宿主机添加一块网卡 ...