elasticsearch高亮之highlight原理

一、highlight简介

highlight是提升用户体验的重要手段，搜索引擎通过高亮突出命中关键字等方式，方便用户通过关键字周围的信息快速的确认是否是自己希望的结果；

highlight功能通常包含以下三个主要的处理过程

1.将字段文本拆分为小的片段；

2.找出最相关的片段；

3.高亮查询关键字；

二、elasticsearch的highlight功能

elasticsearch提供了专门的高亮请求参数highlight，返回的记过中也会包含对应的高亮信息；

在查询语句中，我们要求对text字段进行高亮处理；

GET /twitter/_search

{

  "query": {

    "match": {

      "text": "Another"

    }

  },

  "highlight": {

    "fields": {

      "text": {}

    }

  }

}

elasticsearch默认使用em对命中关键字进行包裹处理；

{

  "took" : 1,

  "timed_out" : false,

  "_shards" : {

    "total" : 1,

    "successful" : 1,

    "skipped" : 0,

    "failed" : 0

  },

  "hits" : {

    "total" : 1,

    "max_score" : 0.6931472,

    "hits" : [

      {

        "_index" : "twitter",

        "_type" : "_doc",

        "_id" : "2",

        "_score" : 0.6931472,

        "_source" : {

          "fullname" : "Jane Doe",

          "text" : "Another twitter test ..."

        },

        "highlight" : {

          "text" : [

            "<em>Another</em> twitter test ..."

          ]

        }

      }

    ]

  }

}

高亮处理需要使用原始的字段值文本，所以elasticsearch需要保存字段的值，我们可以在字段的mapping中设置store为true，否则只能从_source字段中load对应字段值；

三、elasticsearch提供的三种highlighter

elasticsearch提供了以下三种highlighter

Unified highlighter

这个unified highlighter是elasticsearch的默认highlighter，其使用的是Lucene Unified Highlighter，它会将文本分割为句子片段，然后使用BM25算法计算每个句子片段的相似性得分；改highlighter支持phrase、fuzzy、prefix等查询的高亮处理；

Plain highlighter

这个plain Highlighter使用的是标准的lucene Highlighter，其通过关键字的重要性及关键字的位置信息，尝试尽量的体现查询的匹配逻辑；

为了更加准确的体现查询的逻辑，Plain Highlighter需要针对具体的查询和命中文档的每个字段进行实时的计算，其会在内存中创建一个小型的index，然后通过查询计划重新执行一遍查询，从而获得高亮需要使用底层的匹配信息，所以其比较适合小型的字段；

Fast vector highlighter

这个fvh Highlighter使用的是Lucene Fast Vector Highlighter，其基于term_vector的数据结构，需要在mapping中将相应的字段设置为with_positions_offsets;其比较适合对大文本字段进行高亮处理；

四、Highlighter的高亮处理过程

Highlighter的主要工作就是通过传入的查询和命中的文档，找到能够最好反应匹配相关性的高亮片段；其主要需要完成以下三个工作；

1.将文本查分为小的高亮片段

本阶段主要将字段值文本拆分为小的高亮片段，三种Highlighter的处理过程如下

Plain Highlighter首先使用字段对应的analyzer对文本进行分词处理，然后通过得到的每个分词的起止字符位置，依次截取fragment_size的文本段；由于根据固定的片段长度拆分，得到的片段效果往往很不理想；

Unified和fvh Highlighter都通过Java的BreakIterator进行拆分高亮片段，配合fragment_size可以得到比较完整的句子；

2.找到最相关的高亮片段；

本阶段主要通过实际命中记录的查询关键字，对得到的高亮片段进行打分，从而找到跟查询最相关的高亮片段；

要计算高亮片段的匹配情况，有两种主要的方式

高亮处理的时候实时计算匹配情况，这样就需要针对每个高亮片段创建临时索引，并执行查询语句来获取匹配信息；
index的时候进行相关分词起止字符的统计信息处理和保存；

postings list，在字段mapping的时候，可以通过index_options来控制记录到倒排索引中的分词统计信息，通过设置offsets可以保存记录分词的起止信息；
term vector，elasticsearch提供的term_vector也记录了分词过程中产生的分词的起止信息，也是在字段mapping的时候进行设置，需要设置为with_positions_offsets；

三种Highlighter的处理过程如下

Plain Highlighter首先会利用高亮片段生成的分词在内存中创建一个index，并通过lucene查询计划执行原始的查询，然后通过命中信息获得匹配的分词，通过计算高亮片段的包含的不同查询分词的数量计算相关性得分；这里直接使用查询分词的boost(默认值)进行计算；

fvh Highlighter直接利用index的时候创建的term vector来得到高亮片段匹配的查询分词，其对高亮片段的评分算法跟Plain Highlighter类似，只不过这里会将命中的所有查询分词(包括重复的查询分词)计算在内；

unified Highlighter会尝试优先使用term vectors，index中的postings list，否则只能跟plain Highlighter相同的方式进行实时计算；其使用BM25算法计算高亮片段的相似度；

3.Highlight高亮片段；

本阶段主要进行输出前的编码和格式化，最后使用pre-tags、post-tags来包裹高亮片段中的查询关键字；

elasticsearch高亮之highlight原理的更多相关文章

ElasticSearch之控制相关度原理讲解
控制相关度相关度评分背后的理论如何计算评分的 Lucene 使用布尔模型(Boolean model) 查找匹配文档并主要的借鉴了词频/逆向文档频率(term frequency/invers ...
代码语法高亮踩坑-原理，问题, PRE元素及htmlentity
语法高亮库基础原理在研究使用能够在web页面上代码语法高显的解决方案时,发现有很多现成的开源库.比较中意的有prism.js,highlightjs.他们的原理基本上核心就两点: 1. 利用html ...
Elasticsearch 技术分析（九）：Elasticsearch的使用和原理总结
前言之前已经分享过Elasticsearch的使用和原理的知识,由于近期在公司内部做了一次内部分享,所以本篇主要是基于之前的博文的一个总结,希望通过这篇文章能让读者大致了解Elasticsearch ...
JavaScript语法高亮库highlight.js使用
highlight.js是一款基于JavaScript的语法高亮库,目前支持125种编程语言,有63种可供选择的样式,而且能够做到语言自动识别,和目前主流的JS框架都能兼容,可以混合使用. 这款高亮库 ...
Elasticsearch Lucene 数据写入原理 | ES 核心篇
前言最近 TL 分享了下 <Elasticsearch基础整理>https://www.jianshu.com/p/e8226138485d ,蹭着这个机会.写个小文巩固下,本文主要讲 ...
Elasticsearch系列---增量更新原理及优势
概要本篇主要介绍增量更新(partial update,也叫局部更新)的核心原理,介绍6.3.1版本的Elasticsearch脚本使用实例和增量更新的优势. 增量更新过程与原理简单回顾前文我们 ...
Elasticsearch系列---shard内部原理
概要本篇我们来看看shard内部的一些操作原理,了解一下人家是怎么玩的. 倒排索引倒排索引的结构,是非常适合用来做搜索的,Elasticsearch会为索引的每个index为analyzed的字段 ...
Elasticsearch系列---聚合查询原理
概要本篇主要介绍聚合查询的内部原理,正排索引是如何建立的和优化的,fielddata的使用,最后简单介绍了聚合分析时如何选用深度优先和广度优先. 正排索引聚合查询的内部原理是什么,Elastich ...
Elasticsearch 分片集群原理、搭建、与SpringBoot整合
单机es可以用,没毛病,但是有一点我们需要去注意,就是高可用是需要关注的,一般我们可以把es搭建成集群,2台以上就能成为es集群了.集群不仅可以实现高可用,也能实现海量数据存储的横向扩展. 新的阅读体 ...

随机推荐

关于在findViewById()方法时遇到的一些问题
最近需要做一个关于色卡的App,需要用到LayoutInflater来实现标签动态切换View界面,但是发现在使用过程中App突然会闪退, 闪退目前已解决. 先看下关于findViewById()的详 ...
Nginx+Tomcat 实现负载均衡，动静分离集群部署
Nginx + Tomcat 实现负载均衡,动静分离集群部署 1.Nginx实现负载均衡原理 2.Nginx配置反向代理主要参数 3.实验 1.Nginx实现负载均衡原理: Nginx服务器作为前端, ...
FastJSON解析Json字符串（反序列化为List、Map）
在日常开发与数据库打交道的时候,常有以Json格式的字符串存储到数据库的情况,当在Java程序中获取到对应的Json格式的String字符串后,如何才能转换为我们想要的数据格式(比如转换成Java中的 ...
python基础语法_9-1闭包装饰器补充
1.闭包的概念 closure:内部函数中对enclosing作用域的变量进行引用,外部函数返回内部函数名 2.函数实质与属性函数是一个对象:在内存中有一个存储空间函数执行完成后内部变量回收: ...
shell脚本部署zookeeper-3.4.10 [含注释]
文章目录 zk_install.sh conf/config conf/zoo_template.cfg package zk_install.sh #!/bin/bash base_path=$(c ...
《操作系统导论》第14章 | 内存操作API
内存类型在运行一个C程序的时候,会分配两种类型的内存.第一种称为栈内存,它的申请和释放操作是编译器来隐式管理的,所以有时也称为自动内存.假设需要在func()函数中为一个整形变量x申请空间,我们只需 ...
MyBatis中执行器Executor框架
与JDK提供的Executor框架类似,MyBatis也提供了一套Executor框架,具体如下图: 其为Mybatis提供与数据库交互的功能,是一个典型的装饰器模式的应用--对JDBC功能的封装,同 ...
关于 Xcode 更新 appleID 更换
可能不少人会遇到前一位同事走之后,他的 appID帐号下载的东西更新不了下面给予大家一个解决办法例如 Xcode 1.打开引用程序目录 2.找到Xcode,右键"显示包内容&quo ...
k8s基础环境配置：基于CentOS7.9
k8s基础环境配置:基于CentOS7.9 wmware15安装centos7.9:https://www.cnblogs.com/uncleyong/p/15261742.html 1.配置静态ip ...
NET命令入侵实例
实验目的了解NET入侵的过程掌握NET命令的使用方法和它的参数搭配实验内容 NET命令的使用方法和它的参数搭配实验环境描述 XP作为客户端,Windows server 2003作为远程服务器 ...

elasticsearch高亮之highlight原理

elasticsearch高亮之highlight原理的更多相关文章

随机推荐

热门专题