elasticsearch高亮之词项向量

一、什么是词项向量

词项向量(term vector)是有elasticsearch在index document的时候产生，其包含对document解析过程中产生的分词的一些信息，例如分词在字段值中的位置、开始和结束的字符位置、分词的元数据payloads等；

term vector是单独进行存储的，会额外多占用一杯的空间，所以elasticsearch默认情况下禁用词项向量，如果要启用，我们需要在字段的mapping中使用term_vector进行设置；

二、term_vector的配置选项

term vector支持以下配置选项

配置选项	描述
no	不启用term vector，默认值
yes	启用term vector，但是仅仅记录分词
with_positions	启用term vector, 记录分词及分词在字符串中的位置
with_offsets	启用term vector, 记录分词在字符串中的起始字符位置
with_positions_offsets	启用term vector, 记录分词在字符串中的位置及起始的字符位置
with_positions_payloads	启用term vector, 记录分词在字符串中的位置及payloads
with_positions_offsets_payloads	启用term vector, 记录分词在字符串中的位置、起始字符位置及payloads

我们使用以下mapping配置，为text、fullname字段启用term vector；

PUT /term_vector_test/

{

    "mappings":{

        "_doc":{

            "properties":{

                "text":{

                    "type":"text",

                    "term_vector":"with_positions_offsets_payloads",

                    "store":true,

                    "analyzer":"standard"

                },

                "fullname":{

                    "type":"text",

                    "term_vector":"with_positions_offsets_payloads",

                    "analyzer":"standard"

                }

            }

        }

    },

    "settings":{

        "index":{

            "number_of_shards":1,

            "number_of_replicas":0

        }

    }

}

将以下两个document发送到elasticsearch进行index；

PUT /term_vector_test/_doc/1

{

  "fullname" : "John Doe",

  "text" : "twitter test test test "

}

PUT /term_vector_test/_doc/2

{

  "fullname" : "Jane Doe",

  "text" : "Another twitter test ..."

}

三、查看term vector的数据结构

elasticsearch提供了_termvectors API，我们可以使用它来查看我们刚才index的doucment产生的term vector；

这个API每次只能查看特定的某个文档的term vector信息，我们可以通过url指定具体的document的_id;

term vector主要由term information、term statistics、field statistics构成，其中term information又分成了positions、offsets、payloads三个选项，我们可以通过请求的body的参数分别控制返回的信息；

下边我们查看id=1的文档的text字段的term vector信息；

GET /twitter/_doc/1/_termvectors

{

  "fields" : ["text"],

  "offsets" : true,

  "payloads" : true,

  "positions" : true,

  "term_statistics" : true,

  "field_statistics" : true

}

通过返回的信息可以看到erm vecter由三部分组成

分词基本信息

term position，分词在字段值中的位置，可以看到分词test在字段中占据下标为1、2、3三个位置，而分词twitter占据下标为0的位置；

start and end offsets, 分词在字段值中字符开始和结束位置，可以看到分词twitter的start_offset和end_offset分别为0和7；

term payloads，分词的元数据，可以看到每个分词的payload都是d29yZA==，从这里可以到elasticsearch默认值为 word；

term frequency,分词在字段值中出现的频率，可以看到分词twitter的term_freq是 1；

分词统计信息

total term frequency，当前分词在所有文档的当前字段中出现的频率，可以看到twitter的ttf是2，test的ttf是4；

document frequency，当前字段包含当前分词的文档的数量，可以看到两个document的text字段都包含test及twitter,所以两者的doc_freq为2；

字段统计信息

document count, 包含当前字段的document数量，这里两个文档都包含text字段，所以doc_count为2；

sum of document frequencies，当前字段中所有分词对应的document frequency的加和，这里以下计算可以得到sum_doc_freq为6；

\[df_{sum}(text) = df(test) + df(twitter) + df(anther) + df(...) = 2 + 2 + 1 + 1 = 6
\]

sum of total term frequencies,当前字段中所有分词对应的total term frequency的加和，这里以下计算可以得到sum_ttf为8；

\[tf_{sum}(text) = tf(test) + tf(twitter) + tf(anther) + tf(...) = 4 + 2 + 1 + 1 = 8
\]

{

  "_index" : "twitter",

  "_type" : "_doc",

  "_id" : "1",

  "_version" : 1,

  "found" : true,

  "took" : 0,

  "term_vectors" : {

    "text" : {

      "field_statistics" : {

        "sum_doc_freq" : 6,

        "doc_count" : 2,

        "sum_ttf" : 8

      },

      "terms" : {

        "test" : {

          "doc_freq" : 2,

          "ttf" : 4,

          "term_freq" : 3,

          "tokens" : [

            {

              "position" : 1,

              "start_offset" : 8,

              "end_offset" : 12,

              "payload" : "d29yZA=="

            },

            {

              "position" : 2,

              "start_offset" : 13,

              "end_offset" : 17,

              "payload" : "d29yZA=="

            },

            {

              "position" : 3,

              "start_offset" : 18,

              "end_offset" : 22,

              "payload" : "d29yZA=="

            }

          ]

        },

        "twitter" : {

          "doc_freq" : 2,

          "ttf" : 2,

          "term_freq" : 1,

          "tokens" : [

            {

              "position" : 0,

              "start_offset" : 0,

              "end_offset" : 7,

              "payload" : "d29yZA=="

            }

          ]

        }

      }

    }

  }

}

基于以下两点term statistics和field statistics并不是准确的；

删除的文档不会计算在内；

只计算请求文档所在的分片的数据；

elasticsearch高亮之词项向量的更多相关文章

ElasticStack学习（九）：深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分
一.基于词项与全文的搜索 1.词项 Term(词项)是表达语意的最小单位,搜索和利用统计语言模型进行自然语言处理都需要处理Term. Term的使用说明: 1)Term Level Query:Ter ...
elasticsearch算法之词项相似度算法(一)
一.词项相似度 elasticsearch支持拼写纠错,其建议词的获取就需要进行词项相似度的计算:今天我们来通过不同的距离算法来学习一下词项相似度算法: 二.数据准备计算词项相似度,就需要首先将词项 ...
elasticsearch算法之词项相似度算法(二)
六.莱文斯坦编辑距离前边的几种距离计算方法都是针对相同长度的词项,莱文斯坦编辑距离可以计算两个长度不同的单词之间的距离:莱文斯坦编辑距离是通过添加.删除.或者将一个字符替换为另外一个字符所需的最小编 ...
词嵌入向量WordEmbedding
词嵌入向量WordEmbedding的原理和生成方法 WordEmbedding 词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用WordEmbedding将一个单 ...
TF-IDF词项权重计算
一.TF-IDF 词项频率: df:term frequency. term在文档中出现的频率.tf越大,词项越重要. 文档频率: tf:document frequecy.有多少文档包括此term, ...
词项邻近 & 停用词 & 词干还原
[词项邻近] 邻近操作符(proximity)用于指定查询中的两个词项应该在文档中互相靠近,靠近程度通常采用两者之间的词的个数或者是否同在某个结构单元(如句子或段落)中出现来衡量. [停用词] 一些 ...
ES 入门 - 基于词项的查询
准备首先先声明下,我这里使用的 ES 版本 5.2.0. 为了便于理解,这里以如下 index 为格式,该格式是通过 PMACCT 抓取的 netflow 流量信息, 文中所涉及的到的例子,全基于此 ...
ElasticSearch IK热词自动热更新原理与Golang实现
热更新概述 ik分词器本身可以从配置文件加载扩张词库,也可以从远程HTTP服务器加载. 从本地加载,则需要重启ES生效,影响比较大.所以,一般我们都会把词库放在远程服务器上.这里主要有2种方式: 借助 ...
elasticsearch高亮之highlight原理
一.highlight简介 highlight是提升用户体验的重要手段,搜索引擎通过高亮突出命中关键字等方式,方便用户通过关键字周围的信息快速的确认是否是自己希望的结果: highlight功能通常包 ...

随机推荐

Android中常用布局
1.线性布局 LinearLayout orientation:方向:vertical,垂直:horizontal,水平 gravity:对齐方式,子控件相对于当前 ...
NSMutableString基本概念
1.NSMutableString 基本概念 NSMutableString 类继承NSString类,那么NSString 供的方法在NSMutableString中基本都可以使用,NSMutab ...
【收藏】Supervisor的作用与配置
原文链接:https://www.jianshu.com/p/0226b7c59ae2 supervisor supervisor管理进程,是通过fork/exec的方式将这些被管理的进程当作supe ...
项目架构(结构)搭建:主流结构(UITabBarController + 导航控制器)
/* 项目架构(结构)搭建:主流结构(UITabBarController + 导航控制器) -> 项目开发方式 1.storyboard 2.纯代码 */ @interface AppDele ...
对于Web性能优化，了解和经验
我们在发布项目之前压缩CSS和JavaScript源代码,这样文件体积就变小了,用户加载必要资源所花的时间也就更短了. 压缩源码和图片 JavaScript文件源代码可以采用混淆压缩的方式,CSS文件 ...
8、Linux基础--rpm、yum、yum私有仓库、系统优化
笔记 1.晨考 1.文件的三种时间属性,每一种时间属性在什么情况下改变 atime : 访问时间 mtime :修改时间 ctime :修改属性时间 2.权限的类型可读(r, 4) 可写(w, 2) ...
基于TI DSP TMS320C6678、Xilinx K7 FPGA XC7K325T的高速数据处理核心板
一.板卡概述该DSP+FPGA高速信号采集处理板由我公司自主研发,包含一片TI DSP TMS320C6678和一片Xilinx FPGA K7 XC72K325T-1ffg900.包含1个千兆网口 ...
Involuting Bunny! (2021.9)
文化课就很掉头发,文科都能学好我还怕竞赛?( 大概从"刷的题的题解"推广为"所有做的题的题解"吧,兔子比较懒,这样写题解轻松一些. Gym10305 ...
书写高质量sql的一些建议
It's better to light a candle than to curse the darkness 老生常谈的不要使用select * 如果硬要使用select *,那么就请忍受一下以下 ...
多图|一文详解Nacos参数！
Nacos 中的参数有很多,如:命名空间.分组名.服务名.保护阈值.服务路由类型.临时实例等,那这些参数都是什么意思?又该如何设置?接下来我们一起来盘它. 1.命名空间在 Nacos 中通过命名空间 ...

elasticsearch高亮之词项向量

elasticsearch高亮之词项向量的更多相关文章

随机推荐

热门专题