elasticsearch算法之搜索模型(一)

面对海量的信息，我们很容易被淹没在信息的海洋中；当我们需要查找某个信息的时候，我们就会输入能够体现我们意图的关键字，搜索引擎会通过解析我们的关键字从而构造相应的查询表示方法；然后搜索引擎通过构造的查询在内存存储的文档集合中查找跟用户需求相关的文档，并根据相关度进行排序；以上搜索引擎进行计算的过程就是相关度计算，而其相关的理论基础就是检索模型；

用户输入的是关键字，搜索引擎输出的是相关文档，从关键字和相关性两个角度可以将文档集合分为4个子集；检索模型要解决的就是尽量包含并提升set1、set3的排序；目前主流的的搜索模型主要处理的是包含关键字的set1、set2，而基本上不会涉及set3；

	相关文档	不相关文档
包含关键字	set1	set2
不包含关键字	set3	set4

需要注意的一点，我们这里有一个隐含的假设条件，就是用户数据的关键字可以充分体现用户的需求，考虑到自然语言的复杂多变，如果关键字不能精确的代表用户的需求，即使再优秀的检索模型也无济于事；

一、布尔模型

基于集合论的布尔模型使用单词集合来表示文档和用户的查询，并通过布尔表达式来计算两者的相似性；

用户通过与、或、非来构建逻辑表达式作为自己的查询需求；例如我们要查询包含elasticsearch和包含lucene或者kibana的文档；

elasticsearch and (lucene or kibana)

如果搜索引擎中有5个文档，同时每个文档包含三个关键字的情况如下

通过文档矩阵可以看到包含elasticsearch的有d1、d3、d5；

通过文档矩阵可以看到包含lucene或者kibana的文档有d1、d2、d4、d5;

对以上两个条件命中的记录计算交集得到d1、d5；

	d1	d2	d3	d4	d5
elasticsearch	Y		Y		Y
lucene	Y	Y			Y
kibana	Y	Y		Y

布尔模型虽然比较简单直观，但是由于其输出结果的二元性，无法细致的计算文档的相关性，自然无法对粗糙的搜索结果进行排序；

二、向量空间模型

向量空间模型是一种历史悠久的文档表示和相关性计算模型；其将文档看做有众多分词组成的多维向量，同时会根据一定的规则计算每个维度的权重；

例如有三个由elasticsearch、lucene、kibana组成的文档，elasticsearch在d1中的权重为我w11，lucene在d1中的权重为w12，kibana在d1中的权重为d13，所以d1可以使用向量(w11,w12,w13)来表示；

	elasticsearch	lucene	kibana
d1	w11	w12	w13
d2	w21	w22	w23
d3	w31	w32	w33

实际的搜索场景中，除了要搜索的文档可以向量化，用户输入的查询关键字也可以向量化，从而将用户的搜索查询转化为计算查询和文档的内容相似性计算；Cosine相似性是最常用的也是非常有效的计算相似性的方式，我们可以通过如下公式计算用户查询Q和文档Di相似性

\[Cosine(Q, D_i) = \frac {\sum_{j=1}^{t} w_{ij} \times q_{j} } {\sqrt{\sum_{j=1}^{t} w_{ij}^2 \times \sum_{j=1}^t} q_{j}^{2}}
\]

公式中的分子是两个向量的点积，而分布是两个向量在欧式空间中的长度的乘积；通过公式我们也可以看到余弦相似性计算的是两个向量之间夹角的余弦值，所以两个向量夹角越小则越相似；

公式中的分母也是对计算结果的规范化；这是为了避免长文档得分过高的一种惩罚机制；通过同时可以看到对于同一个查询，包含同样关键字的长文档会使得分子更小，同时使得分母更大，从而导致相似性下降的更快，即存在过分抑制长文档的问题；例如两个长短差别比较大的文档都包含跟特定主体有关的词，虽然单词在两个文档出现的次数不同，但是在两个文档中出现的词频是相当的，此时公式中的分子不变，但是由于长文档包含的单词比较多，其长度会比较长，随意会导致计算值更小；如果从空间向量的角度考虑，共线的不同长度的向量，通过除以其长度编程单位向量，不管两个向量的长度差距多大，最终的单位向量必然相等，所以向量的长度越长，则抑制效果越明显；

三、TF-IDF模型

查询和文档转化为向量，这是就需要计算每个分词的权重，而特征权重的计算框架就是TF-IDF框架，其包含词频TF、逆文档频率IDF；

TF代表单词在文档中出现的次数，一般来说某个单词出现的次数越多则越能代表文档，其权重值应该越高；虽然可以直接使用单词在文档中出现的次数来计算，考虑到长短文档的影响，实际场景中使用的比较少；

一种词频计算公式如下，我们对单词出现的频数取log运算，这样可以抑制出现次数过多对计算结果的影响；同时为了避免单词出现一次导致结果为0，从而采用加1的平滑处理方案；

\[W_{TF} = 1 + \log(TF)
\]

另外一种单词词频的的计算公式如下，其中的a是调节因子，TF是单词实际出现的频数，而Max(TF)是文档中出现频数最多的单词的频数，通过两者相除进行规范化，计算得到每个单词的在文档内相对出现频数最高的单词的相对频数，从而避免长文档对词频的影响；

\[W_{TF} = a + (1-a) \times \frac {TF} {Max(TF)}
\]

词频衡量的是单词对包含自身文档的重要性，即对文档内容的表征能力，而逆文档词频反映的是单词对文档集合中文档的甄别能力；其计算公式如下,其中N代表文档集合中文档的总数，nk代表包含单词k的文档的数量；从公式可以看到nk越大，则IDF值越小，则对文档的甄别能力越差；

\[IDF_{k} = \log (\frac{N} {n_{k}})
\]

TF-IDF框架结合两种权重因子，一般将两者相乘计算分词权重值；

\[Weight_{word} = TF \times IDF
\]

从公式可以看到，如果对于某个文档来说，

如果某个分词在此文档中出现的词频很高，同时在集合中其他文档中很少出现，那么分词的权重就会很高；

如果某个单词在此文档中出现的词频很低，同时在集合中其他文档中出现的很多，那么分词的权重就会很低；

elasticsearch算法之搜索模型(一)的更多相关文章

文本相似度算法——空间向量模型的余弦算法和TF-IDF
1.信息检索中的重要发明TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 ...
elasticsearch的rest搜索--- 查询
目录: 一.针对这次装B 的解释二.下载,安装插件elasticsearch-1.7.0 三.索引的mapping 四. 查询五.对于相关度的大牛的文档四. 查询 1. 查询的官网的文档 ...
elasticsearch实现网站搜索
使用elasticsearch 实现网站搜索,可以支持商品搜索,筛选项过滤搜索 ,价格排序, 打分筛选项聚合,还有其他综合排序后续推出搜索人工干预排序,根据销量,好评率,售卖率进行全方位的搜索实 ...
Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索作者:白宁超 2019年5月24日17:22:41 导读:件开发最大的麻烦事之一就是环境配置,操作系统设置,各种库和组件的安装.只有它们都正 ...
CentOS 7.4 下搭建 Elasticsearch 6.3 搜索群集
上个月 13 号,Elasticsearch 6.3 如约而至,该版本和以往版本相比,新增了很多新功能,其中最令人瞩目的莫过于集成了 X-Pack 模块.而在最新的 X-Pack 中 Elastics ...
笔记13：Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索 1 ES基本介绍概念介绍 Elasticsearch是一个基于Lucene库的搜索引擎.它提供了一个分布式.支持多租户的全文搜索引擎,它可 ...
elasticsearch联想加搜索实例
//搜索框具体的ajax如下: <form class="form-wrapper cf"> <img src="__PUBLIC__/Home/img ...
畅购商城(五)：Elasticsearch实现商品搜索
好好学习,天天向上本文已收录至我的Github仓库DayDayUP:github.com/RobodLee/DayDayUP,欢迎Star,更多文章请前往:目录导航畅购商城(一):环境搭建畅购商 ...
Elasticsearch(2) 数据搜索
本文介绍如何在Elasticsearch中对数据进行搜索. 1.简述在Elasticsearch中的搜索中,有两类搜索: queries aggregations 区别在于:query可以进行全文搜 ...

随机推荐

BUU XSS COURSE 1 & [CISCN2019 华东北赛区]Web2
BUU XSS COURSE 1 & [CISCN2019 华东北赛区]Web2 XSS的题目没怎么做过,比赛基本上也没有(=_=),总结下今天做的两题都是看赵总视频现学现做的,这里附上学习 ...
HTML+CSS+Javascript实现轮播图效果
HTML+CSS+Javascript实现轮播图效果注意:根据自己图片大小来更改轮播图大小. <!doctype html> <html> <head> < ...
1010day-人口普查系统
1.xiugai.java package com.edu.ia; import java.io.IOException;import java.sql.SQLException; import ja ...
从带Per-Building数据的KML/COLLADA中创建3D Tiles
Cesium中文网:http://cesiumcn.org/ | 国内快速访问:http://cesium.coinidea.com/ 许多Cesium的使用者经常需要将整个城市的数十万个三维建筑可视 ...
vue体验
1.创建工作区 2.点击添加文件 3.新建一个html文件,并输入!+tab 自动生成html结构 4.输入div#app,生成头部 <!DOCTYPE html> <html l ...
SpringBoot的.gitignore文件使用
简介临时文件,编译的中间文件等不要提交到代码仓库,这时就要设置相应的忽略规则,来忽略这些文件的提交.git提供了一个.gitignore,来自动忽略这些配置文件配置规则 # 表示此为注释,将被Gi ...
chromium .cipd_client 失败的解决办法
gclient config https://chromium.googlesource.com/v8/v8 chromium 代理完美解决办法 #git的代理设置 git config --glob ...
python-字符串操作分类小结
切片 str[start:end:step] # 包括头,不包括尾巴.step为步长,意思是每隔step-1个元素,取一个字符 [::-1] #反向取字符串,实现字符串的反转 "abcde& ...
Git Push 免输用户名和密码
前言在大家使用github的过程中,一定会碰到这样一种情况,就是每次要push 和pull时总是要输入github的账号和密码,这样不仅浪费了大量的时间且降低了工作效率.在此背景下,本文在网上找了两 ...
Java线程--Phaser使用
原创:转载需注明原创地址 https://www.cnblogs.com/fanerwei222/p/11867895.html Java线程--Phaser使用, 代码里头有详细注释: packag ...

elasticsearch算法之搜索模型(一)

elasticsearch算法之搜索模型(一)的更多相关文章

随机推荐

热门专题