elasticsearch算法之搜索模型(一)

面对海量的信息，我们很容易被淹没在信息的海洋中；当我们需要查找某个信息的时候，我们就会输入能够体现我们意图的关键字，搜索引擎会通过解析我们的关键字从而构造相应的查询表示方法；然后搜索引擎通过构造的查询在内存存储的文档集合中查找跟用户需求相关的文档，并根据相关度进行排序；以上搜索引擎进行计算的过程就是相关度计算，而其相关的理论基础就是检索模型；

用户输入的是关键字，搜索引擎输出的是相关文档，从关键字和相关性两个角度可以将文档集合分为4个子集；检索模型要解决的就是尽量包含并提升set1、set3的排序；目前主流的的搜索模型主要处理的是包含关键字的set1、set2，而基本上不会涉及set3；

	相关文档	不相关文档
包含关键字	set1	set2
不包含关键字	set3	set4

需要注意的一点，我们这里有一个隐含的假设条件，就是用户数据的关键字可以充分体现用户的需求，考虑到自然语言的复杂多变，如果关键字不能精确的代表用户的需求，即使再优秀的检索模型也无济于事；

一、布尔模型

基于集合论的布尔模型使用单词集合来表示文档和用户的查询，并通过布尔表达式来计算两者的相似性；

用户通过与、或、非来构建逻辑表达式作为自己的查询需求；例如我们要查询包含elasticsearch和包含lucene或者kibana的文档；

elasticsearch and (lucene or kibana)

如果搜索引擎中有5个文档，同时每个文档包含三个关键字的情况如下

通过文档矩阵可以看到包含elasticsearch的有d1、d3、d5；

通过文档矩阵可以看到包含lucene或者kibana的文档有d1、d2、d4、d5;

对以上两个条件命中的记录计算交集得到d1、d5；

	d1	d2	d3	d4	d5
elasticsearch	Y		Y		Y
lucene	Y	Y			Y
kibana	Y	Y		Y

布尔模型虽然比较简单直观，但是由于其输出结果的二元性，无法细致的计算文档的相关性，自然无法对粗糙的搜索结果进行排序；

二、向量空间模型

向量空间模型是一种历史悠久的文档表示和相关性计算模型；其将文档看做有众多分词组成的多维向量，同时会根据一定的规则计算每个维度的权重；

例如有三个由elasticsearch、lucene、kibana组成的文档，elasticsearch在d1中的权重为我w11，lucene在d1中的权重为w12，kibana在d1中的权重为d13，所以d1可以使用向量(w11,w12,w13)来表示；

	elasticsearch	lucene	kibana
d1	w11	w12	w13
d2	w21	w22	w23
d3	w31	w32	w33

实际的搜索场景中，除了要搜索的文档可以向量化，用户输入的查询关键字也可以向量化，从而将用户的搜索查询转化为计算查询和文档的内容相似性计算；Cosine相似性是最常用的也是非常有效的计算相似性的方式，我们可以通过如下公式计算用户查询Q和文档Di相似性

\[Cosine(Q, D_i) = \frac {\sum_{j=1}^{t} w_{ij} \times q_{j} } {\sqrt{\sum_{j=1}^{t} w_{ij}^2 \times \sum_{j=1}^t} q_{j}^{2}}
\]

公式中的分子是两个向量的点积，而分布是两个向量在欧式空间中的长度的乘积；通过公式我们也可以看到余弦相似性计算的是两个向量之间夹角的余弦值，所以两个向量夹角越小则越相似；

公式中的分母也是对计算结果的规范化；这是为了避免长文档得分过高的一种惩罚机制；通过同时可以看到对于同一个查询，包含同样关键字的长文档会使得分子更小，同时使得分母更大，从而导致相似性下降的更快，即存在过分抑制长文档的问题；例如两个长短差别比较大的文档都包含跟特定主体有关的词，虽然单词在两个文档出现的次数不同，但是在两个文档中出现的词频是相当的，此时公式中的分子不变，但是由于长文档包含的单词比较多，其长度会比较长，随意会导致计算值更小；如果从空间向量的角度考虑，共线的不同长度的向量，通过除以其长度编程单位向量，不管两个向量的长度差距多大，最终的单位向量必然相等，所以向量的长度越长，则抑制效果越明显；

三、TF-IDF模型

查询和文档转化为向量，这是就需要计算每个分词的权重，而特征权重的计算框架就是TF-IDF框架，其包含词频TF、逆文档频率IDF；

TF代表单词在文档中出现的次数，一般来说某个单词出现的次数越多则越能代表文档，其权重值应该越高；虽然可以直接使用单词在文档中出现的次数来计算，考虑到长短文档的影响，实际场景中使用的比较少；

一种词频计算公式如下，我们对单词出现的频数取log运算，这样可以抑制出现次数过多对计算结果的影响；同时为了避免单词出现一次导致结果为0，从而采用加1的平滑处理方案；

\[W_{TF} = 1 + \log(TF)
\]

另外一种单词词频的的计算公式如下，其中的a是调节因子，TF是单词实际出现的频数，而Max(TF)是文档中出现频数最多的单词的频数，通过两者相除进行规范化，计算得到每个单词的在文档内相对出现频数最高的单词的相对频数，从而避免长文档对词频的影响；

\[W_{TF} = a + (1-a) \times \frac {TF} {Max(TF)}
\]

词频衡量的是单词对包含自身文档的重要性，即对文档内容的表征能力，而逆文档词频反映的是单词对文档集合中文档的甄别能力；其计算公式如下,其中N代表文档集合中文档的总数，nk代表包含单词k的文档的数量；从公式可以看到nk越大，则IDF值越小，则对文档的甄别能力越差；

\[IDF_{k} = \log (\frac{N} {n_{k}})
\]

TF-IDF框架结合两种权重因子，一般将两者相乘计算分词权重值；

\[Weight_{word} = TF \times IDF
\]

从公式可以看到，如果对于某个文档来说，

如果某个分词在此文档中出现的词频很高，同时在集合中其他文档中很少出现，那么分词的权重就会很高；

如果某个单词在此文档中出现的词频很低，同时在集合中其他文档中出现的很多，那么分词的权重就会很低；

elasticsearch算法之搜索模型(一)的更多相关文章

文本相似度算法——空间向量模型的余弦算法和TF-IDF
1.信息检索中的重要发明TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 ...
elasticsearch的rest搜索--- 查询
目录: 一.针对这次装B 的解释二.下载,安装插件elasticsearch-1.7.0 三.索引的mapping 四. 查询五.对于相关度的大牛的文档四. 查询 1. 查询的官网的文档 ...
elasticsearch实现网站搜索
使用elasticsearch 实现网站搜索,可以支持商品搜索,筛选项过滤搜索 ,价格排序, 打分筛选项聚合,还有其他综合排序后续推出搜索人工干预排序,根据销量,好评率,售卖率进行全方位的搜索实 ...
Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索作者:白宁超 2019年5月24日17:22:41 导读:件开发最大的麻烦事之一就是环境配置,操作系统设置,各种库和组件的安装.只有它们都正 ...
CentOS 7.4 下搭建 Elasticsearch 6.3 搜索群集
上个月 13 号,Elasticsearch 6.3 如约而至,该版本和以往版本相比,新增了很多新功能,其中最令人瞩目的莫过于集成了 X-Pack 模块.而在最新的 X-Pack 中 Elastics ...
笔记13：Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索 1 ES基本介绍概念介绍 Elasticsearch是一个基于Lucene库的搜索引擎.它提供了一个分布式.支持多租户的全文搜索引擎,它可 ...
elasticsearch联想加搜索实例
//搜索框具体的ajax如下: <form class="form-wrapper cf"> <img src="__PUBLIC__/Home/img ...
畅购商城(五)：Elasticsearch实现商品搜索
好好学习,天天向上本文已收录至我的Github仓库DayDayUP:github.com/RobodLee/DayDayUP,欢迎Star,更多文章请前往:目录导航畅购商城(一):环境搭建畅购商 ...
Elasticsearch(2) 数据搜索
本文介绍如何在Elasticsearch中对数据进行搜索. 1.简述在Elasticsearch中的搜索中,有两类搜索: queries aggregations 区别在于:query可以进行全文搜 ...

随机推荐

spring 事务失效的几种场景
以下场景是基于mysql数据库,InnoDB的存储引擎. 一.没有添加@Transactional注解二.方法声明是private或者static 三.没有抛出异常而是try catch了异常下面 ...
【机器学习】HMM
机器学习算法-HMM 目录机器学习算法-HMM 1. 模型定义 2. 序列生成 3. 概率计算 3.1 前向计算 3.2 后向计算 4. 学习 4.1 求解 4.2 求解 4.3 求解 5. 预测 ...
Go 变量及基本数据类型1
#### Go 变量及基本数据类型(一)今天主要学习一下Go 中的变量及基本数据类型: 如何申明,使用变量,以及基本数据类型的介绍和使用细节; ##### 变量的介绍1. 变量相当于内存中一个数据存储 ...
一简单介绍aws。
aws入门一什么是aws? /* 概念: AWS就是 Amazon Web Servies, 亚马逊云计算服务平台. 是一款云服务. */ 二 aws可以做什么? // 可以在aws,创建我们需要 ...
plsql 存储过程介绍。
/* 7-22 知识总结? 1. 存储过程 2.函数 3.包 */ /*1.什么是存储过程? 语法? 存储过程:类似于Java中的方法:完成一个特定的功能,一系列代码 (增删改操作和一些逻辑判断,se ...
011 Linux 打包与解压 tar
01 压缩.打包命令有哪些? Linux上有着各种压缩.打包的工具:tar.gzip.zip.7z,而 tar 应该算是 Linux 官宣的压缩工具了. tar 的核心压缩工具其实是 gzip,在其上 ...
C 数组排序后输出至文件
如题 C实现 #include<stdio.h> #define COUNT 9 //数组长度+1 #define FILE_NAME "data.txt" //文件名 ...
js 利用||和&&赋值小技巧
感谢原文作者:nayi_224 原文链接:https://blog.csdn.net/nayi_224/article/details/80437329 对于需要返回boolean类型数值的地方,比如 ...
JavaScript多元运算符
JavaScript多元运算符 JavaScript多元运算符 **实例:**` function test(9){ var a=4,b=11; return p > 1 ? p<b ...
Base64补充
1.Base64简单说明描述:Base64可以成为密码学的基石,非常重要. 特点:可以将任意的二进制数据进行Base64编码结果:所有的数据都能被编码为并只用65个字符就能表示的文本文件. 65字 ...

elasticsearch算法之搜索模型(一)

elasticsearch算法之搜索模型(一)的更多相关文章

随机推荐

热门专题