25.TF&IDF算法以及向量空间模型算法

主要知识点：

boolean model
IF/IDF
vector space model

一、boolean model

在es做各种搜索进行打分排序时，会先用boolean model 进行初步的筛选，boolean model类似and这种逻辑操作符，先过滤出包含指定term的doc。must/must not/should（过滤、包含、不包含、可能包含）这几种情况，这一步不会对各个doc进行打分，只分过滤，为下一步的IF/IDF算法筛选数据。

二、TF/IDF

这一步就是es为boolean model过滤出来的doc进行打分，但是这一步也只是单个term在doc中的分数。现假如：

query: hello world

doc1: java is my favourite programming language, hello world !!!

doc2: hello java, you are very good, oh hello world!!!

hello对doc1的评分

TF: term frequency

找到hello在doc1中出现了几次，1次，会根据出现的次数给个分数

一个term在一个doc中，出现的次数越多，那么最后给的相关度评分就会越高

IDF：inversed document frequency

找到hello在所有的doc中出现的次数，3次

一个term在所有的doc中，出现的次数越多，那么最后给的相关度评分就会越低

length norm

hello搜索的那个field的长度，field长度越长，给的相关度评分越低; field长度越短，给的相关度评分越高

最后，会将hello这个term，对doc1的分数，综合TF，IDF，length norm，计算出来一个综合性的分数

3、vector space model

我们在做搜索时，搜索条件中可能会有多个term，es出来的分数结果也是对多个term的综合分数，多个term对一个doc的总分数的计算，在es中使用的是vector space model(空间向量模型），这个模型的算法很复杂，我们在使用es时不需要知道这种算法，只需要知道综合分数是由灾这种模型计算得出的就行。

25.TF&IDF算法以及向量空间模型算法的更多相关文章

扩展：向量空间模型算法(Vector Space Model)
12.扩展：向量空间模型算法(Vector Space Model)
文本相似度算法——空间向量模型的余弦算法和TF-IDF
1.信息检索中的重要发明TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 ...
tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
55.TF/IDF算法
主要知识点: TF/IDF算法介绍查看es计算_source的过程及各词条的分数查看一个document是如何被匹配到的一.算法介绍 relevance score算法,简单来说 ...
Elasticsearch由浅入深（十）搜索引擎：相关度评分 TF&IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据
相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequen ...
tf–idf算法解释及其python代码
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
基于TF/IDF的聚类算法原理
一.TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性. 公式为这个term在document中出 ...

随机推荐

Linux系统centos7+VMwareWorkstation创建共享文件夹错误解决方法集锦
在创建共享文件夹过程中出现了多种错误,多次尝试后终于解决了. 1.直接找到VMware Tools压缩包的位置:/run/media/wxy/VMware\ Tools /**省去了创建光盘挂载点:m ...
500万url的es 批删除
bash 循环算术计算读写文件 [root@hadoop2 ~]# sh looh.sh1234LIZ1 2 3 4 0 1 2 3 4 5 6 7 8 9 10 0games:x:12:100 ...
Android中静态变量的生命周期
静态变量的生命周期,起始于类的加载,终止于类的释放.什么时候类会加载呢?我们知道,在app打开时,会创建一个进程,然后初始化一个dvm的实例,负责类的加载释放和垃圾回收等.换句话说,在进程创建之后 ...
YTU 2705:用重载求距离
2705: 用重载求距离. 时间限制: 1 Sec 内存限制: 128 MB 提交: 208 解决: 114 题目描述使用函数重载的方法定义两个重名函数,分别求出整型数的两点间距离和浮点型数的两 ...
bag of words in c++
#include <iostream> #include <vector> #include <cstddef> #include <string> # ...
AcWing算法基础1.4
高精度高精度加法,高精度减法,高精度乘低精度,高精度除以低精度,大概平时用的最多的就是这四个,模板有两种(因为我现在不太会用vector,就用数组也写了个,23333) 高精度运算和人工手算差不多, ...
引水工程 Kruskal + Prim
Kruskal题解 : 以案例输入为例有五个缺水地区 , 这个个缺水地区之间建立联系的费用已经给出并且之间水库的费用也已经给出 , 自己水库也已看为是另一个点 , 这样就有了 6 个点 , 这 ...
java DDD 基于maven开发的探讨
对于DDD我目前的理解是 1.除了数据的基本操作,也可以把一些公用的方法或者类迁移到Infrastructrue 2.对于domain层可以声明各个聚合根的操作接口:例:IXXXRepository ...
react杂记
React webpack+react (hello world) 项目结构: src: app.js main.js package.json webpack_dev_config.js 需要安装包 ...
T-SQL语句以及几个数据库引擎
创建表注意事项: A.自增长 B.数据库引擎, ISAM 是一个定义明确且历经时间考验的数据表格管理方法,它在设计之时就考虑到数据库被查询的次数要远大于更新的次数.因此,IS ...

25.TF&IDF算法以及向量空间模型算法

25.TF&IDF算法以及向量空间模型算法的更多相关文章

随机推荐

热门专题