Project2--Lucene的Ranking算法修改：BM25算法

原文出自:http://blog.csdn.net/wbia2010lkl/article/details/6046661 1. BM25算法 BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下: ∑ 其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率. K1通常为1.2,通常为0-1000 K的形式较为复杂 K= 上式中,dl表示文档的长度,avdl表示文档的平均长度,b通常取0.75 2. BM25具体实现…

文本相似度 — TF-IDF和BM25算法

1,$TF-IDF$算法 $TF$是指归一化后的词频,$IDF$是指逆文档频率.给定一个文档集合$D$,有$d_1, d_2, d_3, ......, d_n \in D$.文档集合总共包含$m$个词(注:一般在计算$TF-IDF$时会去除如“的”这一类的停用词),有$w_1, w_2, w_3, ......, w_m \in W$.我们现在以计算词$w_i$在文档$d_j$中的$TF-IDF$指为例.$TF$的计算公式为: $ TF = \frac{freq(i, j)} {max_{le…

文本相似度-BM25算法

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a…

Okapi BM25算法

引言 Okapi BM25,一般简称 BM25 算法,在 20 世纪 70 年代到 80 年代,由英国一批信息检索领域的计算机科学家发明.这里的 BM 是"最佳匹配"(Best Match)的缩写,Okapi 是第一个使用这种方法的信息获取系统的名称.在信息检索领域,BM25 算法是工程实践中举足轻重的重要的 Baseline 算法.迄今为止距 BM25 的提出已经过去三十多年,但是这个算法依然在很多信息检索的任务中表现优异,是很多工程师首选的算法之一. 今天我们就来谈谈 BM25 算…

分布式一致性算法：Raft 算法（论文翻译）

Raft 算法是可以用来替代 Paxos 算法的分布式一致性算法,而且 raft 算法比 Paxos 算法更易懂且更容易实现.本文对 raft 论文进行翻译,希望能有助于读者更方便地理解 raft 的思想.如果对 Paxos 算法感兴趣,可以看我的另一篇文章:分布式系列文章--Paxos算法原理与推导摘要 Raft 是用来管理复制日志(replicated log)的一致性协议.它跟 multi-Paxos 作用相同,效率也相当,但是它的组织结构跟 Paxos 不同.这使得 Raft 比 Pa…

【转】分布式一致性算法：Raft 算法（Raft 论文翻译）

编者按:这篇文章来自简书的一个位博主Jeffbond,读了好几遍,翻译的质量比较高,原文链接:分布式一致性算法:Raft 算法(Raft 论文翻译),版权一切归原译者. 同时,第6部分的集群成员变更读起来还不是很流畅,需要了解这一部分的童鞋可以找下其他的文章看一下. 另外,在转载文章的结尾,我贴了一些Raft算法的相关博文,在以下是转载原文: Raft 算法是可以用来替代 Paxos 算法的分布式一致性算法,而且 raft 算法比 Paxos 算法更易懂且更容易实现.本文对 raft 论文进行翻…

Levenshtein Distance算法（编辑距离算法）

编辑距离编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符.一般来说,编辑距离越小,两个串的相似度越大.例如将kitten一字转成sitting:sitten (k→s)sittin (e→i)sitting (→g)俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念. 应用最小编辑距离通常作为一种相似度计算函数被用…

ISAP算法对 Dinic算法的改进

ISAP算法对 Dinic算法的改进: 在刘汝佳图论的开头引言里面,就指出了,算法的本身细节优化,是比较复杂的,这些高质量的图论算法是无数优秀算法设计师的智慧结晶. 如果一时半会理解不清楚,也是正常的.但是对于一个优秀的acmer来说,其算法的本身,可以锻炼你的思维.增长见识! 下面是我对 Dinic和ISAP的认识: Dinic算法比较值钱的 EK算法来说,已经有很大的提高了,其优势在哪里呢? 就是在于他的分层思想.在层次图上增广.但是,他也有弊端. 就是每次进行增广后,对于层次图都进行了从头…

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification) 0.写在前面的话我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感.而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的. 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣.最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决定趁这个机会,写一系列关于…

C++编程练习(11)----“图的最短路径问题“（Dijkstra算法、Floyd算法）

1.Dijkstra算法求一个顶点到其它所有顶点的最短路径,是一种按路径长度递增的次序产生最短路径的算法. 算法思想: 按路径长度递增次序产生算法: 把顶点集合V分成两组: (1)S:已求出的顶点的集合(初始时只含有源点V0) (2)V-S=T:尚未确定的顶点集合将T中顶点按递增的次序加入到S中,保证: (1)从源点V0到S中其他各顶点的长度都不大于从V0到T中任何顶点的最短路径长度 (2)每个顶点对应一个距离值 S中顶点:从V0到此顶点的长度 T中顶点:从V0到此顶点的只包括S中顶点作中间…

[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现

聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记录)的集合,将这些对象划分为多个组或者“聚簇”,从而使同组内的对象间比较相似而不同组对象间差异比较大:换言之,聚类算法就是将相似的对象放到同一个聚簇中,而将不相似的对象放到不同的聚簇中.由于在聚类过程中不使用到类别标签,所以相似性的概念要基于对象的属性进行定义.应用不同则相似性规则和聚类算法一般不太…

AES算法，DES算法，RSA算法JAVA实现

1 AES算法 1.1 算法描述 1.1.1 设计思想 Rijndael密码的设计力求满足以下3条标准: ① 抵抗所有已知的攻击. ② 在多个平台上速度快,编码紧凑. ③ 设计简单. 当前的大多数分组密码,其轮函数是Feistel结构. Rijndael没有这种结构. Rijndael轮函数是由3个不同的可逆均匀变换 1.1.2 密码说明严格地说,AES和Rijndael加密法并不完全一样(虽然在实际应用中二者可以互换),因为Rijndael加密法可以支持更大…

STL_算法_06_遍历算法

◆ 常用的遍历算法: 1.1.用指定函数依次对指定范围内所有元素进行迭代访问.该函数不得修改序列中的元素 functor for_each(iteratorBegin, iteratorEnd, functor对每个元素进行操作); 1.2.与for_each类似,遍历所有元素,但可对容器的元素进行修改( transform 是变换的意思) OutputIterator transform(InputIterator _First1, InputIterator _Last1, Outpu…

Breaseman算法绘制直线算法公式推导|步骤|程序

Breaseman算法绘制直线算法公式推导|步骤|程序 BreaseMan算法优点: (1)不必计算直线的斜率,因此不用做除法: (2)不用浮点数,只用整数: (3)制作整数的加减乘除,和乘2操作,乘2操作可以直接用移位运算来处理: (4)BresenMan算法的运算速度非常快. 明白了数学原理,我们很快能确定算法步骤: 1. 输入线段的起点和终点. 2. 判断线段的斜率是否存在(即起点和终点的x坐标是否相同),若相同,即斜率不存在, 只需计算y方向的单位步进(△Y+1次),x方向的坐标保持不变…

最短路径算法 4.SPFA算法(1)

今天所说的就是常用的解决最短路径问题最后一个算法,这个算法同样是求连通图中单源点到其他结点的最短路径,功能和Bellman-Ford算法大致相同,可以求有负权的边的图,但不能出现负回路.但是SPFA算法的时间复杂度是O(kE),k是常数,平均值为2,E是边数.我们可以看到SPFA算法的时间复杂度远远低于Bellman-Ford算法,因此常常选择此算法而不是Bellman算法(虽然其复杂度没有被严格的数学证明). 简单的说SPFA是将Bellman-Ford算法结合了队列的实现,从而减少了很多冗余…

图（最短路径算法————迪杰斯特拉算法和弗洛伊德算法）.RP

文转:http://blog.csdn.net/zxq2574043697/article/details/9451887 一: 最短路径算法 1. 迪杰斯特拉算法 2. 弗洛伊德算法二: 1. 迪杰斯特拉算法求从源点到其余各点的最短路径依最短路径的长度递增的次序求得各条路径路径长度最短的最短路径的特点: 在这条路径上,必定只含一条弧,并且这条弧的权值最小. 下一条路径长度次短的最短路径的特点: 它只可能有两种情况:或是直接从源点到该点(只含一条弧):或者是从源点经过顶点v1,再到达该顶…

压缩感知重构算法之OLS算法python实现

压缩感知重构算法之OMP算法python实现压缩感知重构算法之CoSaMP算法python实现压缩感知重构算法之SP算法python实现压缩感知重构算法之IHT算法python实现压缩感知重构算法之OLS算法python实现压缩感知重构算法之IRLS算法python实现 Orthogonal Least Squares (OLS)算法流程实验要利用python实现,电脑必须安装以下程序 python (本文用的python版本为3.5.1) numpy python包(本文用的版本…

一种局部二值化算法：Sauvola算法

之前接触过全局二值化(OTSU算法),还有OPENCV提供的自适应二值化,最近又了解到一种新的局部二值化算法,Sauvola算法. 转载自:http://www.dididongdong.com/archives/4048 值得注意的是,计算r×r邻域内像素值的时候,一种优化的策略是,使用OPENCV提供的积分图,计算整张图像的积分图,那么计算r×r区域内的均值可以在常数时间内实现. CV_EXPORTS_W ); 我们常见的图像二值化算法大致可分为全局阈值方法与局部阈值方法这两种类型.其中OT…