Fisher准则一维聚类

在做FAQ系统时，用户输入一个查询之后，返回若干个打好分数的文档。对于这些文档，有些是应该输出的，有些是不应该输出的。那么应该在什么地方截断呢？

这个问题其实是一个聚类问题，在一维空间中把若干个点聚成两类。

聚类就有标准：类内距离尽量小、类间距离尽量大。

由此想到Fisher准则。

那么给定一个浮点数组，寻找这个浮点数组的fisher点，应该如何实现呢？

fisher准则目标函数为fisher=(s1+s2)/(m1-m2)^2。

可以用O（n）复杂度实现。

但是有没有更快速的方法呢？

从左往右扫描，如果fisher准则函数是一个类似二次函数的形状，那么就可以利用“三分法”求极值的策略将复杂度降为O（logN）。其实是不可能的，因为O（n）的方法优势在于快速计算目标函数fisher，如果使用三分法就无法O（1）复杂度计算目标函数fisher，而是O（n）的复杂度计算目标函数。这样其实复杂度反而提高了。所以这个问题到这里就可以停止了。但是“fisher曲线”到底是不是类似二次函数的呢？

为了验证是否满足“类似二次函数”的特性，我随机出一堆数字，求fisher曲线。

实验结果：并不满足“类似二次函数”，但是大概率地满足此条件。

本实验一共测试了10000组长度在3~1000之间的数组。

下面的0，1，2...表示曲线斜率方向变化次数，右面数字表示出现次数。

可以发现，那些不满足“类似二次函数”的图像看上去也都近似“V”形。

实验代码如下：

import numpy as np

import tqdm

def getfisher(a):

    s = np.sum(a)

    ss = np.sum(a * a)

    now_s = 0

    now_ss = 0

    ret = []

    for i in range(len(a) - 1):

        now_s += a[i]

        now_ss += a[i] ** 2

        l_s = now_s / (i + 1)

        l_ss = now_ss / (i + 1)

        r_s = (s - now_s) / (len(a) - 1 - i)

        r_ss = (ss - now_ss) / (len(a) - 1 - i)

        fisher = (l_ss + r_ss) / (l_s - r_s) ** 2

        ret.append(fisher)

    return ret

def checkright(a):

    dir = 0

    cnt = 0

    for i in range(1, len(a)):

        if dir != np.sign(a[i] - a[i - 1]) and dir != 0 and np.abs(a[i]-a[i-1])>1e-2:

            cnt += 1

        dir = np.sign(a[i] - a[i - 1])

    return cnt

def main():

    c = dict()

    for i in tqdm.tqdm(range(10000)):

        x = np.sort(np.random.rand(np.random.randint(3, 1000)))

        f = getfisher(x)

        # plt.plot(x[:-1], f)

        cnt = checkright(f)

        if cnt not in c:

            c[cnt] = 0

        c[cnt] += 1

        # plt.show()

    print(c)

if __name__ == '__main__':

    main()

Fisher准则一维聚类的更多相关文章

线性判别分析（LDA）准则：FIsher准则、感知机准则、最小二乘（最小均方误差）准则
准则采用一种分类形式后,就要采用准则来衡量分类的效果,最好的结果一般出现在准则函数的极值点上,因此将分类器的设计问题转化为求准则函数极值问题,即求准则函数的参数,如线性分类器中的权值向量. 分类器设 ...
Clustering[Spectral Clustering]
0. 背景谱聚类在2007年前后十分流行,因为它可以快速的通过标准的线性代数库来实现,且十分优于传统的聚类算法,如k-mean等. 至于在任何介绍谱聚类的算法原理上,随便翻开一个博客,都会有较为详细 ...
一维数组的 K-Means 聚类算法理解
刚看了这个算法,理解如下,放在这里,备忘,如有错误的地方,请指出,谢谢需要做聚类的数组我们称之为[源数组]需要一个分组个数K变量来标记需要分多少个组,这个数组我们称之为[聚类中心数组]及一个缓存临时 ...
关于fisher判别的一点理解
最近一个朋友问这方面的一些问题,其实之前也就很粗略的看了下fisher,真正帮别人解答问题的时候才知道原来自己也有很多东西不懂.下面小结下自己对fisher判别的理解: 其实fisher和PCA差不多 ...
【线性判别】Fisher线性判别（转）
今天读paper遇到了Fisher线性判别的变体, 所以来学习一下, 所以到时候一定要把PRMl刷一遍呀以下两篇论文一起阅读比较好: 论文1: https://blog.csdn.net/Rainb ...
线性判别函数-Fisher 线性判别
这是我在上模式识别课程时的内容,也有参考这里. 线性判别函数的基本概念判别函数为线性的情况的一般表达式式中x是d 维特征向量,又称样本向量, 称为权向量, 分别表示为是个常数,称为阈值权. 设样 ...
PRML读书会第四章 Linear Models for Classification(贝叶斯marginalization、Fisher线性判别、感知机、概率生成和判别模型、逻辑回归)
主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于线性分类模型,主要内容有四点:1) Fisher准则的分类,以 ...
谱聚类 Spectral Clustering
转自:http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297426.html 如果说 K-means 和 GMM 这些聚类的方法是古代流行的算 ...
Fisher线性判别分析
Fisher线性判别分析 1.概述在使用统计方法处理模式识别问题时,往往是在低维空间展开研究,然而实际中数据往往是高维的,基于统计的方法往往很难求解,因此降维成了解决问题的突破口. 假设数据存在于d ...

随机推荐

python用post访问restful服务接口
具体代码如下: import requests import json data={"]} url="http://XXXXX" data_json = json.dum ...
基于双向LSTM和迁移学习的seq2seq核心实体识别
http://spaces.ac.cn/archives/3942/ 暑假期间做了一下百度和西安交大联合举办的核心实体识别竞赛,最终的结果还不错,遂记录一下.模型的效果不是最好的,但是胜在“端到端”, ...
Arrow functions and the ‘this’ keyword
原文:https://medium.freecodecamp.org/learn-es6-the-dope-way-part-ii-arrow-functions-and-the-this-keywo ...
tail -f 然后grep，处理缓存的问题
学习了:http://www.quwenqing.com/read-134.html 对日志记录做多次grep过滤输出,格式如下: tail -f log | grep xxx | grep yyy ...
jquery旋转图片
今天介绍一款 jQuery 插件——jqueryrotate,它可以实现旋转效果.jqueryrotate 支持所有主流浏览器,包括 IE6.如果你想在低版本的 IE 中实现旋转效果,那么 jquer ...
logistic回归具体解释(二）：损失函数（cost function）具体解释
有监督学习机器学习分为有监督学习,无监督学习,半监督学习.强化学习.对于逻辑回归来说,就是一种典型的有监督学习. 既然是有监督学习,训练集自然能够用例如以下方式表述: {(x1,y1),(x2,y2 ...
在CentOS 7上安装Nginx服务器
下面我就我在CentOS上安装Nginx经验做简单的记录,以备后查. 1.下载nginx-release包以CentOS 7为例,下载nginx软件包:http://nginx.org/packag ...
oracle 复制表结构表数据
create table Uc_t_Department3 as (select * from Uc_t_Department where 1=2);insert into Uc_t_Departme ...
Python编程-数据库-利用PyMysql访问windows下的MySql数据库
1. 下载PyMysql并且安装下载地址下载zip包后解压到目录,进入该目录,执行以下命令安装 python setup.py install 2. 编写一个简单的数据库访问程序 simple_m ...
ExtJs4.2中Tab选项卡的右击关闭其它和关闭当前功能不准确的解决方法
一.ExtJs4.2中Tab选项卡的右击关闭其它和关闭当前功能不准确的解决方法二.找到ux目录下的TabCloseMenu.js文件,将内容替换成下面代码. 三.代码: /** * Plugin f ...

Fisher准则一维聚类

Fisher准则一维聚类的更多相关文章

随机推荐

热门专题