（数据科学学习手札18）二次判别分析的原理简介&Python与R实现

上一篇我们介绍了Fisher线性判别分析的原理及实现，而在判别分析中还有一个很重要的分支叫做二次判别，本文就对二次判别进行介绍：

二次判别属于距离判别法中的内容，以两总体距离判别法为例，对总体G_1,，G₂，当他们各自的协方差矩阵Σ₁，Σ₂不相等时，判别函数因为表达式不可化简而不再是线性的而是二次的，这时使用的构造二次判别函数进行判别类别的方法叫做二次判别法，下面分别在R和Python中实现二次判别：

在R中，常用的二次判别函数qda(formula,data)集成在MASS包中，其中formula形式为G~x1+x2+x3,G表示类别变量所在列的名称，~右端连接的累加式表示用来作为特征变量的元素对应的列名称，data为包含前面所述各变量的数据框，下面对鸢尾花数据进行二次判别，这里因为样本量较小，故采用bootstrap自助法进行抽样以扩充训练集与验证集，具体过程如下：

rm(list=ls())

library(MASS)

#挂载鸢尾花数据

data(iris)

data <- iris

#bootstrap法产生训练集

sam <- sample(1:length(data[,1]),10000,replace = T)

train_data <- data[sam,]

#bootstrap法产生测试集

sam <- sample(1:length(data[,1]),2000,replace = T)

test_data <- data[sam,]

#训练二次判别模型

qd <- qda(Species~.,data=train_data)

#保存预测结果

pr <- predict(qd,test_data[,1:4])

#打印混淆矩阵

(tab <- table(test_data[,5],pr$class))

#打印分类正确率

cat('正确率：',sum(diag(tab))/length(test_data[,1]))

分类结果如下：

Python

这里和前一篇线性判别相似，我们使用sklearn包中的discriminant_analysis.QuadraticDiscriminantAnalysis来进行二次判别，依旧是对鸢尾花数据进行分类，这里和前一篇一样采用留出法分割训练集与验证集，具体代码如下：

'''Fisher线性判别分析'''

import numpy as np

from sklearn import datasets

from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

from sklearn.model_selection import train_test_split

iris = datasets.load_iris()

X = iris.data

y = iris.target

'''二次判别器'''

'''利用sklearn自带的样本集划分方法进行分类，这里选择训练集测试集73开'''

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)

'''搭建LDA模型'''

qda = QuadraticDiscriminantAnalysis()

'''利用分割好的训练集进行模型训练并对测试集进行预测'''

qd = qda.fit(X_train,y_train).predict(X_test)

'''比较预测结果与真实分类结果'''

print(np.array([qd,y_test]))

'''打印正确率'''

print('正确率：',str(round(qda.score(X_test,y_test),2)))

以上就是关于二次判别的简要内容，如有笔误之处望指出。

（数据科学学习手札18）二次判别分析的原理简介&Python与R实现的更多相关文章

（数据科学学习手札17）线性判别分析的原理简介&Python与R实现
之前数篇博客我们比较了几种具有代表性的聚类算法,但现实工作中,最多的问题是分类与定性预测,即通过基于已标注类型的数据的各显著特征值,通过大量样本训练出的模型,来对新出现的样本进行分类,这也是机器学习中 ...
（数据科学学习手札13）K-medoids聚类算法原理简介&Python与R的实现
前几篇我们较为详细地介绍了K-means聚类法的实现方法和具体实战,这种方法虽然快速高效,是大规模数据聚类分析中首选的方法,但是它也有一些短板,比如在数据集中有脏数据时,由于其对每一个类的准则函数为平 ...
（数据科学学习手札16）K-modes聚类法的简介&Python与R的实现
我们之前经常提起的K-means算法虽然比较经典,但其有不少的局限,为了改变K-means对异常值的敏感情况,我们介绍了K-medoids算法,而为了解决K-means只能处理数值型数据的情况,本篇便 ...
（数据科学学习手札29）KNN分类的原理详解&Python与R实现
一.简介 KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述 ...
（数据科学学习手札26）随机森林分类器原理详解&Python与R实现
一.简介作为集成学习中非常著名的方法,随机森林被誉为“代表集成学习技术水平的方法”,由于其简单.容易实现.计算开销小,使得它在现实任务中得到广泛使用,因为其来源于决策树和bagging,决策树我在前 ...
（数据科学学习手札24）逻辑回归分类器原理详解&Python与R实现
一.简介逻辑回归(Logistic Regression),与它的名字恰恰相反,它是一个分类器而非回归方法,在一些文献里它也被称为logit回归.最大熵分类器(MaxEnt).对数线性分类器等:我们 ...
（数据科学学习手札144）使用管道操作符高效书写Python代码
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介大家好我是费老师,一些比较熟悉pandas的读者 ...
（数据科学学习手札94）QGIS+Conda+jupyter玩转Python GIS
本文完整代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 QGIS随着近些年的发展,得益于其开源免费 ...
（数据科学学习手札40）tensorflow实现LSTM时间序列预测
一.简介上一篇中我们较为详细地铺垫了关于RNN及其变种LSTM的一些基本知识,也提到了LSTM在时间序列预测上优越的性能,本篇就将对如何利用tensorflow,在实际时间序列预测任务中搭建模型来完 ...

随机推荐

FUNCTION_POWER
1.power function Definition:The Oracle PL/SQL, the POWER function is a built in function which takes ...
DOS下启动MySQL时输入net start mysql 提示服务名无效的问题
原因:mysql服务名错误. 正确做法:net start +mysql服务名
C语言 Printf函数
#include <stdio.h> int main(int argc, const char * argv[]) { // insert code here... printf(&qu ...
vue.js--基础事件结合双向数据绑定实现todolist，增加和删除功能
原理很简单,写一个input框,定义一个空的list,当在input中增加数据时,就往list中添加数据,然后在循环这个list的数据,删除数据就是调用list中的splice <templat ...
LG3690 【【模板】Link Cut Tree （动态树）】
题目终于去写\(LCT\)了这个大爷讲的挺好的板子 #include<algorithm> #include<iostream> #include<cstring& ...
PHP语言开发微信公众平台（订阅号）之注册（1）
1.百度搜索"微信公众平台" 2.选择微信公众平台官网并单击打开 3.进入官网页面,单击 "立即注册" 进入注册页面 4.进入注册页面,单击订阅号 5.进入订阅 ...
HDU 1711 Number Sequence 【KMP应用求成功匹配子串的最小下标】
传送门:http://acm.hdu.edu.cn/showproblem.php?pid=1711 Number Sequence Time Limit: 10000/5000 MS (Java/O ...
Mysql索引学习笔记
1.btree索引与hash索引下列范围查询适用于 btree索引和hash索引: SELECT * FROM t1 WHERE key_col = 1 OR key_col IN (15,18,2 ...
Django-rest-framework（一）简单入门使用
简单的使用 Django-rest-framework 建成DRF,可以帮助我们快速构建出 django的rest full 风格的api接口. 其源码容易理解,所以我们可以很方便的使用. 安装 pi ...
iOS：常用属性、方法
前言:一段时间没接触,很容易就忘记以前的知识.专写一篇,供几个月没接触,拿起却忘记了. 0.宏定义.系统相关 0-1).宏定义.规范变量: //全局变量通常用小写g来提示 int gNumb=0; ...

（数据科学学习手札18）二次判别分析的原理简介&Python与R实现

（数据科学学习手札18）二次判别分析的原理简介&Python与R实现的更多相关文章

随机推荐

热门专题