机器学习：集成学习（Soft Voting Classifier）

一、Hard Voting 与 Soft Voting 的对比

　1）使用方式

voting = 'hard'：表示最终决策方式为 Hard Voting Classifier；
voting = 'soft'：表示最终决策方式为 Soft Voting Classifier；

　2）思想

Hard Voting Classifier：根据少数服从多数来定最终结果；
Soft Voting Classifier：将所有模型预测样本为某一类别的概率的平均值作为标准，概率最高的对应的类型为最终的预测结果；

Hard Voting
模型 1：A - 99%、B - 1%，表示模型 1 认为该样本是 A 类型的概率为 99%，为 B 类型的概率为 1%；

Soft Voting
将所有模型预测样本为某一类别的概率的平均值作为标准；

Hard Voting 投票方式的弊端：

如上图，最终的分类结果不是由概率值更大的模型 1 和模型 4 决定，而是由概率值相对较低的模型 2/3/5 来决定的；

二、各分类算法的概率计算

Soft Voting 的决策方式，要求集合的每一个模型都能估计概率；

　1）逻辑回归算法

P = σ( y_predict )

　2）kNN 算法

k 个样本点中，数量最多的样本所对应的类别作为最终的预测结果；
kNN 算法也可以考虑权值，根据选中的 k 个点距离待预测点的距离不同，k 个点的权值也不同；

P = n / k
n：k 个样本中，最终确定的类型的个数；如下图，最终判断为红色类型，概率：p = n/k = 2 / 3；

　3）决策树算法

通常在“叶子”节点处的信息熵或者基尼系数不为 0，数据集中包含多种类别的数据，以数量最多的样本对应的类别作为最终的预测结果；（和 kNN 算法类似）

P = n / N

n：“叶子”中数量最多的样本的类型对应的样本数量；
N：“叶子”中样本总量；

　4）SVM 算法

在 scikit-learn 中的 SVC() 中的一个参数：probability

probability = True：SVC() 返回样本为各个类别的概率；（默认为 False）
```
from sklearn.svm import SVC

svc = SVC(probability=True)
```
计算样本为各个类别的概率需要花费较多时间；

三、scikit-learn 中使用集成分类器：VotingClassifier

　1）模拟数据集

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

from sklearn.model_selection import train_test_split

X, y = datasets.make_moons(n_samples=500, noise=0.3, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

　2）voting = 'hard'：使用 Hard Voting 做决策

from sklearn.linear_model import LogisticRegression

from sklearn.svm import SVC

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import VotingClassifier

# 实例化

voting_clf = VotingClassifier(estimators=[

    ('log_clf', LogisticRegression()),

    ('svm_clf', SVC()),

    ('dt_clf', DecisionTreeClassifier(random_state=666))

], voting='hard')

voting_clf.fit(X_train, y_train)

voting_clf.score(X_test, y_test)

# 准确率：0.896

　3）voting = 'soft'：使用 Soft Voting 做决策

voting_clf = VotingClassifier(estimators=[

    ('log_clf', LogisticRegression()),

    ('svm_clf', SVC(probability=True)),

    ('dt_clf', DecisionTreeClassifier(random_state=666))

], voting='soft')

voting_clf.fit(X_train, y_train)

voting_clf.score(X_test, y_test)

# 准确率：0.912

使用 Soft Voting 时，SVC() 算法的参数：probability=True

机器学习：集成学习（Soft Voting Classifier）的更多相关文章

【笔记】集成学习入门之soft voting classifier和hard voting classifier
集成学习入门之soft voting classifier和hard voting classifier 集成学习通过构建并结合多个学习器来完成学习任务,一般是先产生一组"个体学习器&qu ...
[机器学习]集成学习--bagging、boosting、stacking
集成学习简介集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务. 如何产生"好而不同"的个体学习器,是集成学习研究的核心. 集成学习的思路是通过 ...
集成学习-Majority Voting
认识集成学习(Ensemble Methods), 首先是一种思想, 而非某种模型, 是一种 "群体决策" 的思想, 即对某一特定问题, 用多个模型来进行训练. 像常见的单个模型 ...
机器学习--集成学习（Ensemble Learning）
一.集成学习法在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好) ...
机器学习:集成学习:随机森林.GBDT
集成学习(Ensemble Learning) 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测 ...
机器学习——集成学习(Bagging、Boosting、Stacking)
1 前言集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < ...
python大战机器学习——集成学习
集成学习是通过构建并结合多个学习器来完成学习任务.其工作流程为: 1)先产生一组“个体学习器”.在分类问题中,个体学习器也称为基类分类器 2)再使用某种策略将它们结合起来. 通常使用一种或者多种已有的 ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestRegressor回归模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestClassifier分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...

随机推荐

Linux自定义别名alias重启失效问题
Linux上的别名功能非常方便,例如ll可以显示文件列表的长信息,但是却不是以human能读懂的方式显示,所以我尝试直接在命令行中自定义一个别名: alisa lk='ls -lh' 然后lk就能正常 ...
开机启动顺序rc.local与chkconfig的不同
/etc/rc.local文件有如下两行/etc/init.d/mysql start/etc/init.d/keepalived start /etc/rc.local是按脚本的顺序一个启动后启动下 ...
XXL-Job分布式任务调度
分布式情况下定时任务会出现哪些问题? 分布式集群的情况下,怎么保证定时任务不被重复执行分布式定时任务解决方案 ①使用zookeeper实现分布式锁缺点(需要创建临时节点.和事件通知不易于扩展) ② ...
tyvj 1402 乌龟棋 dp
P1402 [NOIP2010]乌龟棋时间: 1000ms / 空间: 131072KiB / Java类名: Main 背景 NOIP2010提高组复赛第二题描述小明过生日的时候,爸爸送给他一 ...
Java中初始变量默认值
Java语言中有8种基本数据类型,基本情况汇总如下: 序号数据类型大小/位封装类默认值可表示数据范围 1 byte(位) 8 Byte 0 -128~127 2 short(短整数) 16 ...
Java编程思想两个主函数
//: initialization/DynamicArray.javapackage initialization; /* Added by Eclipse.py */// Array initia ...
MySql 创建/删除数据库
C:\Users\Mr.Black>mysql -u root -pEnter password: ****Welcome to the MySQL monitor. Commands end ...
numpy加权平均
import numpy as np a = np.arange(15).reshape(3,5) a array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], ...
dede数据库表结构和dedecms数据库字段说明
表名:dede_addonarticle (ENGINE=MyISAM/CHARSET=gbk) 说明:Top 字段名说明描述具体参数 aid 文章ID mediumint(8) unsigned ...
Red hat linux 下配置Java环境（jdk)
1.把jdk-6u25-linux-i586-rpm.bin 复制到redhat linux中,放到/usr/java 目录下,该目录是mkdir 的,并chmod 755 jdk-6u25-li ...

机器学习：集成学习（Soft Voting Classifier）

一、Hard Voting 与 Soft Voting 的对比

1）使用方式

2）思想

Hard Voting

Soft Voting

二、各分类算法的概率计算

1）逻辑回归算法

2）kNN 算法

3）决策树算法

4）SVM 算法

三、scikit-learn 中使用集成分类器：VotingClassifier

1）模拟数据集

2）voting = 'hard'：使用 Hard Voting 做决策

3）voting = 'soft'：使用 Soft Voting 做决策

机器学习：集成学习（Soft Voting Classifier）的更多相关文章

随机推荐

热门专题

　1）使用方式

　2）思想

　1）逻辑回归算法

　2）kNN 算法

　3）决策树算法

　4）SVM 算法

　1）模拟数据集

　2）voting = 'hard'：使用 Hard Voting 做决策

　3）voting = 'soft'：使用 Soft Voting 做决策