采用boosting思想开发一个解决二分类样本不平衡的多估计器模型

# -*- coding: utf-8 -*-

"""

Created on Wed Oct 31 20:59:39 2018

脚本描述：采用boosting思想开发一个解决二分类样本不平衡的多估计器模型

@author: WZD

"""

from sklearn.datasets import load_breast_cancer

from sklearn.model_selection import train_test_split

import numpy as np

from xgboost import XGBClassifier

from sklearn.metrics import confusion_matrix

import pandas as pd

from seaborn import load_dataset

from sklearn.externals import joblib

###################准备训练数据和测试数据#######################################

df = load_dataset(name="titanic")

df = df[["survived","pclass","age","sibsp","parch"]]

feature_name = ["pclass","age","sibsp","parch"]

label_name   = ["survived"]

train,test = train_test_split(df,test_size=0.2)

##################训练过程####################################################

#L1,采用全部训练数据

model_1 = XGBClassifier(max_depth=5,n_estimators=10)

model_1.fit(train[feature_name],train[label_name])

#采用model_1预测训练数据

y_model_1_pred = model_1.predict(train[feature_name])

#保存L1模型

model_1_path = joblib.dump(model_1,filename="./model_1.pkl")

#将L1模型的预测结果接在训练数据后面

train["y_model_1_pred"] = y_model_1_pred

#从train中分离出预测正确和错误的数据集

train_1_right = train[train["survived"]==train["y_model_1_pred"]]

train_1_error = train[train["survived"]!=train["y_model_1_pred"]]

#比价分错样本和正确样本的数量大小，小的那一个采样全部样本，大的那一个采样和小的同数量的样本

num_min = min(len(train_1_error),len(train_1_right))

train_2 = pd.concat([train_1_error.sample(n=num_min),train_1_right.sample(n=num_min)])

#L2,采用train_2数据集

model_2 = XGBClassifier(max_depth=1,n_estimators=1)

model_2.fit(train_2[feature_name],train_2[label_name])

#采用model_2预测train_2数据集

y_model_2_pred = model_2.predict(train_2[feature_name])

#保存L2模型

model_2_path = joblib.dump(model_2,filename="./model_2.pkl")

#将L2模型的预测结果接在train_2数据集后面

train_2["y_model_2_pred"] = y_model_2_pred

#提取train_2中分类错误的样本

#train_3 = train_2[train_2["survived"]!=train_2["y_model_2_pred"]]
train_3 = train_2[train_2["y_model_1_pred"]!=train_2["y_model_2_pred"]]#这里不是太清楚使用上面的那一条，还是这一条

#L3,采用train_3数据集

model_3 = XGBClassifier(max_depth=1,n_estimators=1)

model_3.fit(train_3[feature_name],train_3[label_name])

#采用model_3预测train_3数据集

y_model_3_pred = model_3.predict(train_3[feature_name])

#保存L3模型

model_3_path = joblib.dump(model_3,filename="./model_3.pkl")

##############在测试集上测试模型的效果#########################################

y_result = pd.DataFrame()

y_result["model_1"] = model_1.predict(test[feature_name])

y_result["model_2"] = model_2.predict(test[feature_name])

y_result["model_3"] = model_3.predict(test[feature_name])

def vote(x,y,z):

    label_0 = 0

    label_1 = 0

    if x==0:

        label_0 += 1

    else:

        label_1 += 1

    if y==0:

        label_0 += 1

    else:

        label_1 += 1

    if z==0:

        label_0 += 1

    else:

        label_1 += 1

    if label_0>=label_1:

        return 0

    else:

        return 1

y_result["result"] = y_result.apply(lambda df:vote(df["model_1"],df["model_2"],df["model_3"]),axis=1)

confusion_matrix(test[label_name],y_result["result"])

采用boosting思想开发一个解决二分类样本不平衡的多估计器模型的更多相关文章

如何利用开源思想开发一个SEO友好型网
如果你有一个网站需要去做SEO优化的时候,不要期望你的努力能立即得到回报.耐心等待并更正内容营销策略,最终会发现你的网站很受用户欢迎.下面就教你如何利用开源思维开发一个SEO友好型网站! 首先,你应该 ...
【笔记】二分类算法解决多分类问题之OvO与OvR
OvO与OvR 前文书道,逻辑回归只能解决二分类问题,不过,可以对其进行改进,使其同样可以用于多分类问题,其改造方式可以对多种算法(几乎全部二分类算法)进行改造,其有两种,简写为OvO与OvR OvR ...
[AI开发]一个例子说明机器学习和深度学习的关系
深度学习现在这么火热,大部分人都会有‘那么它与机器学习有什么关系?’这样的疑问,网上比较它们的文章也比较多,如果有机器学习相关经验,或者做过类似数据分析.挖掘之类的人看完那些文章可能很容易理解,无非就 ...
监督学习——logistic进行二分类（python）
线性回归及sgd/bgd的介绍: 监督学习--随机梯度下降算法(sgd)和批梯度下降算法(bgd) 训练数据形式: (第一列代表x1,第二列代表 x2,第三列代表数据标签用 0/ ...
【机器学习具体解释】SVM解二分类,多分类,及后验概率输出
转载请注明出处:http://blog.csdn.net/luoshixian099/article/details/51073885 CSDN−勿在浮沙筑高台支持向量机(Support Vecto ...
二分类模型之logistic
liner classifiers 逻辑回归用在2分类问题上居多.它是一个非线性的回归模型,其最大的好处恰恰是可以解决二元类问题,目前在金融行业,基本都是使用Logistic回归来预判一个用户是否为好 ...
常量，字段，构造方法调试 ms 源代码一个C#二维码图片识别的Demo 近期ASP.NET问题汇总及对应的解决办法 c# chart控件柱状图，改变柱子宽度使用C#创建Windows服务 C#服务端判断客户端socket是否已断开的方法线程线程池 Task .NET 单元测试的利剑——模拟框架Moq
常量,字段,构造方法常量 1.什么是常量常量是值从不变化的符号,在编译之前值就必须确定.编译后,常量值会保存到程序集元数据中.所以,常量必须是编译器识别的基元类型的常量,如:Boolean ...
iOS开发一个用户登录注册模块需要解决的坑
最近和另外一位同事负责公司登录和用户中心模块的开发工作,开发周期计划两周,减去和产品和接口的协调时间,再减去由于原型图和接口的问题,导致强迫症纠结症状高发,情绪不稳定耗费的时间,能在两周基本完成也算是 ...
iOS 11开发教程（二）编写第一个iOS 11应用
iOS 11开发教程(二)编写第一个iOS 11应用编写第一个iOS 11应用本节将以一个iOS 11应用程序为例,为开发者讲解如何使用Xcode 9.0去创建项目,以及iOS模拟器的一些功能.编 ...

随机推荐

Eclipse工具的设置
1 Eclipse的工作空间和新建工程1.1: 工作空间* 其实就是我们写的源代码所在的目录 1.2: 创建工程(项目)* 右键/Package Explore 空白区/new /Java Proje ...
02c语言指针基础
& 用来取一个变量的地址 * 用来取一个地址的值例如: (1)&n 获取n的地址 int *p=&n; *p就等于p的值 (2) 假设 int n=10; *(&n) ...
BackgroundWorker Class Sample for Beginners
Download source - 27.27 KB Introduction This article presents a novice .NET developer to develop a m ...
Jmeter的NON-GUI模式
一般来讲,Jmeter执行压测,都是用Jmeter的命令模式,脚本调试好, 测试脚本能够大大缩减所需要的系统资源. 1.1命令介绍: jmeter -n -t <testplan filenam ...
本地开发不用改hosts 也可以绑定域名开发
以往我们在开发 web 应用时,为了模拟生产环境都会修改系统中的hosts 文件,加入一个域名指向 127.0.0.1,绑定到开发目录,如下: 但是在 Chrome 中有一个域名是可以不用修改 hos ...
ElasticSearch(二) 关于DSL
关于Lucene里面的查询评分,其实是基于一个公式:TF/ IDF(Term-Frequency/ Inverse Document Frequency),词频率/ 倒排文档频率,这个公式讲了一个故事 ...
VB Byte数组转字符串问题
在c#中,byte转换为字符串的过程中,如果byte的值为0,则转换成字符串时变为’\0’字符,’\0’字符在C#中意味着字符串结束,如果后面再有字符,则读取字符串的程序也不能读取和显示出来. 但是在 ...
c#：$用法
为什么会出现$符号,c#6.0才出现的新特性 var s = string.Fromat("{0}+{1}={2}",12,23,12+23) 用起来必须输入string.From ...
RedHat6.5安装kafka单机
版本号: Redhat6.5 JDK1.8 zookeeper-3.4.6 kafka_2.11-0.8.2.1 1.软件环境已经搭建好的zookeeper: RedHat6.5 ...
centos6 只安装mysql client（安装包安装和yum安装mysql）
方法一下载安装: 1.在/home创建mysql目录,下载如下四个软件包 http://mirrors.sohu.com/mysql/MySQL-5.7/ wget http://mirrors.so ...

采用boosting思想开发一个解决二分类样本不平衡的多估计器模型

采用boosting思想开发一个解决二分类样本不平衡的多估计器模型的更多相关文章

随机推荐

热门专题