使用sklearn的决策树实现iris鸢尾花数据集的分类

要求:

建立分类模型,至少包含4个剪枝参数:max_depth、min_samples_leaf 、min_samples_split、max_features和criterion参数。

运用GridSearchCV,寻找出最优参数。

绘制出在不同的max_depth下的学习曲线。

步骤:

一、导入各种我们需要的模块或者数据集等

graphviz安装(安装完配置好路径还是不行的话重启一下电脑)

from sklearn import tree #导入树

from sklearn.tree import DecisionTreeClassifier #导入决策树分类器

from sklearn.datasets import load_iris #导入鸢尾花数据集

from sklearn.model_selection import train_test_split #分训练集测试集的类

from matplotlib import pyplot as plt #画图用的

from sklearn.model_selection import GridSearchCV #网格搜索

import pandas as pd

import graphviz #画决策树的,需要事先安装

二、将数据实例化,划分数据集和测试集

iris = load_iris() #将数据集实例化,别忘了括号

Xtrain,Xtest,Ytrain,Ytest = train_test_split(iris.data,iris.target,test_size=0.3) #将鸢尾花数据的特征矩阵和标签矩阵,按7:3的比例划分训练集和测试集,0.3是可以变的,也可以填0.4,注意X,Y的顺序

三、建立模型(三部曲:实例化、训练、评估)

clf = DecisionTreeClassifier() #实例化模型,括号不填criterion默认是‘gini’,也可以填criterion = 'entropy'

clf = clf.fit(Xtrain, Ytrain) #训练数据集

score = clf.score(Xtest, Ytest) #评估数据集

score #将评估结果打印出来,因为测试集和训练集划分的不同,可能每个人的结果也不同

1.PNG

四、画出决策树

feature_name = ['花萼长度','花萼宽度','花瓣长度','花瓣宽度'] #定义特征的名字,方便后面的阅读

dot_data = tree.export_graphviz(clf

,feature_names = feature_name

,class_names=["清风藤","云芝","锦葵"] #标签名字

,filled=True #框框填充颜色(可以不写)

,rounded=True #框框角是圆圆的(可以不写)

)

graph = graphviz.Source(dot_data) #导出树

graph

这就得到一棵原始的树

五、使用四个剪枝参数

clf = tree.DecisionTreeClassifier(max_depth=2 #最大深度是2,这个也可以填3或4试试看

,min_samples_leaf=5 #下一个叶子节点大于5会进行,小于5就不会再分

,min_samples_split=10 #最小分支节点,当前样本大于10才会分

,max_features=3 #最大特征数,有一个重要程度为0

)

clf = clf.fit(Xtrain, Ytrain)

score = clf.score(Xtest, Ytest)

score

可以把剪枝后的树画出来看看(代码和上面画树的一样)

2.png

dot_data = tree.export_graphviz(clf

,feature_names = feature_name

,class_names=["清风藤","云芝","锦葵"]

,filled=True

,rounded=True

)

graph = graphviz.Source(dot_data)

graph

六、绘制出在不同的max_depth下的学习曲线

test=[] #定义一个列表放分数

for i in range(10): #10次循环map_depth

clf = tree.DecisionTreeClassifier(max_depth=i+1)

clf = clf.fit(Xtrain, Ytrain)

score = clf.score(Xtest,Ytest)

test.append(score)

plt.plot(range(1,11),test,color="red") #横坐标是1-10,纵坐标是分数,颜色是红色

plt.xticks(range(1,11))#横坐标是1-10

plt.xlabel("max_depth") #横坐标标签

plt.ylabel("score") #纵坐标标签

plt.show() #展示画好的图(由图可知当map_depth为2时分数最高)

3.PNG

七、运用GridSearchCV,寻找出最优参数

parameters = {'criterion'

实验一 使用sklearn的决策树实现iris鸢尾花数据集的分类的更多相关文章

  1. sklearn CART决策树分类

    sklearn CART决策树分类 决策树是一种常用的机器学习方法,可以用于分类和回归.同时,决策树的训练结果非常容易理解,而且对于数据预处理的要求也不是很高. 理论部分 比较经典的决策树是ID3.C ...

  2. 【sklearn决策树算法】DecisionTreeClassifier(API)的使用以及决策树代码实例 - 鸢尾花分类

    决策树算法 决策树算法主要有ID3, C4.5, CART这三种. ID3算法从树的根节点开始,总是选择信息增益最大的特征,对此特征施加判断条件建立子节点,递归进行,直到信息增益很小或者没有特征时结束 ...

  3. 【机器学习】Iris Data Set(鸢尾花数据集)

    [机器学习]Iris Data Set(鸢尾花数据集) 注:数据是机器学习模型的原材料,当下机器学习的热潮离不开大数据的支撑.在机器学习领域,有大量的公开数据集可以使用,从几百个样本到几十万个样本的数 ...

  4. sklearn提供的自带的数据集

    sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded ...

  5. 探索sklearn | 鸢尾花数据集

    1 鸢尾花数据集背景 鸢尾花数据集是原则20世纪30年代的经典数据集.它是用统计进行分类的鼻祖. sklearn包不仅囊括很多机器学习的算法,也自带了许多经典的数据集,鸢尾花数据集就是其中之一. 导入 ...

  6. Python——sklearn提供的自带的数据集

    sklearn提供的自带的数据集 sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下 ...

  7. [机器学习 ]PCA降维--两种实现 : SVD或EVD. 强力总结. 在鸢尾花数据集(iris)实做

    PCA降维--两种实现 : SVD或EVD. 强力总结. 在鸢尾花数据集(iris)实做 今天自己实现PCA,从网上看文章的时候,发现有的文章没有搞清楚把SVD(奇异值分解)实现和EVD(特征值分解) ...

  8. 201871010110-李华 实验三 结对项目—《D{0-1}KP 实例数据集算法实验平台》项目报告

    项目 内容 课程班级博客链接 班级博客 这个作业要求链接 作业要求 我的课程学习目标 (1)理解并掌握代码风格及设计规范:(2)通过任务3进行协作开发,尝试进行代码复审,在进行同伴复审的过程中体会结对 ...

  9. 201871030125-王芬 实验三 结对项目—《D{0-1}KP 实例数据集算法实验平台》项目报告

    实验三 软件工程结对项目 项目 内容 课程班级博客链接 https://edu.cnblogs.com/campus/xbsf/2018CST 这个作业要求链接 https://www.cnblogs ...

随机推荐

  1. 写Seo网站标题应该注意什么

    http://www.wocaoseo.com/thread-11-1-1.html 最近看了群里一些朋友讨论关于网站优化标题应该注意哪些?各种说法五花八门,好的seo优化标题是可以给网站带来不错的流 ...

  2. RabbitMQ系列随笔——介绍及安装

    一.RabbitMQ介绍 RabbitMQ是由erlang开发的AMQP(Advanced Message Queuing Protocol)的开源实现.他是高级消息队列协议,是应用层协议的一个开放标 ...

  3. py_二分查找

    ''' 查找:在一些数据元素中,通过一定的方法找出与关键字相同元素的过程, 列表查找:从列表中查找指定元素 输入:列表.待查找元素 输出:元素下标(未找到元素时一般返回None或-1) 内置列表查找函 ...

  4. ABP开发框架的技术点分析(1)

    ABP是ASP.NET Boilerplate的简称,ABP是一个开源且文档友好的应用程序框架.ABP不仅仅是一个框架,它还提供了一个最徍实践的基于领域驱动设计(DDD)的体系结构模型.ABP框架可以 ...

  5. MySQL索引凭什么能让查询效率提高这么多?

    点赞再看,养成习惯,微信搜一搜[三太子敖丙]关注这个喜欢写情怀的程序员. 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试完整考点.资料以及我的系 ...

  6. 轻轻松松学CSS:媒体查询

    轻轻松松学CSS:利用媒体查询创建响应式布局 媒体查询,针对不同的媒体类型定制不同的样式规则.在网站开发中,可以创建响应式布局. 一.初步认识媒体查询在响应式布局中的应用 下面实例在屏幕可视窗口尺寸大 ...

  7. vue 多环境打包

    https://cli.vuejs.org/zh/guide/mode-and-env.html#%E6%A8%A1%E5%BC%8F 模式 模式是 Vue CLI 项目中一个重要的概念.默认情况下, ...

  8. 2048游戏 - C语言不引入图形库简单实现

    声明:本程序绝大部分属于原创,交互部分参考了博客园 Judge Young的原创文章 游戏2048源代码 - C语言控制台界面版, 作者Judge Young的算法思想非常值得参考,感谢作者的分享 附 ...

  9. basicInterpreter1.02 增加对for循环的支持

    源码下载:https://files.cnblogs.com/files/heyang78/basicInterpreter102-20200531-2.rar 输入: for x= to print ...

  10. RabbitMQ安装和运行

    RabbitMQ在Windows下安装和运行 1.下载Erlang: http://www.erlang.org/downloads/19.2 2.下载Windows版RabbitMq: http:/ ...