Python之随机森林实战

代码实现：

 # -*- coding: utf-8 -*-

 """

 Created on Tue Sep  4 09:38:57 2018

 @author: zhen

 """

 from sklearn.ensemble import RandomForestClassifier

 from sklearn.model_selection import train_test_split

 from sklearn.metrics import accuracy_score

 from sklearn.datasets import load_iris

 import matplotlib.pyplot as plt

 iris = load_iris()

 x = iris.data[:, :2]

 y = iris.target

 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=42)

 # n_estimators:森林中树的个数（默认为10），建议为奇数

 # n_jobs:并行执行任务的个数（包括模型训练和预测），默认值为-1，表示根据核数

21 rnd_clf = RandomForestClassifier(n_estimators=15, max_leaf_nodes=16, n_jobs=1)

22 rnd_clf.fit(x_train, y_train)

23

24 y_predict_rf = rnd_clf.predict(x_test)

 print(accuracy_score(y_test, y_predict_rf))

 for name, score in zip(iris['feature_names'], rnd_clf.feature_importances_):

     print(name, score)

 # 可视化

 plt.plot(x_test[:, 0], y_test, 'r.', label='real')

 plt.plot(x_test[:, 0], y_predict_rf, 'b.', label='predict')

 plt.xlabel('sepal-length', fontsize=15)

 plt.ylabel('type', fontsize=15)

 plt.legend(loc="upper left")

 plt.show()

 plt.plot(x_test[:, 1], y_test, 'r.', label='real')

 plt.plot(x_test[:, 1], y_predict_rf, 'b.', label='predict')

 plt.xlabel('sepal-width', fontsize=15)

 plt.ylabel('type', fontsize=15)

 plt.legend(loc="upper right")

 plt.show()

结果：

可视化（查看每个预测条件的影响）：

　　分析：鸢尾花的花萼长度在小于6时预测准确率很高，随着长度的增加，在6~7这段中，预测出现较大错误率，当大于7时，预测会恢复到较好的情况。宽度也出现类似的情况，在3~3.5这个范围出现较高错误，因此在训练中建议在训练数据中适量增加中间部分数据的训练量（该部分不容易区分），以便得到较好的训练模型！

Python之随机森林实战的更多相关文章

用Python实现随机森林算法，深度学习
用Python实现随机森林算法,深度学习拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱.bagging(bootstrap aggregating 的缩 ...
Python中随机森林的实现与解释
使用像Scikit-Learn这样的库,现在很容易在Python中实现数百种机器学习算法.这很容易,我们通常不需要任何关于模型如何工作的潜在知识来使用它.虽然不需要了解所有细节,但了解机器学习模型是如 ...
python实现随机森林、逻辑回归和朴素贝叶斯的新闻文本分类
实现本文的文本数据可以在THUCTC下载也可以自己手动爬虫生成, 本文主要参考:https://blog.csdn.net/hao5335156/article/details/82716923 nb ...
Spark随机森林实战
package big.data.analyse.ml.randomforest import org.apache.spark.ml.Pipeline import org.apache.spark ...
python的随机森林模型调参
一.一般的模型调参原则 1.调参前提:模型调参其实是没有定论,需要根据不同的数据集和不同的模型去调.但是有一些调参的思想是有规律可循的,首先我们可以知道,模型不准确只有两种情况:一是过拟合,而是欠拟合 ...
python spark 随机森林入门demo
class pyspark.mllib.tree.RandomForest[source] Learning algorithm for a random forest model for class ...
随机森林random forest及python实现
引言想通过随机森林来获取数据的主要特征 1.理论根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器之间存在强依赖关系,必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系 ...
[Machine Learning & Algorithm] 随机森林（Random Forest）
1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来 ...
随机森林（Random Forest）
阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Pyth ...

随机推荐

Spring Boot 集成 Mybatis 实现双数据源
这里用到了Spring Boot + Mybatis + DynamicDataSource配置动态双数据源,可以动态切换数据源实现数据库的读写分离. 添加依赖加入Mybatis启动器,这里添加了D ...
排序算法系列：选择排序算法JAVA版（靠谱、清晰、真实、可用、不罗嗦版）
在网上搜索算法的博客,发现一个比较悲剧的现象非常普遍: 原理讲不清,混乱啰嗦图和文对不上不可用,甚至代码还出错我总结一个清晰不罗嗦版: 原理: 从数组头元素索引i开始,寻找后面最小的值(比i位 ...
GDB查看内存(x 命令)
gdb查看内存命令首先使用gdb [YourFileName].c进入gdb界面使用examine命令,字母缩写为x查看内存地址的值.x命令语法 x/[number][format] <ad ...
Java程序员如何运用所掌握的技术构建一个完整的业务架构
1.通用架构概述创业之初,我们往往会为了快速迭代出产品,而选择最简单的技术架构,比如LAMP架构,SSH三层架构.这些架构可以适应初期业务的快速发展,但是,随着业务变得越来越复杂,我们会发现这些架构 ...
HW2018校招研发笔试编程题
1. 数字处理题目描述:给出一个不多于5位的整数,进行反序处理,要求 (1)求出它是几位数 (2)分别输出每一个数字(空格隔开) (3)按逆序输出各位数字(仅数字间以空格间隔,负号与数字之间不需要间 ...
Hystrix参数配置
1.Hystrix参数配置文档 2.Hystrix参数配置示例 import org.springframework.beans.factory.annotation.Autowired; impo ...
Android 内存溢出解决方案（OOM）整理总结<转>
在最近做的工程中发现加载的图片太多或图片过大时经常出现OOM问题,找网上资料也提供了很多方法,但自己感觉有点乱,特此,今天在不同型号的三款安卓手机上做了测试,因为有效果也有结果,今天小马就做个详细的总 ...
LoadRuner12.53教程(三)
教训1:建立一个Vuser Script jiào教 xùn训 1 : jiàn建 lì立 yī一 gè个 V u s e r S c r ...
Python 3 进阶 —— print 打印和输出
在 Python 中,print 可以打印所有变量数据,包括自定义类型. 在 2.x 版本中,print 是个语句,但在 3.x 中却是个内置函数,并且拥有更丰富的功能. 参数选项可以用 help( ...
Shell 实例：备份最后一天内所有修改过的文件
在一个"tarball"中(经过 tar 和 gzip 处理过的文件)备份最后 24 小时之内当前目录下所有修改的文件. 程序代码如下: #!/bin/bash BACKUPFIL ...

Python之随机森林实战

Python之随机森林实战的更多相关文章

随机推荐

热门专题