一、安装sklearn

conda install scikit-learn

参考文献

[1]整体介绍sklearn

https://blog.csdn.net/u014248127/article/details/78885180

二、介绍RandomForestRegressor

     sklearn.ensemble.RandomForestRegressor(  n_estimators=10,

                                              criterion='mse',

                                              max_depth=None,

                                              min_samples_split=2,

                                              min_samples_leaf=1,

                                              min_weight_fraction_leaf=0.0,

                                              max_features='auto',

                                              max_leaf_nodes=None,

                                              min_impurity_split=1e-07,

                                              bootstrap=True,

                                              oob_score=False,

                                              n_jobs=1,

                                              random_state=None,

                                              verbose=0,

                                              warm_start=False)

criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益)，来选择最合适的节点。
splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性，建议用默认。
max_features: 选择最适属性时划分的特征不能超过此值。
　　当为整数时，即最大特征数；
　　　　　　if “auto”, then max_features=sqrt(n_features). 简单地选取所有特征，每颗树都可以利用他们。这种情况下，每颗树都没有任何的限制。
　　　　　　If “sqrt”, then max_features=sqrt(n_features). 此选项是每颗子树可以利用总特征数的平方根个。例如，如果变量（特征）的总数是100，所以每颗子树只能取其中的10个。“log2”是另一种相似类型的选项。
　　　　　　If “log2”, then max_features=log2(n_features).

　　　　　　If None, then max_features=n_features.
　　当为小数时，训练集特征数*小数：举例如下：0.2：此选项允许每个随机森林的子树可以利用变量（特征）数的20％。如果想考察的特征x％的作用，我们可以使用“0.X”的格式。　　

增加max_features一般能提高模型的性能，因为在每个节点上，我们有更多的选择可以考虑。然而，这未必完全是对的，因为它降低了单个树的多样性，而这正是随机森林独特的优点。但是，可以肯定，你通过增加max_features会降低算法的速度。因此，你需要适当的平衡和选择最佳max_features。　　　　　

max_depth: (default=None)设置树的最大深度，默认为None，这样建树时，会使每一个叶节点只有一个类别，或是达到min_samples_split。
min_samples_split:根据属性划分节点时，每个划分最少的样本数。
min_samples_leaf:叶子节点最少的样本数。如果您以前编写过一个决策树，你能体会到最小样本叶片大小的重要性。叶是决策树的末端节点。较小的叶子使模型更容易捕捉训练数据中的噪声。一般来说，我更偏向于将最小叶子节点数目设置为大于50。在你自己的情况中，你应该尽量尝试多种叶子大小种类，以找到最优的那个。
max_leaf_nodes: (default=None)叶子树的最大样本数。
min_weight_fraction_leaf: (default=0) 叶子节点所需要的最小权值
verbose:(default=0) 是否显示任务进程

关于随机森林特有的参数：
n_estimators=10：决策树的个数，越多越好，但是性能就会越差，至少100左右（具体数字忘记从哪里来的了）可以达到可接受的性能和误差率在利用最大投票数或平均值来预测之前，你想要建立子树的数量。较多的子树可以让模型有更好的性能，但同时让你的代码变慢。你应该选择尽可能高的值，只要你的处理器能够承受的住，因为这使你的预测更好更稳定。
bootstrap=True：是否有放回的采样。
oob_score=False：oob（out of band，带外）数据，即：在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练，我们知道可以用cross validation（cv）来进行，但是特别消耗时间，而且对于随机森林这种情况也没有大的必要，所以就用这个数据对决策树模型进行验证，算是一个简单的交叉验证。性能消耗小，但是效果不错。这是一个随机森林交叉验证方法。它和留一验证方法非常相似，但这快很多。这种方法只是简单的标记在每颗子树中用的观察数据。然后对每一个观察样本找出一个最大投票得分，是由那些没有使用该观察样本进行训练的子树投票得到。
n_jobs=1：并行job个数。这个在ensemble算法中非常重要，尤其是bagging（而非boosting，因为boosting的每次迭代之间有影响，所以很难进行并行化），因为可以并行从而提高性能。1=不并行；n：n个并行；-1：CPU有多少core，就启动多少job
warm_start=False：热启动，决定是否使用上次调用该类的结果然后增加新的。
class_weight=None：各个label的权重。

random_state:此参数让结果容易复现。一个确定的随机值将会产生相同的结果，在参数和训练数据不变的情况下。我曾亲自尝试过将不同的随机状态的最优参数模型集成，有时候这种方法比单独的随机状态更好

进行预测可以有几种形式：
predict_proba(x)：给出带有概率值的结果。每个点在所有label的概率和为1.
predict(x)：直接给出预测结果。内部还是调用的predict_proba()，根据概率的结果看哪个类型的预测值最高就是哪个类型。
predict_log_proba(x)：和predict_proba基本上一样，只是把结果给做了log()处理

参考文献：

[2]如何使用GBM/GBDT/GBRT -介绍梯度提升回归树的各种参数

https://zwang1986.github.io/2016/04/24/%E5%A6%82%E4%BD%95%E7%94%A8%E5%A5%BDgbdt%EF%BC%88gradient_boosted_regression_trees%EF%BC%89/

[3]介绍如何找到随机森林的各个最优参数

https://blog.csdn.net/qq_16633405/article/details/61200502

https://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/

三、介绍GradientBoostingRegressor

机器学习算法之岭回归、Lasso回归和ElasticNet回归

https://www.biaodianfu.com/ridge-lasso-elasticnet.html

参考文献：

python库之sklearn的更多相关文章

python库之——sklearn
机器学习库sklearn 官方documentation(资料)中分为不同的部分: 其中我们主要讲User Guide(机器学习算法理论介绍).API(程序实现方法): 一.User Guide ht ...
探讨2018年最受欢迎的15顶级Python库！
近日,数据科学网站 KDnuggets 评选出了顶级 Python 库 Top15,领域横跨数据科学.数据可视化.深度学习和机器学习.如果本文有哪些遗漏,你可以在评论区补充. 图 1:根据 GitHu ...
11个并不广为人知，但值得了解的Python库
这是一篇译文,文中提及了一些不常见但是有用的Python库原文地址:http://blog.yhathq.com/posts/11-python-libraries-you-might-not-kn ...
python自动化测试（4）-使用第三方python库技术实现
python自动化测试(4)-使用第三方python库技术实现 1 概述关于测试的方法论,都是建立在之前的文章里面提到的观点: 功能测试不建议做自动化接口测试性价比最高接口测试可以做自动化 ...
OSX下 pip更新及安装python库
直接执行安装命令 $ pip install builtwith 提示pip当前版本为7.1.2,要使用"pip install --upgrade pip"升级到8.1.2 $ ...
protocol buffer c++ python库安装
c++库安装较简单,不要用源码,还得下载依赖,就被墙了 https://github.com/google/protobuf/releases 下载一个最新的release安装 #protoc -- ...
Windows版的各种Python库安装包下载地址与安装过程
在用Python开发时(Windows环境),会碰到需要安装某个版本的第三方库,为了以后查找.安装方便,总结如下: windows版的各种Python库安装包下载地址:http://www.lfd.u ...
Python 库大全
作者:Lingfeng Ai链接:http://www.zhihu.com/question/24590883/answer/92420471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非 ...
python库tkinter、pygame中几点需要注意的问题
恍然之间已经16年快四月份了,已经好久都没有写过东西了.. 最近在用python做一些小的游戏,在网上找了一些Python库,Python中游戏编程最常用的还是pygame了,其次是Tkinter p ...

随机推荐

Git 学习第二天（一）
继续昨天的学习. 回顾一下,昨天我们安装了git 并创建了登录名及邮箱,还向git仓库提交了一个readme.txt的文本文件下面,我们来修改下这个文件,将内容改为 Git is a distrib ...
JUC源码分析-集合篇（八）DelayQueue
JUC源码分析-集合篇(八)DelayQueue DelayQueue 是一个支持延时获取元素的无界阻塞队列.队列使用 PriorityQueue 来实现. 队列中的元素必须实现 Delayed 接口 ...
面试总结【css篇】- css选择器以及优先级
优先(优先级为): !important > 内联样式 > #id > .class > tag > * > 继承 > 默认 . 当选择器的权重相同时,它将 ...
52-Ubuntu-打包压缩-2-打包/解包
tar是Linux中最常用的备份工具,此命令可以把一系列文件打包到一个大文件中,也可以把一个打包的大文件恢复成一系列文件. 序号命令作用 01 tar -cvf 打包文件.tar 被打包文件打包 ...
38-Ubuntu-用户管理-03-usermod指定用户登录shell
简记: 所谓shell就是可以输入终端命令的窗口,shell是一个软件. 1.Ubuntu终端shell介绍 summmer@summmer-virtual-machine:~/桌面$ summmer ...
Warshall算法和Floyd算法
不用说这两位都是冷门算法……毕竟O(n^3)的时间复杂度算法在算法竞赛里基本算是被淘汰了……而且也没有在这个算法上继续衍生出其他的算法… 有兴趣的话:click here.. 话说学离散的时候曾经有个 ...
GCloud SDK 遇到的错误记录
eclipse 环境 1.调用 SetAppInfo 方法返回 -1 语音id 和 key 设置正确 ,各种检测都没问题解决办法把安卓工程目录下 obj 文件价删除 ,把sdk 替换成以前能用的老 ...
oracle中的round（）方法的用法
[oracle中的round()方法的用法] Round( ) 函数传回一个数值,该数值是按照指定的小数位元数进行四舍五入运算的结果 oracle一般常用于计算表空间内存还有多少空间语法 ROUN ...
svn 一、安装及汉化
svn 是日常开发过程中常用的版本控制工具第一步安装进入官网 https://tortoisesvn.net/ 点击downloads 进入之后选中需要的版本,及位数这里推荐安装最新版的因 ...
使用 Google Chrome 数据抓包方式免费下载收费音乐
对于每个有音乐细胞的 boys & girls 来说,听音乐的时候是不是会经常遇到如下图的问题. 自从音乐进入正版之后,很多歌曲只有付费用户才可以下载.虽然可以在线听,可是以我的倔脾气,就是喜 ...

python库之sklearn

机器学习算法之岭回归、Lasso回归和ElasticNet回归

python库之sklearn的更多相关文章

随机推荐

热门专题