sklearn学习笔记
用Bagging优化模型的过程:
1、对于要使用的弱模型(比如线性分类器、岭回归),通过交叉验证的方式找到弱模型本身的最好超参数;
2、然后用这个带着最好超参数的弱模型去构建强模型;
3、对强模型也是通过交叉验证的方式找到强模型的最好超参数(比如弱模型的数量)
对于Bagging、RandomForest、Boosting这些组合算法,默认是用的弱模型是决策树,但是可以通过base_estimator参数调整。
np.linspace() 创建等比数列,生成(start,stop)区间指定元素个数num的list,均匀分布
np.logspace() log分布间距生成list
np.arange() 生成(start,stop)区间指定步长step的list
numpy库:常用基本
https://www.cnblogs.com/smallpi/p/4550361.html
scikit-learn 中文文档
http://cwiki.apachecn.org/display/sklearn/Index
http://sklearn.apachecn.org/#/ (需要FQ)
模型评估: 量化预测的质量
https://blog.csdn.net/marsjhao/article/details/78678276
30分钟学会用scikit-learn的基本回归方法(线性、决策树、SVM、KNN)和集成方法(随机森林,Adaboost和GBRT)
https://blog.csdn.net/u010900574/article/details/52666291
很值得看的特征选择 方法
https://www.cnblogs.com/stevenlk/p/6543628.html
XGboost数据比赛实战之调参篇
https://blog.csdn.net/sinat_35512245/article/details/79700029
Scikit中的特征选择,XGboost进行回归预测,模型优化的完整过程
https://blog.csdn.net/sinat_35512245/article/details/79668363
sklearn之样本生成 make_classification,make_circles和make_moons
常用算法 的基本sklearn命令: Sklearn包含的常用算法的调用
sklearn学习笔记的更多相关文章
- sklearn学习笔记之简单线性回归
简单线性回归 线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误 ...
- sklearn学习笔记3
Explaining Titanic hypothesis with decision trees decision trees are very simple yet powerful superv ...
- sklearn学习笔记2
Text classifcation with Naïve Bayes In this section we will try to classify newsgroup messages using ...
- sklearn学习笔记1
Image recognition with Support Vector Machines #our dataset is provided within scikit-learn #let's s ...
- sklearn学习笔记(一)——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
- sklearn学习笔记之岭回归
岭回归 岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息.降低精度为代价获得回归系数更为符合实际.更可靠的回归方法,对病 ...
- sklearn学习笔记之开始
简介 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了.scikit-learn简称sklearn,支持包括分类.回归.降维和聚类四大机器学习算法.还包含了特征 ...
- sklearn学习笔记(1)--make_blobs函数及相应参数简介
make_blobs方法: sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=3, cluster_std=1.0,cent ...
- Google TensorFlow深度学习笔记
Google Deep Learning Notes Google 深度学习笔记 由于谷歌机器学习教程更新太慢,所以一边学习Deep Learning教程,经常总结是个好习惯,笔记目录奉上. Gith ...
随机推荐
- (转)IBM mq基本使用
一.下载7.5 Trial版本 http://www.ibm.com/developerworks/downloads/ws/wmq/ 这是下载网址,下载前先必须注册IBM ID,下载完成后一路Nex ...
- numpy之一些名称含义(持续更新)
dtype:data type 数据类型 ndarray:n-dimension n维,ndarray:n维数组(多维数组) mean:平均值 std:standard deviation:标准差 p ...
- Ansible安装部署及常用模块详解
Ansible命令使用 Ansible语法使用ansible <pattern_goes_here> -m <module_name> -a <arguments> ...
- 基于 Django 2.0.4 的 djcelery 配置
Django Celery 配置实践 所需环境 python 3.5.2 rabbitmq 安装所需的包 pip install -r requirements.txt QuickStart 创建Dj ...
- python---ORM之SQLAlchemy(5)联合唯一的使用
# coding:utf8 # __author: Administrator # date: // # /usr/bin/env python import sqlalchemy from sqla ...
- springboot下实现邮件发送功能
springboot给我们封装好了邮件功能,非常简单,只需要稍微配置下就ok. 引入jar <dependency> <groupId>org.springframework. ...
- Linux记录-自动删除几天前的日志文件
#!/bin/sh DDIR=/usr/local/appserver/tomcat_risk/logs/risk_manage find $DDIR -mtime +30 -name "* ...
- JAVA记录-添加错误页面友好提示
1.web.xml加入以下配置 <error-page> <error-code>404</error-code> <location>/WEB-INF ...
- 解决Sublime Text中文标题出现异常情况
打开首选项-设置-用户 用以下覆盖原来配置,保存之后重新打开编辑器即可 { "dpi_scale": 1.0, "font_face" ...
- 在O(N)时间内求解 正数数组中 两个数相加的 最大值
一,问题描述 给定一个正数数组arr(即数组元素全是正数),找出该数组中,两个元素相加的最大值,其中被加数的下标大于加数的下标.由加法运算的可逆性,j >i 这个条件可以去掉. 即求出: max ...