秦曾昌人工智能课程---7.决策树集成学习Tree Ensembles 一.总结 一句话总结: 其实机器模型减少variance的比较好的方式就是 多个模型取平均值 1.CART是什么? classification and regression tree 2.决策树模型的本质是什么? divide the input space into a few regions 3.我们如何用决策树去做预测? 信息不同属性按重要性依次下分:先划分x1的范围,这就形成了一个二叉树分支,再划分x2的范围,就形…
秦曾昌人工智能课程---6.Decision Tree Learning 一.总结 一句话总结: 怎样去构建决策树:比如一维:***|00|***|000|***,|为分割线,每个分割点都是一种情况,选一个分割点,然后再选下一个分割点,即可构成二叉树 决策树是机器学习中最简单的算法 1.机器学习的决策树算法中怎么构建决策树? 熵越小信息越有序:把不相干的点划分开,比如***00|***000***,|为分割线 一维表现:***|00|***|000|***,|为分割线,每个分割点都是一种情况,选…
秦曾昌人工智能课程---5.KNN和朴素贝叶斯 一.总结 一句话总结: 拟合和概率:构建机器学习模型,一般有拟合和概率两种方式 轻学无用:一定要保证学有所用,要深入学习,比如之前做的安卓,一定要学通,不然真的没用,完全浪费时间 1.参数模型(Parametric model)是什么? 通过结构化表达式和参数集表示的模型 参数模型(Parametric model)一类可以通过结构化表达式和参数集表示的模型.参数模型是以代数方程.微分方程.传递函数等形式表达的,或采用机抑方法建立的模型. 2.非参…
目录 1.前述: 2.Bosting方式介绍: 3.Adaboost例子: 4.adaboost整体流程: 5.待解决问题: 6.解决第一个问题:如何获得不同的g(x): 6.1 我们看下权重与函数的关系: 6.2 gt和un的关系数学公式表达: 6.3 引导Un+1的思路: 6.4 推导Un+1的由来: 6.5 规划因子的由来: 7.解决第二个问题:α的计算: 7.1 每一个弱分类器需要什么样的树: 8.具体总结Adaboost的整体流程: 9.举例说明Adaboost的流程: 10.总结Ad…
目录 1.前述 2.向量空间的梯度下降: 3.函数空间的梯度下降: 4.梯度下降的流程: 5.在向量空间的梯度下降和在函数空间的梯度下降有什么区别呢? 6.我们看下GBDT的流程图解: 7.我们看一个GBDT的例子: 8.我们看下GBDT不同版本的理解: 1.前述 从本课时开始,我们讲解一个新的集成学习算法,GBDT. 首先我们回顾下有监督学习.假定有N个训练样本,, 找到一个函数 F(x),对应一种映射使得损失函数最小.即: 如何保证最小呢?就是通过我们解函数最优化的算法去使得最小,常见的有梯…
目录 1.回顾: 1.1 有监督学习中的相关概念 1.2  回归树概念 1.3 树的优点 2.怎么训练模型: 2.1 案例引入 2.2 XGBoost目标函数求解 3.XGBoost中正则项的显式表达 4.如何生长一棵新的树? 5.xgboost相比原始GBDT的优化: 6.代码参数: 1.回顾: 我们先回顾下有监督学习中的一些核心概念: 1.1 有监督学习中的相关概念 我们模型关注的就是如何在给定xi的情况下获得ŷi.在线性模型里面,我们认为 i是x的横坐标,j是x的列坐标,本质上linear…
          大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式 ,out  of  bag  data及代码(2) 上一节中我们讲解了随机森林的基本概念,本节的话我们讲解随机森林的随机方式,以及一些代码. 目录 1-随机森林随机方式 2-out  of   baf data 3-代码 1-随机森林随机方式 我们先来回顾下随机森林中都有哪些随机?     第一:用Bagging生成用来训练小树的样本时,进行有放回的随机抽样.                 第二:抽样数据之…
决策树这节中涉及到了很多pandas中的新的函数用法等,所以我单拿出来详细的理解一下这些pandas处理过程,进一步理解pandas背后的数据处理的手段原理. 决策树程序 数据载入 pd.read_csv()竟然可以直接请求URL... ... DataFrame.head()可以查看前面几行的数据,默认是5行 DataFrame.info()可以查看数据的统计情报 '''数据载入''' import pandas as pd titanic = pd.read_csv('http://bios…
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读): 1. https://zhuanlan.zhihu.com/p/86263786 2.https://blog.csdn.net/liuy9803/article/details/80598652 3.https://blog.csdn.net/perfect1t/article/details/83684995 4.GBDT算法原理以及实例理解(!!) 5.Adaboost算法原理分析和实例+代码(简明易懂)(!!) 目录 1.…
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklearn.model_selection import train_test_split def load_data_regression(): ''' 加载用于回归问题的数据集 ''' #使用 scikit-learn 自带的一个糖尿病病人的数据集 diabetes = datasets.load_di…