03机器学习实战之决策树CART算法

CART生成 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支.这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布. CART算法由以下两步组成: 决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大: 决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时损失函数最小作为剪枝的标准. CART决策树的生成就是…

03机器学习实战之决策树scikit-learn实现

sklearn.tree.DecisionTreeClassifier 基于 scikit-learn 的决策树分类模型 DecisionTreeClassifier 进行的分类运算 http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier class sklearn.tree.DecisionTreeC…

机器学习实战笔记-k-近邻算法

机器学习实战笔记-k-近邻算法目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结本章介绍了<机器学习实战>这本书中的第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握.首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品:其次我们将使用Python从文本文件中导入并解析数据:再次,本文讨论了当存在许多数据来源时,如何避免计算距离时可能碰到的一些常见错误:最后,利用实际的例子讲解如何使用k-近邻算…

02-23 决策树CART算法

目录决策树CART算法一.决策树CART算法学习目标二.决策树CART算法详解 2.1 基尼指数和熵 2.2 CART算法对连续值特征的处理 2.3 CART算法对离散值特征的处理 2.4 CART算法剪枝 2.4.1 生成剪枝后的决策树 2.4.2 选择最优子树 2.5 CART算法剪枝流程 2.5.1 输入 2.5.2 输出 2.5.3 流程三.决策树CART算法流程 3.1 输入 3.2 输出 3.3 分类CART树算法流程 3.4 回归CART树算法流程 3.4.1 处理连续值…

机器学习实战(一)k-近邻算法

转载请注明源出处:http://www.cnblogs.com/lighten/p/7593656.html 1.原理本章介绍机器学习实战的第一个算法——k近邻算法(k Nearest Neighbor),也称为kNN.说到机器学习,一般都认为是很复杂,很高深的内容,但实际上其学习门栏并不算高,具备基本的高等数学知识(包括线性代数,概率论)就可以了,甚至一些算法高中生就能够理解了.kNN算法就是一个原理很好理解的算法,不需要多好的数学功底,这是一个分类算法(另一个大类是回归),属于监督学习的范…

《机器学习实战》——k-近邻算法Python实现问题记录（转载）

py2.7 : <机器学习实战> k-近邻算法 11.19 更新完毕原文链接 <机器学习实战>第二章k-近邻算法,自己实现时遇到的问题,以及解决方法.做个记录. 1.写一个kNN.py保存了之后,需要重新导入这个kNN模块.报错:no module named kNN. 解决方法:1.将.py文件放到 site_packages 目录下 2.在调用文件中添加sys.path.append("模块文件目录"):import sys sys.…

机器学习——十大数据挖掘之一的决策树CART算法

本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法. CART算法全称是Classification and regression tree,也就是分类回归树的意思.和之前介绍的ID3和C4.5一样,CART算法同样是决策树模型的一种经典的实现.决策树这个模型一共有三种实现方式,前面我们已经介绍了ID3和C4.5两种,今天刚好补齐这最后一种. 算法特点 CART称为分类回归树,从名字上我们也看得出来…

【Python机器学习实战】决策树和集成学习（一）

摘要:本部分对决策树几种算法的原理及算法过程进行简要介绍,然后编写程序实现决策树算法,再根据Python自带机器学习包实现决策树算法,最后从决策树引申至集成学习相关内容. 1.决策树决策树作为一种常见的有监督学习算法,在机器学习领域通常有着不错的表现,决策树在生活中决策去做某件事时,会根据自己的经验考虑到多种因素,那么在程序逻辑中使用if~else的堆叠,决定最终结果的过程其实就算是决策树的一种体现,如下图(举个不太恰当的例子).学术一点来说,决策树就是根据以往发生的事的概率,来评估风险,作出…

决策树-Cart算法二

本文结构: CART算法有两步回归树的生成分类树的生成剪枝 CART - Classification and Regression Trees 分类与回归树,是二叉树,可以用于分类,也可以用于回归问题,最先由 Breiman 等提出. 分类树的输出是样本的类别, 回归树的输出是一个实数. CART算法有两步: 决策树生成和剪枝. 决策树生成:递归地构建二叉决策树的过程,基于训练数据集生成决策树,生成的决策树要尽量大: 自上而下从根开始建立节点,在每个节点处要选择一个最好的属性来分裂,使得…

机器学习实战笔记-7-AdaBoost元算法

AdaBoost(Adaptive boosting)元算法元算法:将不同分类器组合起来的结果,也叫集成方法. AdaBoost优点:泛化错误率,易编码,可应用在大部分分类器,无参数调整:缺点:对离群点敏感:适用于:数值型和标称型. 自举汇聚法(Bootstrap aggregating, bagging方法):从原始数据集中随机选择1个样本,然后随机选择另一个样本替换这个样本.对原始数据集中进行S次这样的操作,分别得到S个新数据集.某个学习算法分别作用于新数据集得到S个分类器.用S个分类器进…

机器学习实战之k-近邻算法（3）---如何可视化数据

关于可视化: <机器学习实战>书中的一个小错误,P22的datingTestSet.txt这个文件,根据网上的源代码,应该选择datingTestSet2.txt这个文件.主要的区别是最后的标签,作者原来使用字符串‘veryLike’作为标签,但是Python转换会出现ValueError: invalid literal for int() with base 10: 'largeDoses'的错误.所以改成后面的文件就可以了.后面直接用1 2 3 代表not like, general l…

【Python机器学习实战】决策树与集成学习（七）——集成学习（5）XGBoost实例及调参

上一节对XGBoost算法的原理和过程进行了描述,XGBoost在算法优化方面主要在原损失函数中加入了正则项,同时将损失函数的二阶泰勒展开近似展开代替残差(事实上在GBDT中叶子结点的最优值求解也是使用的二阶泰勒展开(详细上面Tips有讲解),但XGBoost在求解决策树和最优值都用到了),同时在求解过程中将两步优化(求解最优决策树和叶子节点最优输出值)合并成为一步.本节主要对XGBoot进行实现并调参. XGBoost框架及参数 XGBoost原生框架与sklearn风格框架 XGBoost有…

【Python机器学习实战】决策树与集成学习（四）——集成学习（2）GBDT

本打算将GBDT和XGBoost放在一起,但由于涉及内容较多,且两个都是比较重要的算法,这里主要先看GBDT算法,XGBoost是GBDT算法的优化和变种,等熟悉GBDT后再去理解XGBoost就会容易的多 GBDT算法原理 GBDT(Gradient Boosting Decision Tree)算法前面说到,提升树是每次训练将上一次训练的残差作为本次训练的样本,找出最优的决策树的过程,然后将所有模型进行叠加的过程.同样,GBDT也是一种前向加法算法模型,不同于提升树的是,GBDT每次将残差…

【Python机器学习实战】决策树与集成学习（六）——集成学习（4）XGBoost原理篇

XGBoost是陈天奇等人开发的一个开源项目,前文提到XGBoost是GBDT的一种提升和变异形式,其本质上还是一个GBDT,但力争将GBDT的性能发挥到极致,因此这里的X指代的"Extreme"的意思.XGBoost通过在算法和工程上进行了改进,使其在性能和精度上都得到了很大的提升,也成为了Kaggle比赛和工程应用的大热门.XGBoost是大规模并行的BoostingTree的工具,比通常的工具包快10倍以上,是目前最好的开源BoostingTree的工具包,在工业界规模方面,XG…

《机器学习实战》-k近邻算法

目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python 解析文本文件分析数据:使用 Matplotlib 画二维散点图准备数据:归一化数值测试算法:验证分类器使用算法:构建完整可用系统手写识别系统准备数据测试算法使用算法:构建完整可用系统总结 K-近邻算法 k-近邻分类算法概述使用 k-近邻算法改进约会网站的配对效果手写识别系统…

李航统计学习方法(第二版)（十）：决策树CART算法

1 简介 1.1 介绍 1.2 生成步骤 CART树算法由以下两步组成:(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;(2)决策树剪枝:用验证数据集对己生成的树进行剪枝并选择最优子树,这时用损失函数址小作为剪枝的标准. 2 算法 2.1 回归树对回归树用平方误差最小化准则,生成二叉树. 2.1.1 回归树生成 2.2 分类树对分类树用基尼指数(Gini imlex)最小化准则,进行特征选择,生成二叉树. 2.2.1 分类树生成 2.3 剪枝 CART剪枝算法由两步组成:…

【Python机器学习实战】决策树和集成学习（二）——决策树的实现

摘要:上一节对决策树的基本原理进行了梳理,本节主要根据其原理做一个逻辑的实现,然后调用sklearn的包实现决策树分类. 这里主要是对分类树的决策进行实现,算法采用ID3,即以信息增益作为划分标准进行. 首先计算数据集的信息熵,代码如下: 1 import math 2 import numpy as np 3 4 5 def calcShannonEnt(data): 6 num = len(data) 7 # 保存每个类别的数目 8 labelCounts = {} 9 # 每一个样本 10…

【Python机器学习实战】决策树与集成学习（五）——集成学习（3）GBDT应用实例

前面对GBDT的算法原理进行了描述,通过前文了解到GBDT是以回归树为基分类器的集成学习模型,既可以做分类,也可以做回归,由于GBDT设计很多CART决策树相关内容,就暂不对其算法流程进行实现,本节就根据具体数据,直接利用Python自带的Sklearn工具包对GBDT进行实现. 数据集采用之前决策树中的红酒数据集,之前的数据集我们做了类别的处理(将连续的数据删除了,且小批量数据进行了合并),这里做同样的处理,将其看为一个多分类问题. 首先依旧是读取数据,并对数据进行检查和预处理,这里就不再赘述…

机器学习实战python3 决策树ID3

代码及数据:https://github.com/zle1992/MachineLearningInAction 决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 创建分支的伪代码函数createBranch()如下所示:检测数据集中的每个子项是否属于同一分类:if so return 类标签; Else 寻找划分数据集的最好特征划分数据集创建分支节点 for 每个划分的子集调用函…

02机器学习实战之K近邻算法

第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k 近邻算法的输入为实例的特征向量,对应于特征空间的点:输出为实例的类别,可以取多类.k 近邻算法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测.因此,k近邻算法不具有显式的学习过程. k 近邻算法实际上利用训练数据集对…

【Python机器学习实战】决策树与集成学习（三）——集成学习（1）

前面介绍了决策树的相关原理和实现,其实集成学习并非是由决策树演变而来,之所以从决策树引申至集成学习是因为常见的一些集成学习算法与决策树有关比如随机森林.GBDT以及GBDT的升华版Xgboost都是以决策树为基础的集成学习方法,故将二者放在一起进行讨论.本节主要介绍关于集成学习的基本原理,后面会介绍一些典型的集成学习算法及应用. 集成学习从字面上就是集成很多分类器进行学习的过程,通过将一系列弱分类器的模型做一些简单的线性组合,最终形成了一个较强的分类器.因此集成学习的一般思路有以下三种: 通过组…

机器学习实战笔记--k近邻算法

#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as plt from os import listdir def makePhoto(returnMat,classLabelVector): #创建散点图 fig = plt.figure() ax = fig.add_subplot(111) #例如参数为349时,参数349的意思是:将画布分割成3行4…

机器学习实战：决策树的存储读写文件报错（Python3）

错误原因:pickle模块存储的是二进制字节码,需要以二进制的方式进行读写 1. 报错一:TypeError: write() argument must be str, not bytes 将决策树写入磁盘的代码如下: def storeTree(inputTree, filename): import pickle fw = open(filename, 'w') pickle.dump(inputTree, fw) fw.close() 改正后代码: fw = open(filename,…

机器学习实战笔记-2-kNN近邻算法

# k-近邻算法(kNN) 本质是(提取样本集中特征最相似数据(最近邻)的k个分类标签). K-近邻算法的优缺点例优点:精度高,对异常值不敏感,无数据输入假定: 缺点:计算复杂度高,空间复杂度高: 适用于:数值型和标称型. 手写数字识别工作原理输入样本集,该样本集中标签已确定. 输入无标签(目标变量无值)的新数据,将新数据的每个特征与样本集中的数据对应特征比较.提取样本集中特征最相似数据(最近邻)的k个分类标签.k一般不大于20. 选择k个最相似数据中出现次数最多的分类,作为新数据的分类…

机器学习实战---K均值聚类算法

一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): dataSet = np.loadtxt(filename) return dataSet (二)计算两个向量之间的距离 def distEclud(vecA,vecB): #计算两个向量之间距离 return np.sqrt(np.sum(np.power(vecA-vecB,))) (三)随机初…