cart中回归树的原理和实现

前面说了那么多，一直围绕着分类问题讨论，下面我们开始学习回归树吧，

cart生成有两个关键点

如何评价最优二分结果
什么时候停止和如何确定叶子节点的值

cart分类树采用gini系数来对二分结果进行评价，叶子节点的值使用多数表决，那么回归树呢？我们直接看之前的一个数据集（天气与是否出去玩，是否出去玩改成出去玩的时间）

sunny    hot    high    FALSE    25

sunny    hot    high    TRUE    30

overcast    hot    high    FALSE    46

rainy    mild    high    FALSE    45

rainy    cool    normal    FALSE    52

rainy    cool    normal    TRUE    23

overcast    cool    normal    TRUE    43

sunny    mild    high    FALSE    35

sunny    cool    normal    FALSE    38

rainy    mild    normal    FALSE    46

sunny    mild    normal    TRUE    48

overcast    mild    high    TRUE    52

overcast    hot    normal    FALSE    44

rainy    mild    high    TRUE    30

如果用分类树来做，结果就是这样的，一个结果值一个节点

回归树切分数据集和分类树是一样的，那么我们如何评价一个数据集划分的好坏呢？分类树是用gini系数衡量数据集的类别的混乱程度，同样，我们也可以衡量数据集的回归值的混乱程度，比较经典的是方差和标准差，由于我们需要得到和回归值接近的值作为叶子节点的值，我们这里使用标准差吧

n是回归值的个数，u是平均值，x是每个回归值，S是标准差（standard deviation）

第二个问题：什么时候停止和如何确定叶子节点的值？

分类树是特征用完或者类别都一样；对于回归问题回归值都一样的概率比较小，由于我们过程中不减少特征，所以最后肯定是一个样本一个分支。

有人说当分支的S小于总体的5%，分支就可以结束，然后节点的值取平均值

我们看下这样有效果不？左边是没有停止原始的回归树，右边是加上结束条件的回归树，感觉效果还可以，这样回归树就完成了

对比回归树和分类树的实现，发现基本是就仅仅是一个函数的区别，到这里明白为什么叫分类回归树了吗？

就是同样的代码，只需要改变一个函数，就可以实现分类或者回归的功能的了。

下面附上回归树的完整代码

# regression_tree.py

# coding:utf8

from itertools import *

from numpy import *

import operator,math

def calStDev(dataSet):

    classList = [float(example[-1]) for example in dataSet]

    n=len(classList)

    u=sum(classList)/n

    total=0

    for x in classList:

        total+=(x-u)*(x-u)

    S = math.sqrt(total)

    return S,u

def splitDataSet(dataSet, axis, values):

    retDataSet = []

    if len(values) < 2:

        for featVec in dataSet:

            if featVec[axis] == values[0]:#如果特征值只有一个，不抽取当选特征

                reducedFeatVec = featVec[:axis]

                reducedFeatVec.extend(featVec[axis+1:])

                retDataSet.append(reducedFeatVec)

    else:

        for featVec in dataSet:

            for value in values:

                if featVec[axis] == value:#如果特征值多于一个，选取当前特征

                    retDataSet.append(featVec)

    return retDataSet

# 传入的是一个特征值的列表，返回特征值二分的结果

def featuresplit(features):

    count = len(features)#特征值的个数

    if count < 2:

        # print features

        # print "please check sample's features,only one feature value"

        return ((features[0],),)

    # 由于需要返回二分结果，所以每个分支至少需要一个特征值，所以要从所有的特征组合中选取1个以上的组合

    # itertools的combinations 函数可以返回一个列表选多少个元素的组合结果，例如combinations(list,2)返回的列表元素选2个的组合

    # 我们需要选择1-（count-1）的组合

    featureIndex = range(count)

    featureIndex.pop(0)

    combinationsList = []

    resList=[]

    # 遍历所有的组合

    for i in featureIndex:

        temp_combination = list(combinations(features, len(features[0:i])))

        combinationsList.extend(temp_combination)

        combiLen = len(combinationsList)

    # 每次组合的顺序都是一致的，并且也是对称的，所以我们取首尾组合集合

    # zip函数提供了两个列表对应位置组合的功能

    resList = zip(combinationsList[0:combiLen/2], combinationsList[combiLen-1:combiLen/2-1:-1])

    return resList

# 返回最好的特征以及二分特征值

def chooseBestFeatureToSplit(dataSet):

    numFeatures = len(dataSet[0]) - 1      #

    bestStDev = inf; bestFeature = -1;bestBinarySplit=()

    for i in range(numFeatures):        #遍历特征

        featList = [example[i] for example in dataSet]#得到特征列

        uniqueVals = list(set(featList))       #从特征列获取该特征的特征值的set集合

        # 三个特征值的二分结果：

        # [(('young',), ('old', 'middle')), (('old',), ('young', 'middle')), (('middle',), ('young', 'old'))]

        for split in featuresplit(uniqueVals):

            StDev = 0.0

            if len(split)==1:

                continue

            (left,right)=split

            # print split,

            # 对于每一个可能的二分结果计算gini增益

            # 左增益

            left_subDataSet = splitDataSet(dataSet, i, left)

            left_prob = len(left_subDataSet)/float(len(dataSet))

            S,u = calStDev(left_subDataSet)

            StDev += left_prob * S

            # 右增益

            right_subDataSet = splitDataSet(dataSet, i, right)

            right_prob = len(right_subDataSet)/float(len(dataSet))

            S,u = calStDev(right_subDataSet)

            StDev += right_prob * S

            # print StDev

            if (StDev < bestStDev):       #比较是否是最好的结果

                bestStDev = StDev         #记录最好的结果和最好的特征

                bestFeature = i

                bestBinarySplit=(left,right)

    return bestFeature,bestBinarySplit,bestStDev                  

def majorityCnt(classList):

    classCount={}

    for vote in classList:

        if vote not in classCount.keys(): classCount[vote] = 0

        classCount[vote] += 1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createTree(dataSet,labels,originalS):

    classList = [example[-1] for example in dataSet]

    # print dataSet

    if classList.count(classList[0]) == len(classList):

        return classList[0]#所有的类别都一样，就不用再划分了

    if len(dataSet) == 1: #如果没有继续可以划分的特征，就多数表决决定分支的类别

        return majorityCnt(classList)

    bestFeat,bestBinarySplit,bestStDev = chooseBestFeatureToSplit(dataSet)

    if bestStDev < 0.05*originalS:

        return 1.0*sum(classList)/len(classList)

    # print bestFeat,bestBinarySplit,labels

    bestFeatLabel = labels[bestFeat]

    if bestFeat==-1:

        return majorityCnt(classList)

    myTree = {bestFeatLabel:{}}

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = list(set(featValues))

    for value in bestBinarySplit:

        subLabels = labels[:]       # #拷贝防止其他地方修改

        if len(value)<2:

            del(subLabels[bestFeat])

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels,originalS)

    return myTree  

filename="regression_sample"

dataSet=[];labels=[];

with open(filename) as f:

    for line in f:

        fields=line.strip("\n").split("\t")

        t=fields[0:-1]

        t.append(int(fields[-1]))

        dataSet.append(t)

labels=["outlook","temperature","humidity","windy"]

# print dataSet

originalS,u=calStDev(dataSet)

# print originalS,u

tree= createTree(dataSet,labels,originalS)

print tree

cart中回归树的原理和实现的更多相关文章

回归树的原理及Python实现
大名鼎鼎的 GBDT 算法就是用回归树组合而成的.本文就回归树的基本原理进行讲解,并手把手.肩并肩地带您实现这一算法. 1. 原理篇 1.1 最简单的模型如果预测某个连续变量的大小,最简单的模型之一 ...
连续值的CART（分类回归树）原理和实现
上一篇我们学习和实现了CART(分类回归树),不过主要是针对离散值的分类实现,下面我们来看下连续值的cart分类树如何实现思考连续值和离散值的不同之处: 二分子树的时候不同:离散值需要求出最优的两个 ...
机器学习技法-决策树和CART分类回归树构建算法
课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一.决策树(Decision Tree).口袋(Bagging),自适应增 ...
CART（分类回归树）原理和实现
前面我们了解了决策树和adaboost的决策树墩的原理和实现,在adaboost我们看到,用简单的决策树墩的效果也很不错,但是对于更多特征的样本来说,可能需要很多数量的决策树墩或许我们可以考虑使用更 ...
CART分类与回归树与GBDT(Gradient Boost Decision Tree)
一.CART分类与回归树资料转载: http://dataunion.org/5771.html Classification And Regression Tree(CART)是决策 ...
决策树的剪枝，分类回归树CART
决策树的剪枝决策树为什么要剪枝?原因就是避免决策树“过拟合”样本.前面的算法生成的决策树非常的详细而庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的.因此用这个决策树来 ...
机器学习之分类回归树(python实现CART)
之前有文章介绍过决策树(ID3).简单回顾一下:ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的.按照某种特征切分数据后,该特征在以后切分数据集时就不再使用,因此存在切分 ...
分类-回归树模型（CART）在R语言中的实现
分类-回归树模型(CART)在R语言中的实现 CART模型 ,即Classification And Regression Trees.它和一般回归分析类似,是用来对变量进行解释和预测的工具,也是数据 ...
CART（分类回归树）
1.简单介绍线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外).当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法一个是困难一个是笨拙.此外,实际中很多问题为非线性的,例如常 ...

随机推荐

Pinterest 架构：两年内月 PV 从零到百亿【翻译】
原文地址这篇文章,采用 Markdown 方式,写的还是比较实在的,要是有架构图就好了. Pinterest 是图片版的 Twitter,用户把自己感兴趣的东西用图钉(Pins)钉在钉板(PinBo ...
超体.特效中英字幕.Lucy.2014.BD1080P.X264.AAC.English&Mandarin.CHS-ENG
资源名称其它信息资源大小 BT下载超体.Lucy.2014.BD-MP4-原创翻译中英双语字幕.mp4 seeders: / leechers: 511.15MB 下载 [飘域家园]移动迷宫.T ...
python查找算法的实现-二分法
1.算法:(设查找的数组期间为array[low, high]) (1)确定该期间的中间位置K(2)将查找的值T与array[k]比较.若相等,查找成功返回此位置:否则确定新的查找区域,继续二分查找. ...
MySql 执行语句错误 Err] 1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near
关于用Power Designer 生成sql文件出现错误 [Err] 1064 - You have an error in your SQL syntax; check the manual ...
解决vbox下安装centos不能上网问题
由于工作需要用到Centos做服务器,使用VBOX安装Centos7系统后发现不能上网,记录解决方法,以便下次使用.找到/etc/sysconfig/network-scripts/ifcfg-enp ...
ubuntu下取代ping的好工具tcpping
$ sudo apt-get install tcptraceroute bc$ cd /usr/bin$ sudo wget http://www.vdberg.org/~richard/tcppi ...
wordpress自动保存远程图片插件 DX-auto-save-images
wordpress自动保存远程图片插件DX-auto-save-images 解决了保存文章就可以自动将远程图片保存到你的服务器上了. 具体操作步骤如下: 1.安装启用wordpress自动保存远程图 ...
MYSQL校对规则
一.前言有时候遇到这种情况,你用一个like语句查询,查到的结果中有一些并没有包含你查询的关键词的纪录:有时候遇到这种情况,你的数据库自作聪明的大小写不敏感,让你在更新时把大小写不同的两条记录都更新 ...
[GraphQL] Use Arguments in a GraphQL Query
In GraphQL, every field and nested object is able to take in arguments of varying types in order to ...
worksteal thread pool
worksteal的场景对于一个线程池,每个线程有一个队列,想象这种场景,有的线程队列中有大量的比较耗时的任务堆积,而有的线程队列却是空的,现象就是有的线程处于饥饿状态,而有的线程处于消化不良的状态 ...

cart中回归树的原理和实现

cart中回归树的原理和实现的更多相关文章

随机推荐

热门专题