《机器学习实战》笔记—

笔记见备注

 # _*_ coding:utf-8 _*_

 from numpy import *

 # 简单数据集

 def loadSimpData():

     datMat = matrix([[1., 2.1],

                      [2., 1.1],

                      [1.3, 1.],

                      [1., 1.],

                      [2., 1.]])

     classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]

     return datMat, classLabels

 # 7-1 单层决策树生成函数

 # lt=less than

 # 分类器的构建(单纯地将某一特征上的所有取值与输入的阈值进行比较，若制定lt为负，则特征值小于阈值的样本被标记为-1)

 # 相反而知，若指定gt为负，则特征值大于阈值的样本被标记为-1

 def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):

     retArray = ones((shape(dataMatrix)[0],1))

     if threshIneq == 'lt':

         retArray[dataMatrix[:, dimen] <= threshVal] = -1.0

     else:

         retArray[dataMatrix[:, dimen] > threshVal] = -1.0

     return retArray

 # stumpClassify分类器的预测值收到了特征、阈值和阈值两边到底哪边为正标签哪边为父标签的影响

 # 所以有三重循环

 # 第一重：遍历每个特征

 # 第二重：对每个特征上依次设定不同的阈值

 # 第三重：每个特征的每个阈值设定以后 还要依次以小、大于阈值作为依据调用分类器。得出预测结果。将结果与真实结果对比，得出错误向量

 # 通过错误向量得出加权错误值之后与当前的最小错误值进行对比，迭代后得到最终的最小错误

 def buildStump(dataArr, classLabels, D):

     dataMatrix = mat(dataArr)

     labelMat = mat(classLabels).T

     m,n = shape(dataMatrix)

     numSteps = 10.0 # 也可以变大，使得阈值的精确度更高，但是会造成计算量的增大

     bestStump = {}

     bestClasEst = mat(zeros((m,1)))

     minError = inf

     for i in range(n):

         rangeMin = dataMatrix[:,i].min()

         rangeMax = dataMatrix[:,i].max()

         stepSize = (rangeMax - rangeMin)/numSteps

         for j in range(-1, int(numSteps)+1):    # 为什么从-1开始？？？？

             for inequal in ['lt','gt']:

                 threshVal = (rangeMin + float(j)*stepSize)

                 predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal)

                 errArr = mat(ones((m, 1)))

                 errArr[predictedVals == labelMat] = 0

                 weightedError = D.T * errArr

                 # print ("split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f"\

                 # %(i, threshVal, inequal, weightedError))

                 if weightedError < minError:

                     minError = weightedError

                     bestClasEst = predictedVals.copy()

                     bestStump['dim'] = i

                     bestStump['thresh'] = threshVal

                     bestStump['ineq'] = inequal

     return bestStump, minError, bestClasEst # 单层决策树建立出来之后，需要知道的是最好的决策树（是的预测值的加权错误最小的树）的、

     # 特征、阈值、约定的负标签方向；最小错误值；最好的预测结果（一个以样本个数为维度的向量）

 # 7-2 基于单层决策树的AdaBoost训练过程

 def adaBoostTrainDS(dataArr, classLabels, numIt=40):

     weakClassArr = []

     m = shape(dataArr)[0]

     D = mat(ones((m,1))/m)

     aggClassEst = mat(zeros((m,1)))

     for i in range(numIt):

         bestStump, error, classEst = buildStump(dataArr, classLabels, D)

         print ("D:", D.T)

         alpha = float(0.5*log((1.0-error)/max(error,1e-16)))    # 避免没有错误是发生溢出

         bestStump['alpha'] = alpha

         weakClassArr.append(bestStump)

         print ("classEst: ", classEst.T)

         expon = multiply(-1*alpha*mat(classLabels).T, classEst)

         D = multiply(D, exp(expon))

         D = D/D.sum()

         aggClassEst += alpha*classEst

         print ("aggClassEst: ",aggClassEst.T)

         aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m,1)))  #ones zeros的（）里面一定不能忘了是元祖，而不是两个数

         errorRate = aggErrors.sum()/m

         print ("total error: ", errorRate, "\n")

         if errorRate == 0.0: break

     return weakClassArr

《机器学习实战》笔记——AdaBoost的更多相关文章

机器学习实战笔记--AdaBoost（实例代码）
#coding=utf-8 from numpy import * def loadSimpleData(): dataMat = matrix([[1. , 2.1], [2. , 1.1], [1 ...
机器学习实战笔记-k-近邻算法
机器学习实战笔记-k-近邻算法目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结本章介绍了<机器学习实战>这本书中的 ...
机器学习实战笔记7(Adaboost)
1:简单概念描写叙述 Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们须要简介几个概念. 1:弱学习器:在二分情况下弱分类器的错误率会低于50%. 事实 ...
机器学习实战笔记(Python实现)-06-AdaBoost
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习实战笔记(Python实现)-00-readme
近期学习机器学习,找到一本不错的教材<机器学习实战>.特此做这份学习笔记,以供日后翻阅. 机器学习算法分为有监督学习和无监督学习.这本书前两部分介绍的是有监督学习,第三部分介绍的是无监督学 ...
机器学习实战笔记(Python实现)-08-线性回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习实战笔记(Python实现)-05-支持向量机(SVM)
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习实战笔记(Python实现)-04-Logistic回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习实战笔记(Python实现)-03-朴素贝叶斯
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习实战笔记(Python实现)-01-K近邻算法(KNN)
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...

随机推荐

【开发小结】Two Steps from Deadline
进度条可以救我也可以杀死我 # START 2018年4月17日晚我测试了11组四则运算的UI,每个exe程序生成的每一道题都有恐怖的倒计时.PSP表格清晰的记录了开发过程中消耗的时间,但是在结对作业 ...
POJ 3311 Hie with the Pie （状压DP）
题意: 每个点都可以走多次的TSP问题:有n个点(n<=11),从点1出发,经过其他所有点至少1次,并回到原点1,使得路程最短是多少? 思路: 同HDU 5418 VICTOR AND WORL ...
hiho一下第四十四周博弈游戏·Nim游戏（直接公式解）
证明看这http://hihocoder.com/contest/hiho44/problem/1 思路: 设 sg=a[1]^a[2]^...a[n],若sg=0,则先手Alice必败,否则必赢. ...
手写IOC框架
1.IOC框架的设计思路 ① 哪些类需要我们的容器进行管理 ②完成对象的别名和对应实例的映射装配 ③完成运行期对象所需要的依赖对象的依赖
Python -- 函数之推导式
5.12 推导式 l = [] for i in range(1,11): l.append(i) print(l) # 用列表推导式 (一行搞定) l = [i for i in range(1,1 ...
Silverlight日记：动态操作Grid
一,动态生成Grid public static Grid CreateGrid(List<T_METER> List) { var g = new Grid(); if (null == ...
计算机视觉2D几何基元及其变换介绍和OpenCV WarpPerspective源码分析
2D图像几何基元一般的,表示一个2d几何基元只用两个维度(比如x,y)就可以表示了,但是在计算机视觉研究中,为了统一对2d几何基元的操作(后面讲到的仿射,透射变换),一般会以增广矢量的方式表示几何基 ...
01_2_Servlet简介
01_2_Servlet简介 1. Servlet简介 Servlet是服务器小应用程序用来完成B/S架构下,客户端请求的响应处理平台独立,性能优良,能以线程方式运行 Servlet API为Se ...
【费用流】loj#545. 「LibreOJ β Round #7」小埋与游乐场
好像现在看来这个缩点的思路挺清晰啊题目描述有两个非负整数组成的可重集合 $A$ 和 $B$. 现在你可以对 $A$ 中至多 $k$ 个元素进行操作.操作方法为:设你准备操作且未被操作过的 $A$ ...
destoon公司账户增加销售区域等下拉列表配置
开始接触dt时不了解,其实直接用自定义字段即可.不过既然改过了,就记录一下. 在后台系统设置,模块管理,点击会员模块最后的设置图表打开会员模块设置如图增加主要销售区域并在公司修改页面调用 1 ...

《机器学习实战》笔记——AdaBoost

《机器学习实战》笔记——AdaBoost的更多相关文章

随机推荐

热门专题