吴裕雄 python 机器学习-DMT（1）

import numpy as np

import operator as op

from math import log

def createDataSet():

    dataSet = [[1, 1, 'yes'],

               [1, 1, 'yes'],

               [1, 0, 'no'],

               [0, 1, 'no'],

               [0, 1, 'no']]

    labels = ['no surfacing','flippers']

    return dataSet, labels

dataSet,labels = createDataSet()

print(dataSet)

print(labels)

def calcShannonEnt(dataSet):

    labelCounts = {}

    for featVec in dataSet:

        currentLabel = featVec[-1]

        if(currentLabel not in labelCounts.keys()):

            labelCounts[currentLabel] = 0

        labelCounts[currentLabel] += 1

    shannonEnt = 0.0

    rowNum = len(dataSet)

    for key in labelCounts:

        prob = float(labelCounts[key])/rowNum

        shannonEnt -= prob * log(prob,2)

    return shannonEnt

shannonEnt = calcShannonEnt(dataSet)

print(shannonEnt)

def splitDataSet(dataSet, axis, value):

    retDataSet = []

    for featVec in dataSet:

        if(featVec[axis] == value):

            reducedFeatVec = featVec[:axis]

            reducedFeatVec.extend(featVec[axis+1:])

            retDataSet.append(reducedFeatVec)

    return retDataSet

retDataSet = splitDataSet(dataSet,1,1)

print(np.array(retDataSet))

retDataSet = splitDataSet(dataSet,1,0)

print(retDataSet)

def chooseBestFeatureToSplit(dataSet):

    numFeatures = np.shape(dataSet)[1]-1

    baseEntropy = calcShannonEnt(dataSet)

    bestInfoGain = 0.0

    bestFeature = -1

    for i in range(numFeatures):

        featList = [example[i] for example in dataSet]

        uniqueVals = set(featList)

        newEntropy = 0.0

        for value in uniqueVals:

            subDataSet = splitDataSet(dataSet, i, value)

            prob = len(subDataSet)/float(len(dataSet))

            newEntropy += prob * calcShannonEnt(subDataSet)

        infoGain = baseEntropy - newEntropy

        if (infoGain > bestInfoGain):

            bestInfoGain = infoGain

            bestFeature = i

    return bestFeature 

bestFeature = chooseBestFeatureToSplit(dataSet)

print(bestFeature)

def majorityCnt(classList):

    classCount={}

    for vote in classList:

        if(vote not in classCount.keys()):

            classCount[vote] = 0

        classCount[vote] += 1

    sortedClassCount = sorted(classCount.items(), key=op.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

def createTree(dataSet,labels):

    classList = [example[-1] for example in dataSet]

    if(classList.count(classList[0]) == len(classList)):

        return classList[0]

    if len(dataSet[0]) == 1:

        return majorityCnt(classList)

    bestFeat = chooseBestFeatureToSplit(dataSet)

    bestFeatLabel = labels[bestFeat]

    myTree = {bestFeatLabel:{}}

    del(labels[bestFeat])

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = set(featValues)

    for value in uniqueVals:

        subLabels = labels[:]

        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)

    return myTree

myTree = createTree(dataSet,labels)

print(myTree)

def classify(inputTree,featLabels,testVec):

    for i in inputTree.keys():

        firstStr = i

        break

    secondDict = inputTree[firstStr]

    featIndex = featLabels.index(firstStr)

    key = testVec[featIndex]

    valueOfFeat = secondDict[key]

    if isinstance(valueOfFeat, dict):

        classLabel = classify(valueOfFeat, featLabels, testVec)

    else:

        classLabel = valueOfFeat

    return classLabel

featLabels = ['no surfacing', 'flippers']

classLabel = classify(myTree,featLabels,[1,1])

print(classLabel)

import pickle

def storeTree(inputTree,filename):

    fw = open(filename,'wb')

    pickle.dump(inputTree,fw)

    fw.close()

def grabTree(filename):

    fr = open(filename,'rb')

    return pickle.load(fr)

filename = "D:\\mytree.txt"

storeTree(myTree,filename)

mySecTree = grabTree(filename)

print(mySecTree)

featLabels = ['no surfacing', 'flippers']

classLabel = classify(mySecTree,featLabels,[0,0])

print(classLabel)

吴裕雄 python 机器学习-DMT（1）的更多相关文章

吴裕雄 python 机器学习-DMT（2）
import matplotlib.pyplot as plt decisionNode = dict(boxstyle="sawtooth", fc="0.8" ...
吴裕雄 python 机器学习——分类决策树模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_s ...
吴裕雄 python 机器学习——回归决策树模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_s ...
吴裕雄 python 机器学习——线性判断分析LinearDiscriminantAnalysis
import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot ...
吴裕雄 python 机器学习——逻辑回归
import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot ...
吴裕雄 python 机器学习——ElasticNet回归
import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot ...
吴裕雄 python 机器学习——Lasso回归
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets, linear_model from s ...
吴裕雄 python 机器学习——岭回归
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets, linear_model from s ...
吴裕雄 python 机器学习——线性回归模型
import numpy as np from sklearn import datasets,linear_model from sklearn.model_selection import tra ...

随机推荐

《马哥出品高薪linux运维教程》wingkeung学习笔记-linux基础入门课程
计算机原理概念: 1.CPU和内存中的存储单元通信线路称为总线(BUS),总线是被指令和数据复用的,所以也称为前端总线. 2.计算机中计算频率的时间标准即晶体振荡器原理,精确计算时间长度,根据相同的时 ...
java正则表达式替换空格和换行符
public class StringUtil { public static String getStringNoBlank(String str) { if(s ...
初级安全入门——Windows操作系统的安全加固
实验网络拓扑如下: 工具简介 Kali操作系统 Kali Linux是安全业内最知名的安全渗透测试专用操作系统.它的前身就是业界知名的BackTrack操作系统.BackTrack在2013年停止更新 ...
jmater分布式压力测试总结
总结,总是为了方便以后 1.jmeter 2000个并发,4台slave ,每台slave是500个线程即可完成测试 2.jmx文件只需要拷贝到master下 jmeter目录下(最保险的方法) 3. ...
django总结 --》内容（django建project开始的大致流程、ORM简介）
1 安装: pip install django==1.11.9 另外:在pycharm中安装 django,在下图中七步走 2. 新建Django项目 django-admin startpro ...
Linux中使用python测试主机存活 Linux系统CentOS Linux release 7.3.1611 (Core) py版本Python 2.7.5
下面是最初的情况 #/usr/bin/env python # -*- coding: utf-8 -*- import os import time import subprocess import ...
导航栏 ------ z-index
z-index 显示的层叠关系,数字越大越在上面 <!DOCTYPE html> <html lang="en"> <head> <met ...
bootstrap-datepicker实现日期input readonly 标签中选择时间功能
引用datepicker css,js,zh-CH文件 ps: 都是基于bootstrap,所以得先引入bootstrap文件才可以使用 <link href="https://cdn ...
CMD下的netstat命令
查询端口启用情况 netstat -ano|findstr 80
Intorduction of Annotation ,about examples in Hello1.java
java ee 里的常用注解 .@Controller,@Service,@Repository,@Component,@RestController这几个注解用于实例化class对象.分别对应于控制 ...

吴裕雄 python 机器学习-DMT（1）

吴裕雄 python 机器学习-DMT（1）的更多相关文章

随机推荐

热门专题