基于id3算法根据房价数据进行画图预测python

根据已给的波士顿房价数据，对波斯顿房价进行预测。即，实现给出若干条件（如房间数、社区的低收入阶层的比率和镇上学生与教师数量比例的部分数据），要能说出给出的条件是否能够有效进行预测，如可以做有效预测，则给出预测的结果。

上面的是数据
下面是ID3的算法

#coding:utf-8

__author__ = 'liukai'

from math import log

class DecisonTree:

    trainData = []

    trainLabel = []

    featureValus = {} #每个特征所有可能的取值

    def __init__(self, trainData, trainLabel, threshold):

        self.loadData(trainData, trainLabel)

        self.threshold = threshold

        self.tree = self.createTree(range(0,len(trainLabel)), range(0,len(trainData[0])))

    #加载数据

    def loadData(self, trainData, trainLabel):

        if len(trainData) != len(trainLabel):

            raise ValueError('input error')

        self.trainData = trainData

        self.trainLabel = trainLabel

        #计算 featureValus

        for data in trainData:

            for index, value in enumerate(data):

                if not index in self.featureValus.keys():

                    self.featureValus[index] = [value]

                if not value in self.featureValus[index]:

                    self.featureValus[index].append(value)

    #计算信息熵

    def caculateEntropy(self, dataset):

        labelCount = self.labelCount(dataset)

        size = len(dataset)

        result = 0

        for i in labelCount.values():

            pi = i / float(size)

            result -= pi * (log(pi) /log(2))

        return result

    #计算信息增益

    def caculateGain(self, dataset, feature):

        values = self.featureValus[feature] #特征feature 所有可能的取值

        result = 0

        for v in values:

            subDataset = self.splitDataset(dataset=dataset, feature=feature, value=v)

            result += len(subDataset) / float(len(dataset)) * self.caculateEntropy(subDataset)

        return self.caculateEntropy(dataset=dataset) - result

    #计算数据集中，每个标签出现的次数

    def labelCount(self, dataset):

        labelCount = {}

        for i in dataset:

            if trainLabel[i] in labelCount.keys():

                labelCount[trainLabel[i]] += 1

            else:

                labelCount[trainLabel[i]] = 1

        return labelCount

    '''

    dataset:数据集

    features:特征集

    '''

    def createTree(self, dataset, features):

        labelCount = self.labelCount(dataset)

        #如果特征集为空，则该树为单节点树

        #计算数据集中出现次数最多的标签

        if not features:

            return max(list(labelCount.items()),key = lambda x:x[1])[0]

        #如果数据集中，只包同一种标签，则该树为单节点树

        if len(labelCount) == 1:

            # return labelCount.keys()[0]

            return labelCount.keys()

        #计算特征集中每个特征的信息增益

        l = map(lambda x : [x, self.caculateGain(dataset=dataset, feature=x)], features)

        #选取信息增益最大的特征

        feature, gain = max(l, key = lambda x: x[1])

        #如果最大信息增益小于阈值，则该树为单节点树

        #

        if self.threshold > gain:

            return max(list(labelCount.items()),key = lambda x:x[1])[0]

        tree = {}

        #选取特征子集

        subFeatures = filter(lambda x : x != feature, features)

        tree['feature'] = feature

        #构建子树

        for value in self.featureValus[feature]:

            subDataset = self.splitDataset(dataset=dataset, feature=feature, value=value)

            #保证子数据集非空

            if not subDataset:

                continue

            tree[value] = self.createTree(dataset=subDataset, features=subFeatures)

        return tree

    def splitDataset(self, dataset, feature, value):

        reslut = []

        for index in dataset:

            if self.trainData[index][feature] == value:

                reslut.append(index)

        return reslut

    def classify(self, data):

        def f(tree, data):

            if type(tree) != dict:

                return tree

            else:

                return f(tree[data[tree['feature']]], data)

        return f(self.tree, data)

if __name__ == '__main__':

    trainData = [

        [0, 0, 0, 0],

        [0, 0, 0, 1],

        [0, 1, 0, 1],

        [0, 1, 1, 0],

        [0, 0, 0, 0],

        [1, 0, 0, 0],

        [1, 0, 0, 1],

        [1, 1, 1, 1],

        [1, 0, 1, 2],

        [1, 0, 1, 2],

        [2, 0, 1, 2],

        [2, 0, 1, 1],

        [2, 1, 0, 1],

        [2, 1, 0, 2],

        [2, 0, 0, 0],

    ]

    trainLabel = [0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0]

    tree = DecisonTree(trainData=trainData, trainLabel=trainLabel, threshold=0)

    print (tree.tree)

# {'feature': 2,

#  0: {'feature': 1, 0: dict_keys([0]),1: dict_keys([1])},

#  1: dict_keys([1])}

接下来就是画图的实现

#### -*- coding: utf-8 -*-

import matplotlib.pyplot as plt

import time

import math

from math import sin

import numpy as np

# plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

# plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

# plt.xlabel（“x轴标签”）

# plt.ylabel("y轴标签")

# plt.title("图像标题")

# plt.xlim(0,5)     在画好的图形中选取x范围内的图形片段。

# plt.ylim(0,5)     y片段

# plt.plot(x,y,linewidth=4)    设置线的宽度

# plt.plot(x,y,"g字符")     g代表绿色 后面的字符表示线的种类。如虚线，点线等

# -*- coding: utf-8 -*-

import numpy as np

import matplotlib.mlab as mlab

import matplotlib.pyplot as plt

#D.柱状图bar

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

plt.figure()

plt.bar(x, y)

plt.title("bar")

plt.show()

exit()

##饼图###

labels = ['China', 'Swiss', 'USA', 'UK', 'Laos', 'Spain']

X = [222, 42, 455, 664, 454, 334]

fig = plt.figure()

plt.pie(X, labels=labels, autopct='%1.2f%%')  # 画饼图（数据，数据对应的标签，百分数保留两位小数点）

plt.title("Pie chart")

plt.show()

plt.savefig("PieChart.jpg")

exit()

x=np.arange(0,2*np.pi,0.01)

y=np.sin(x)

plt.xlabel('角度')

plt.ylabel("SIN")

# plt.ylim(-1,1)   #片段选择

plt.plot(x,y)

plt.show()

exit()

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

fig = plt.figure(figsize=(12, 6))

plt.subplot(121)

plt.plot(x, y, color='r', linestyle='-')

plt.subplot(122)

plt.title("正弦图片")

plt.plot(x, y, color='r', linestyle='--')

plt.show()

exit()

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

plt.scatter(x, y, color='r', marker='+')

plt.show()

exit()

plt.figure(figsize=(6,6))

plt.subplot(231)

plt.subplot(232)

plt.subplot(233)

plt.subplot(234)

plt.subplot(235)

plt.subplot(236)

plt.show()

exit()

x_data = [1, 2, 3, 4, 5]

y_data = [2.3, 3.4, 1.2, 6.6, 7.0]

fig = plt.figure()

ax = fig.add_subplot(1,1,1)

ax.scatter(x_data, y_data)

# plt.ion()#本次运行请注释，全局运行不要注释

plt.show()

time.sleep(20)

基于id3算法根据房价数据进行画图预测python的更多相关文章

机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
决策树笔记：使用ID3算法
决策树笔记:使用ID3算法决策树笔记:使用ID3算法机器学习先说一个偶然的想法:同样的一堆节点构成的二叉树,平衡树和非平衡树的区别,可以认为是"是否按照重要度逐渐降低"的顺序 ...
决策树--ID3 算法（一）
Contents 1. 决策树的基本认识 2. ID3算法介绍 3. 信息熵与信息增益 4. ID3算法的C++实现 1. 决策树的基本认识决策树是一种 ...
【Machine Learning】决策树之ID3算法（2）
决策树之ID3算法 Content 1.ID3概念 2.信息熵 3.信息增益 Information Gain 4. ID3 bias 5. Python算法实现(待定) 一.ID3概念 ID3算法最 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
ID3算法决策树的生成（1）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...
陕西中际现代:基于自适应算法的PLC滴灌控制系统
基于自适应算法的PLC滴灌控制系统陕西中际现代包装科技有限公司滴灌部 1.介绍水资源正在成为一种珍贵的资源.城镇的市民使用成千上万立方的水来浇灌花园和绿地.他们依赖于使用固定灌溉计划的控制器.而这 ...
Python实现ID3算法
自己用Python写的数据挖掘中的ID3算法,现在觉得Python是实现算法的最好工具: 先贴出ID3算法的介绍地址http://wenku.baidu.com/view/cddddaed0975f4 ...

随机推荐

__slots__属性
使用__slots__时,子类不受影响 class Person(object): __slots__ = ("name","age") def __str__ ...
python小题目汇总
1.编程计算两个日期之间的天数与周数 Python时间处理---dateutil模块: dateutil模块主要有两个函数,parser和rrule. 其中parser是根据字符串解析成datetim ...
PHP restore_error_handler() 函数
定义和用法 restore_error_handler() 函数恢复之前的错误处理程序. 该函数用于在通过 set_error_handler() 函数改变后恢复之前的错误处理程序. 该函数总是返回 ...
5.21 省选模拟赛 luogu P4207 [NOI2005]月下柠檬树解析几何自适应辛普森积分法
LINK:月下柠檬树之前感觉这道题很鬼畜实际上也就想到辛普森积分后就很好做了. 辛普森积分法的式子不再赘述网上多的是.值得一提的是这道题利用辛普森积分法的话就是一个解析几何的问题而并非计算 ...
springboot多数据源启动报错：required a single bean, but 6 were found:
技术群: 816227112 参考:https://stackoverflow.com/questions/43455869/could-not-autowire-there-is-more-than ...
Use SQL to Query Data from CDS and Dynamics 365 CE
from : https://powerobjects.com/2020/05/20/use-sql-to-query-data-from-cds-and-dynamics-365-ce/ Have ...
Mybatis insert 获取主键自增id
Mybatis insert 返回自增主键 mysql 准备一张带有自增主键的表users 字段:id,name,phone sql  < ...
Jmeter(十九) - 从入门到精通 - JMeter监听器 -上篇（详解教程）
1.简介监听器用来监听及显示JMeter取样器测试结果,能够以树.表及图形形式显示测试结果,也可以以文件方式保存测试结果,JMeter测试结果文件格式多样,比如XML格式.CSV格式.默认情况下,测 ...
python3.4嵌套循环项目：买房分期付款（1）
#案例:买房分期付款24万(10年期限) i=1#定义年份sum1=0while i<=10: print("第",i,"年到了......") j=1# ...
家庭记账本APP开发准备（三）
单选框(RadioButton) 通过设置单选框,可以将非此即彼的问题进行解决,成功学会并应用了手机端单项选择框; 复选框(CheckBox) 学习复选框是为了给使用软件的人更多的选择,在其他选择框后 ...

基于id3算法根据房价数据进行画图预测python

基于id3算法根据房价数据进行画图预测python的更多相关文章

随机推荐

热门专题