基于id3算法根据房价数据进行画图预测python

根据已给的波士顿房价数据，对波斯顿房价进行预测。即，实现给出若干条件（如房间数、社区的低收入阶层的比率和镇上学生与教师数量比例的部分数据），要能说出给出的条件是否能够有效进行预测，如可以做有效预测，则给出预测的结果。

上面的是数据
下面是ID3的算法

#coding:utf-8

__author__ = 'liukai'

from math import log

class DecisonTree:

    trainData = []

    trainLabel = []

    featureValus = {} #每个特征所有可能的取值

    def __init__(self, trainData, trainLabel, threshold):

        self.loadData(trainData, trainLabel)

        self.threshold = threshold

        self.tree = self.createTree(range(0,len(trainLabel)), range(0,len(trainData[0])))

    #加载数据

    def loadData(self, trainData, trainLabel):

        if len(trainData) != len(trainLabel):

            raise ValueError('input error')

        self.trainData = trainData

        self.trainLabel = trainLabel

        #计算 featureValus

        for data in trainData:

            for index, value in enumerate(data):

                if not index in self.featureValus.keys():

                    self.featureValus[index] = [value]

                if not value in self.featureValus[index]:

                    self.featureValus[index].append(value)

    #计算信息熵

    def caculateEntropy(self, dataset):

        labelCount = self.labelCount(dataset)

        size = len(dataset)

        result = 0

        for i in labelCount.values():

            pi = i / float(size)

            result -= pi * (log(pi) /log(2))

        return result

    #计算信息增益

    def caculateGain(self, dataset, feature):

        values = self.featureValus[feature] #特征feature 所有可能的取值

        result = 0

        for v in values:

            subDataset = self.splitDataset(dataset=dataset, feature=feature, value=v)

            result += len(subDataset) / float(len(dataset)) * self.caculateEntropy(subDataset)

        return self.caculateEntropy(dataset=dataset) - result

    #计算数据集中，每个标签出现的次数

    def labelCount(self, dataset):

        labelCount = {}

        for i in dataset:

            if trainLabel[i] in labelCount.keys():

                labelCount[trainLabel[i]] += 1

            else:

                labelCount[trainLabel[i]] = 1

        return labelCount

    '''

    dataset:数据集

    features:特征集

    '''

    def createTree(self, dataset, features):

        labelCount = self.labelCount(dataset)

        #如果特征集为空，则该树为单节点树

        #计算数据集中出现次数最多的标签

        if not features:

            return max(list(labelCount.items()),key = lambda x:x[1])[0]

        #如果数据集中，只包同一种标签，则该树为单节点树

        if len(labelCount) == 1:

            # return labelCount.keys()[0]

            return labelCount.keys()

        #计算特征集中每个特征的信息增益

        l = map(lambda x : [x, self.caculateGain(dataset=dataset, feature=x)], features)

        #选取信息增益最大的特征

        feature, gain = max(l, key = lambda x: x[1])

        #如果最大信息增益小于阈值，则该树为单节点树

        #

        if self.threshold > gain:

            return max(list(labelCount.items()),key = lambda x:x[1])[0]

        tree = {}

        #选取特征子集

        subFeatures = filter(lambda x : x != feature, features)

        tree['feature'] = feature

        #构建子树

        for value in self.featureValus[feature]:

            subDataset = self.splitDataset(dataset=dataset, feature=feature, value=value)

            #保证子数据集非空

            if not subDataset:

                continue

            tree[value] = self.createTree(dataset=subDataset, features=subFeatures)

        return tree

    def splitDataset(self, dataset, feature, value):

        reslut = []

        for index in dataset:

            if self.trainData[index][feature] == value:

                reslut.append(index)

        return reslut

    def classify(self, data):

        def f(tree, data):

            if type(tree) != dict:

                return tree

            else:

                return f(tree[data[tree['feature']]], data)

        return f(self.tree, data)

if __name__ == '__main__':

    trainData = [

        [0, 0, 0, 0],

        [0, 0, 0, 1],

        [0, 1, 0, 1],

        [0, 1, 1, 0],

        [0, 0, 0, 0],

        [1, 0, 0, 0],

        [1, 0, 0, 1],

        [1, 1, 1, 1],

        [1, 0, 1, 2],

        [1, 0, 1, 2],

        [2, 0, 1, 2],

        [2, 0, 1, 1],

        [2, 1, 0, 1],

        [2, 1, 0, 2],

        [2, 0, 0, 0],

    ]

    trainLabel = [0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0]

    tree = DecisonTree(trainData=trainData, trainLabel=trainLabel, threshold=0)

    print (tree.tree)

# {'feature': 2,

#  0: {'feature': 1, 0: dict_keys([0]),1: dict_keys([1])},

#  1: dict_keys([1])}

接下来就是画图的实现

#### -*- coding: utf-8 -*-

import matplotlib.pyplot as plt

import time

import math

from math import sin

import numpy as np

# plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

# plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

# plt.xlabel（“x轴标签”）

# plt.ylabel("y轴标签")

# plt.title("图像标题")

# plt.xlim(0,5)     在画好的图形中选取x范围内的图形片段。

# plt.ylim(0,5)     y片段

# plt.plot(x,y,linewidth=4)    设置线的宽度

# plt.plot(x,y,"g字符")     g代表绿色 后面的字符表示线的种类。如虚线，点线等

# -*- coding: utf-8 -*-

import numpy as np

import matplotlib.mlab as mlab

import matplotlib.pyplot as plt

#D.柱状图bar

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

plt.figure()

plt.bar(x, y)

plt.title("bar")

plt.show()

exit()

##饼图###

labels = ['China', 'Swiss', 'USA', 'UK', 'Laos', 'Spain']

X = [222, 42, 455, 664, 454, 334]

fig = plt.figure()

plt.pie(X, labels=labels, autopct='%1.2f%%')  # 画饼图（数据，数据对应的标签，百分数保留两位小数点）

plt.title("Pie chart")

plt.show()

plt.savefig("PieChart.jpg")

exit()

x=np.arange(0,2*np.pi,0.01)

y=np.sin(x)

plt.xlabel('角度')

plt.ylabel("SIN")

# plt.ylim(-1,1)   #片段选择

plt.plot(x,y)

plt.show()

exit()

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

fig = plt.figure(figsize=(12, 6))

plt.subplot(121)

plt.plot(x, y, color='r', linestyle='-')

plt.subplot(122)

plt.title("正弦图片")

plt.plot(x, y, color='r', linestyle='--')

plt.show()

exit()

x = [1, 2, 3, 4, 5]

y = [2.3, 3.4, 1.2, 6.6, 7.0]

plt.scatter(x, y, color='r', marker='+')

plt.show()

exit()

plt.figure(figsize=(6,6))

plt.subplot(231)

plt.subplot(232)

plt.subplot(233)

plt.subplot(234)

plt.subplot(235)

plt.subplot(236)

plt.show()

exit()

x_data = [1, 2, 3, 4, 5]

y_data = [2.3, 3.4, 1.2, 6.6, 7.0]

fig = plt.figure()

ax = fig.add_subplot(1,1,1)

ax.scatter(x_data, y_data)

# plt.ion()#本次运行请注释，全局运行不要注释

plt.show()

time.sleep(20)

基于id3算法根据房价数据进行画图预测python的更多相关文章

机器学习决策树ID3算法，手把手教你用Python实现
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第21篇文章,我们一起来看一个新的模型--决策树. 决策树的定义决策树是我本人非常喜欢的机器学习模型,非常直观容易理解 ...
决策树-预测隐形眼镜类型（ID3算法，C4.5算法，CART算法，GINI指数,剪枝，随机森林）
1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? ...
决策树笔记：使用ID3算法
决策树笔记:使用ID3算法决策树笔记:使用ID3算法机器学习先说一个偶然的想法:同样的一堆节点构成的二叉树,平衡树和非平衡树的区别,可以认为是"是否按照重要度逐渐降低"的顺序 ...
决策树--ID3 算法（一）
Contents 1. 决策树的基本认识 2. ID3算法介绍 3. 信息熵与信息增益 4. ID3算法的C++实现 1. 决策树的基本认识决策树是一种 ...
【Machine Learning】决策树之ID3算法（2）
决策树之ID3算法 Content 1.ID3概念 2.信息熵 3.信息增益 Information Gain 4. ID3 bias 5. Python算法实现(待定) 一.ID3概念 ID3算法最 ...
机器学习笔记----- ID3算法的python实战
本文申明:本文原创,如有转载请申明.数据代码来自实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. Hell ...
ID3算法决策树的生成（1）
# coding:utf-8 import matplotlib.pyplot as plt import numpy as np import pylab def createDataSet(): ...
陕西中际现代:基于自适应算法的PLC滴灌控制系统
基于自适应算法的PLC滴灌控制系统陕西中际现代包装科技有限公司滴灌部 1.介绍水资源正在成为一种珍贵的资源.城镇的市民使用成千上万立方的水来浇灌花园和绿地.他们依赖于使用固定灌溉计划的控制器.而这 ...
Python实现ID3算法
自己用Python写的数据挖掘中的ID3算法,现在觉得Python是实现算法的最好工具: 先贴出ID3算法的介绍地址http://wenku.baidu.com/view/cddddaed0975f4 ...

随机推荐

Sqlite3 实现学生信息增删改查
import sqlite3 conn = sqlite3.connect('studentsdb.db') # 连接数据库 cursor = conn.cursor( ) # 创建数据表 def c ...
AJAX 是什么？
AJAX 简介 AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术. AJAX 是什么? AJAX = Asynchronous JavaScript and XML. AJAX ...
PDOStatement::setAttribute
PDOStatement::setAttribute — 设置一个语句属性(PHP 5 >= 5.1.0, PECL pdo >= 0.2.0)高佣联盟 www.cgewang.com 说 ...
mysql8.0以上版本修改密码问题记录
参考链接: https://blog.csdn.net/qq_27820551/article/details/101488430 https://blog.csdn.net/mukouping82/ ...
【编写程序中经常犯的一些错误】 Python | 面向对象（一）
[编写程序中经常犯的一些错误]Python | 面向对象(一) 在学习Python的面向对象这一部分时,经常出现以下错误: 这是错误范例,请仔细甄别: class Person: def __int_ ...
Java入门到实践系列(1)——Java简介
一.Java的发展历史 Java是由SUN公司的开发人员James Gosling及其领导的一个开发小组与1995年开发并推出的一门高级编程语言.经过二十几年的发展已经成为最受程序员欢迎.使用最为普遍 ...
Linux学习笔记之ubuntu如何在vi中写入中文注释
点击左边设置system settings,再点击Language Suppotr 点击Remind Me Later 选择ibus 然后关闭,在终端写入ibus-setup,弹出设置框,选择INPU ...
通过java程序(JSch)运行远程linux主机上的shell脚本
如果您看完文章之后,觉得对您有帮助,请帮我点个赞,您的支持是我不竭的创作动力! 如果您看完文章之后,觉得对您有帮助,请帮我点个赞,您的支持是我不竭的创作动力! 如果您看完文章之后,觉得对您有帮助,请帮 ...
【API进阶之路】高考要考口语？我用多模态评测API做了一场10w+刷屏活动
摘要:闲着没事用多模态评测API做了一个测评英语口语的互动小游戏,居然成了一场10万人参与的刷屏级活动. 上一期故事说到,我成为了公司技术委员会副主席,上任后的第一件事是建立了一个云容器化的研发资料库 ...
C#设计模式之8-组合模式
组合模式(Composite Pattern) 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/403 访问. 组合模式属 ...

基于id3算法根据房价数据进行画图预测python

基于id3算法根据房价数据进行画图预测python的更多相关文章

随机推荐

热门专题