《机器学习实战》第3章决策树程序清单3-1 计算给定数据集的香农熵calcShannonEnt()运行过程

from math import log

def calcShannonEnt(dataSet):

    numEntries = len(dataSet)

    print("样本总数：" + str(numEntries))

    labelCounts = {} #记录每一类标签的数量

    #定义特征向量featVec

    for featVec in dataSet:

        currentLabel = featVec[-1] #最后一列是类别标签

        if currentLabel not in labelCounts.keys():

            labelCounts[currentLabel] = 0;

        labelCounts[currentLabel] += 1 #标签currentLabel出现的次数

        print("当前labelCounts状态：" + str(labelCounts))

    shannonEnt = 0.0

    for key in labelCounts:

        prob = float(labelCounts[key]) / numEntries #每一个类别标签出现的概率

        print(str(key) + "类别的概率：" + str(prob))

        print(prob * log(prob, 2) )

        shannonEnt -= prob * log(prob, 2)

        print("熵值：" + str(shannonEnt))

    return shannonEnt

def createDataSet():

    dataSet = [

        # [1, 1, 'yes'],

        # [1, 0, 'yes'],

        # [1, 1, 'no'],

        # [0, 1, 'no'],

        # [0, 1, 'no'],

        # #以下随意添加，用于测试熵的变化，越混乱越冲突，熵越大

        # [1, 1, 'no'],

        # [1, 1, 'no'],

        # [1, 1, 'no'],

        # [1, 1, 'no'],

        # [1, 1, 'maybe'],

        # [1, 1, 'maybe1']

        # 用下面的8个比较极端的例子看得会更清楚。如果按照这个规则继续增加下去，熵会继续增大。

        # [1,1,'1'],

        # [1,1,'2'],

        # [1,1,'3'],

        # [1,1,'4'],

        # [1,1,'5'],

        # [1,1,'6'],

        # [1,1,'7'],

        # [1,1,'8'],

        # 这是另一个极端的例子，所有样本的类别是一样的，有序，不混乱，此时熵为0

        [1,1,''],

        [1,1,''],

        [1,1,''],

        [1,1,''],

        [1,1,''],

        [1,1,''],

        [1,1,''],

        [1,1,''],

    ]

    labels = ['no surfacing', 'flippers']

    return dataSet, labels

def testCalcShannonEnt():

    myDat, labels = createDataSet()

    print(calcShannonEnt(myDat))

if __name__ == '__main__':

    testCalcShannonEnt()

    print(log(0.000002, 2))

以下输出结果是每个样本的类别都不同时的输出结果：

样本总数：8
当前labelCounts状态：{'1': 1}
当前labelCounts状态：{'1': 1, '2': 1}
当前labelCounts状态：{'1': 1, '2': 1, '3': 1}
当前labelCounts状态：{'1': 1, '2': 1, '3': 1, '4': 1}
当前labelCounts状态：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1}
当前labelCounts状态：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1, '6': 1}
当前labelCounts状态：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1, '6': 1, '7': 1}
当前labelCounts状态：{'1': 1, '2': 1, '3': 1, '4': 1, '5': 1, '6': 1, '7': 1, '8': 1}
1类别的概率：0.125
-0.375
熵值：0.375
2类别的概率：0.125
-0.375
熵值：0.75
3类别的概率：0.125
-0.375
熵值：1.125
4类别的概率：0.125
-0.375
熵值：1.5
5类别的概率：0.125
-0.375
熵值：1.875
6类别的概率：0.125
-0.375
熵值：2.25
7类别的概率：0.125
-0.375
熵值：2.625
8类别的概率：0.125
-0.375
熵值：3.0
3.0
-18.931568569324174
[Finished in 1.3s]

from math import log
def calcShannonEnt(dataSet):numEntries = len(dataSet)print("样本总数：" + str(numEntries))
labelCounts = {} #记录每一类标签的数量
#定义特征向量featVecfor featVec in dataSet:currentLabel = featVec[-1] #最后一列是类别标签
if currentLabel not in labelCounts.keys():labelCounts[currentLabel] = 0;
labelCounts[currentLabel] += 1 #标签currentLabel出现的次数print("当前labelCounts状态：" + str(labelCounts))
shannonEnt = 0.0
for key in labelCounts:prob = float(labelCounts[key]) / numEntries #每一个类别标签出现的概率
print(str(key) + "类别的概率：" + str(prob))print(prob * log(prob, 2) )shannonEnt -= prob * log(prob, 2) print("熵值：" + str(shannonEnt))
return shannonEnt

def createDataSet():dataSet = [# [1, 1, 'yes'],# [1, 0, 'yes'],# [1, 1, 'no'],# [0, 1, 'no'],# [0, 1, 'no'],# #以下随意添加，用于测试熵的变化，越混乱越冲突，熵越大# [1, 1, 'no'],# [1, 1, 'no'],# [1, 1, 'no'],# [1, 1, 'no'],# [1, 1, 'maybe'],# [1, 1, 'maybe1']# 用下面的8个比较极端的例子看得会更清楚。如果按照这个规则继续增加下去，熵会继续增大。# [1,1,'1'],# [1,1,'2'],# [1,1,'3'],# [1,1,'4'],# [1,1,'5'],# [1,1,'6'],# [1,1,'7'],# [1,1,'8'],
# 这是另一个极端的例子，所有样本的类别是一样的，有序，不混乱，此时熵为0[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],[1,1,'1'],]
labels = ['no surfacing', 'flippers']
return dataSet, labels
def testCalcShannonEnt():
myDat, labels = createDataSet()print(calcShannonEnt(myDat))
if __name__ == '__main__':testCalcShannonEnt()print(log(0.000002, 2))

《机器学习实战》第3章决策树程序清单3-1 计算给定数据集的香农熵calcShannonEnt()运行过程的更多相关文章

《机器学习实战之第二章k-近邻算法》
入坑<机器学习实战>: 本书的第一个机器学习算法是k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 ...
《机器学习实战第7章：利用AdaBoost元算法提高分类性能》
import numpy as np import matplotlib.pyplot as plt def loadSimpData(): dataMat = np.matrix([[1., 2.1 ...
Java程序员必了解的JVM原理以及虚拟机的运行过程
JVM概念虚拟机:指以软件的方式模拟具有完整硬件,VM概念虚拟机:指以软件的方式模拟具有完整硬件系统功能.运行在一个完全隔离环境中的完整计算机系统 ,是物理机的软件实现.常用的虚拟机有VMWare ...
机器学习实战书-第二章K-近邻算法笔记
本章介绍第一个机器学习算法:A-近邻算法,它非常有效而且易于掌握.首先,我们将探讨女-近邻算法的基本理论,以及如何使用距离测量的方法分类物品:其次我们将使用?7««^从文本文件中导人并解析数据: 再次 ...
《机器学习实战》---第二章 k近邻算法 kNN
下面的代码是在python3中运行, # -*- coding: utf-8 -*- """ Created on Tue Jul 3 17:29:27 2018 @au ...
【机器学习实战】第3章决策树（Decision Tree）
第3章决策树 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/ ...
【机器学习实战学习笔记(2-2)】决策树python3.6实现及简单应用
文章目录 1.ID3及C4.5算法基础 1.1 计算香农熵 1.2 按照给定特征划分数据集 1.3 选择最优特征 1.4 多数表决实现 2.基于ID3.C4.5生成算法创建决策树 3.使用决策树进行分 ...
机器学习实战python3 决策树ID3
代码及数据:https://github.com/zle1992/MachineLearningInAction 决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特 ...
决策树ID3算法python实现 -- 《机器学习实战》
from math import log import numpy as np import matplotlib.pyplot as plt import operator #计算给定数据集的香农熵 ...

随机推荐

iOS 添加Resource bundle target(静态库中使用图片等资源)
一.首先将资源文件打包成bundle 新建工程:File -> New -> Project... -> OS X -> Framework & Library -&g ...
centos7 更改主机名
在CentOS或RHEL中,有三种定义的主机名:a.静态的(static),b.瞬态的(transient),以及 c.灵活的(pretty).“静态”主机名也称为内核主机名,是系统在启动时从/etc ...
1. Oracle安装部署文档
一. 部署环境步骤 1.1 软件环境操作系统:CentOS release 6.5oracle安装包:linux.x64_11gR2_database_1of1.zip:linux.x64_11gR ...
Ldap 漏洞
0x00 Ldap安装官网地址:https://www.userbooster.de/en/download/openldap-for-windows.aspx 在win2008上安装,一路Next ...
国内CDN加速现状
什么是CDN CDN的全称是Content Delivery Network,即内容分发网络.是位于网络层与应用层之间的网络应用,其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内 ...
N76E003系统时钟
系统时钟源N76E003共有3种系统时钟源,包括: 内部高速/低速振荡器.外部输入时钟.它们每一个都可以作为N76E003的系统时钟源.开启不同的时钟源可能会影响到多功能引脚P3.0/XIN .内部振 ...
React Native(三)——推送jpush-react-native
瞬间,有种满血复活的赶脚…… 原因呢,就是熟悉了rn项目的套路:当老大问道,“推送功能看了还是没看呢?”的时候,虽然一直没有调试通,但还是不怯场的回答,“看了,按照网上说的也配了,但是还是用不了,不知 ...
Java的I/O操作
一.概述 Java的IO支持通过java.io包下的类和接口来完成,在java.io包下主要有包括输入.输出两种IO流,每种输入输出流又可分为字节流和字符流两大类.从JDK1.4以后,Java在jav ...
ATM技术基本原理
1 术语.定义和缩略语 1.1 术语.定义术语/定义说明 ATM层位于B-ISDN/ATM网络协议参考模型的第二层,完成交换.路由选择和信元复用功能.ATM层的基本处理单位是信元. AA ...
WP8.1学习系列(第十一章)——中心控件Hub开发指南
在本文中先决条件什么是中心控件? 添加中心控件将分区添加到中心添加交互式分区头用于导航将展示磁贴添加到中心使用窄应用中的垂直中心借助中心使用语义式缩放视图摘要和后续步骤重要的 API ...

《机器学习实战》第3章决策树程序清单3-1 计算给定数据集的香农熵calcShannonEnt()运行过程

《机器学习实战》第3章决策树程序清单3-1 计算给定数据集的香农熵calcShannonEnt()运行过程的更多相关文章

随机推荐

热门专题