scikit-learn决策树的python实现以及作图

decsion tree（决策树）

其中每个内部结点表示在一个属性上的测试，每个分支代表一个属性的输出，而每个树叶结点代表类或类的分布。树的最顶层是根节点

连续变量要离散化

机器学习中分类方法的一个重要算法

信息熵：

一个信息的信息量大小和它的不确定性有直接的关系，要搞清楚一件非常非常不确定的事情，或者是我么你一无所知的事情，需要了解大量新==》新的度量就等于不确定性的多少

变量的不确定性越大，熵也就越大

ID3

通过信息熵来选择每个节点的判断依据。

infomation gain最大则为当前节点的依据。

决策树的优点缺点

优点：直观，便于理解，小规模数据集有效

缺点：处理连续变量不好类别较多时，错误增加比较快，可规模性一般

决策树程序

安装anaconda python环境

anaconda环境包含了机器学习的基本所有库
安装graphviz

转化dot文件到pdf
生成决策树图

进入到cmd中allEectronicInformationGainorc.dot所在文件夹

dot -Tpdf allEectronicInformationGainorc.dot -o outpu.pdf

program

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import csv

import os

from sklearn import preprocessing

from sklearn.feature_extraction import DictVectorizer

from sklearn import tree

dataDir = os.path.dirname(__file__)

#载入数据并分割

allElectroncsData = open(dataDir+"/data/red.csv","r")

reader = csv.reader(allElectroncsData)

num =0

headers = []

for row in reader:

    headers = row

    if num == 0:

        break

print(headers)

featureList = []

labelList = []

for row in reader:

    labelList.append(row[-1])

    rowDict={}

    for i in range(1 , len(row)-1):

        rowDict[headers[i]] = row[i]

    featureList.append(rowDict)

print(labelList)

for feature in featureList:

    print(feature)

#vectordic，向量化

vec = DictVectorizer()

dummyX = vec.fit_transform(featureList).toarray()

print(dummyX)

print(vec.get_feature_names())

#vectorize calss labels

lb = preprocessing.LabelBinarizer()

dummyY = lb.fit_transform(labelList)

print("dummyY:"+str(dummyY))

#using decision tree for classfication

clf = tree.DecisionTreeClassifier(criterion='entropy')##度量标准为entropy信息熵

clf = clf.fit(dummyX,dummyY)

print("clf"+str(clf))

#viuslize model，可视化

# with open("allEectronicInformationGainorc.dot", 'w') as f:

#     f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)

#

# with open("hello.dot", "w") as f1:

#     f1 = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f1)

#predic 预测

oneRowX = dummyX[0,:]

print("oneRowX:"+str(oneRowX))

newRowX = oneRowX

newRowX[0] =1

newRowX[2] =0

print("newRowX: "+str(newRowX))

predictedY = clf.predict(newRowX)

print("predictY: "+str(predictedY))

scikit-learn决策树的python实现以及作图的更多相关文章

Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
用python的turtle作图（二）动画吃豆人
本文是用python的turtle作图的第二篇,通过这个例子可以了解动画的原理,用python自带的turtle库制作一些小动画. 1.问题描述在上一篇"用python的turtle作图( ...
Python第三方库（模块）"scikit learn"以及其他库的安装
scikit-learn是一个用于机器学习的 Python 模块. 其主页:http://scikit-learn.org/stable/. GitHub地址: https://github.com/ ...
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...
决策树及其python实现
剪枝由于悲观错误剪枝 PEP (Pessimistic Error Pruning).代价-复杂度剪枝 CCP (Cost-Complexity Pruning).基于错误剪枝 EBP (Error ...

随机推荐

tr，td高度不生效
功能:表格内容较长,但是页面高度有限,超出显示滚动条阻碍:给tr或者td加高度都不生效,不显示滚动条解决方案:td中加div,设置高度和内容溢出时的样式 <table border='1' ...
在MyBatis中查询数据、涉及多参数的数据访问操作、插入数据时获取数据自增长的id、关联表查询操作、动态SQL、关于配置MyBatis映射没有代码提示的解决方案
1. 单元测试在单元测试中,每个测试方法都需要执行相同的前置代码和后置代码,则可以自定义2个方法,分别在这2个方法中执行前置代码和后置代码,并为这2个方法添加@Before和@After注解,然后, ...
redis事务报错No ongoing transaction. Did you forget to call multi?
场景:需要存两条数据到redis中,并且两条要么都存要么都不存,需要事务来控制 Spring Data Redis的RedisTemplate提供了MULTI.EXEC命令进行封装,远看可以解决问题, ...
ios 9 http
记录: <key>NSAppTransportSecurity</key> <dict> <key>NSAllowsArbitraryLo ...
编译器错误消息: CS0016: 未能写入输出文件"c:\Windows\Microsoft.NET\Framework
解决办法: 原因是由于系统目录下的Temp目录无相应的权限所致,具体操作如下: 来到C:/Windows目录,修改temp文件夹的属性. 在安全页设置IIS-IUSRS的权限,赋予修改.读取.写入等权 ...
Listview点击已读使用getBadgeView标示
重:每个ListItem是属于ListItem自己的,不能够放到ViewHolder中,而是数据源每项的. @Override public View getView(int position, Vi ...
[IIS] 配置PHP的过程与坑
* 32位与64位程序的兼容性问题如果64位的IIS内的处理程序需要使用32位程序或者扩展,必须在ApplicationPool里面的高级设置里,将AppPool设置为允许32位.否则32位的程序将 ...
[控件] CircleView
CircleView 效果图: 源码: // // CircleView.h // YXMWeather // // Created by XianMingYou on 15/2/17. // Cop ...
Linux通过docker安装运行酷Q--用QQ骰子君进行跑团
Linux通过docker安装运行酷Q 文:铁乐与猫需求:和小伙伴周末进行愉快的TRPG跑团,需要在QQ讨论组上加了qq小号后,将qq小号用酷Q配合投骰的应用变成骰子君. 限制:我个人的云计算服务器 ...
Docker 命令总结
1 启动镜像 docker run -i -t centos /bin/bash

scikit-learn决策树的python实现以及作图

decsion tree（决策树）

ID3

决策树的优点缺点

决策树程序

scikit-learn决策树的python实现以及作图的更多相关文章

随机推荐

热门专题