scikit-learn机器学习(四)使用决策树做分类

我们使用决策树来创建一个能屏蔽网页横幅广告的软件。

已知图片的数据判断它属于广告还是文章内容。

数据来自 http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements

其中包含3279张图片的数据，该数据集中的类的比例是不均衡的，459张图片是广告，零位2820张图片是文章内容。

首先导入数据，数据预处理

# -*- coding: utf-8 -*-

import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

from sklearn.metrics import classification_report

from sklearn.pipeline import Pipeline

from sklearn.model_selection import GridSearchCV

df = pd.read_csv('ad-dataset/ad.data',header=None)

variable_col = set(df.columns.values) #共有几列

variable_col.remove(len(df.columns.values)-1) #最后一列是标签

label_col= df[len(df.columns.values)-1] #把标签列取出来

y = [1 if e=='ad.' else 0 for e in label_col] #把标签转为数值

X = df[list(variable_col)].copy() #把前面的所有列作为X

X.replace(to_replace=' *?',value=-1,regex=True,inplace=True) #数据中的缺失值是 *?,我们用-1替换缺失值

X_train,X_test,y_train,y_test = train_test_split(X,y)

建立决策树，网格搜索微调模型

# In[1] 网格搜索微调模型

pipeline = Pipeline([

        ('clf',DecisionTreeClassifier(criterion='entropy'))

        ])

parameters={

        'clf__max_depth':(150,155,160),

        'clf__min_samples_split':(2,3),

        'clf__min_samples_leaf':(1,2,3)

        }

#GridSearchCV 用于系统地遍历多种参数组合，通过交叉验证确定最佳效果参数。

grid_search = GridSearchCV(pipeline,parameters,n_jobs=-1,verbose=-1,scoring='f1')

grid_search.fit(X_train,y_train)

# 获取搜索到的最优参数

best_parameters = grid_search.best_estimator_.get_params()

print("最好的F1值为：",grid_search.best_score_)

print('最好的参数为：')

for param_name in sorted(parameters.keys()):

    print('t%s: %r' % (param_name,best_parameters[param_name]))

最好的F1值为： 0.8753026365252053

最好的参数为：

tclf__max_depth: 160

tclf__min_samples_leaf: 1

tclf__min_samples_split: 3

评价模型

# In[2] 输出预测结果并评价

predictions = grid_search.predict(X_test)

print(classification_report(y_test,predictions))

              precision    recall  f1-score   support

           0       0.98      0.99      0.98       695

           1       0.93      0.89      0.91       125

   micro avg       0.97      0.97      0.97       820

   macro avg       0.95      0.94      0.94       820

weighted avg       0.97      0.97      0.97       820

scikit-learn机器学习(四)使用决策树做分类的更多相关文章

scikit-learn机器学习(四)使用决策树做分类,并画出决策树,随机森林对比
数据来自 UCI 数据集匹马印第安人糖尿病数据集载入数据 # -*- coding: utf-8 -*- import pandas as pd import matplotlib matplot ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
Python机器学习笔记使用sklearn做特征工程和数据挖掘
特征处理是特征工程的核心部分,特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样式确定的步骤,更多的是工程上的经验和权衡,因此没有统一的方法,但是sklearn提供了较为完整的特征处 ...
基于机器学习和TFIDF的情感分类算法，详解自然语言处理
摘要:这篇文章将详细讲解自然语言处理过程,基于机器学习和TFIDF的情感分类算法,并进行了各种分类算法(SVM.RF.LR.Boosting)对比本文分享自华为云社区<[Python人工智能] ...
javascript实现朴素贝叶斯分类与决策树ID3分类
今年毕业时的毕设是有关大数据及机器学习的题目.因为那个时间已经步入前端的行业自然选择使用JavaScript来实现其中具体的算法.虽然JavaScript不是做大数据处理的最佳语言,相比还没有优势,但 ...
CART决策树（分类回归树）分析及应用建模
一.CART决策树模型概述(Classification And Regression Trees) 决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节 ...

随机推荐

django 新项目
1.创建虚拟环境 mkvirtualenv - p python3 2.pycharm : 在pycharm中新建项目, 取名.添加虚拟机上的虚拟环境
ArrayList 和 LinkedList 的区别是什么？（未完成）
ArrayList 和 LinkedList 的区别是什么?(未完成)
大数据之路week04--day05（java 正则表达式）
1.1 正则表达式 1.2 简介 Regular Expression 正则表达式常简称为: regex.正则正则表达式是一整套约束字符串的语法规则,独立于任何编程语言正则表达式方便.灵 ...
onbeforeunload、onpagehide、onunload、onload、onpageshow的正确执行顺序
一.Chrome支持onbeforeunload.onpagehide.onunload,只是在这些方法执行的时候alert,console这些方法已经被注销了. 二.浏览器跳转.关闭.刷新时都按a, ...
pip报错:解决pkg_resources.DistributionNotFound: The 'pip==7.1.0' distribution was not found and is required by the application
如果pip安装后提示依然没有pip命令,需在在添加环境变量 # vim /etc/profile 在文档最后,添加: export PATH="/usr/local/python2.7/bi ...
mysql 执行sql语句执行问题
SQL是一套标准,全称结构化查询语言,是用来完成和数据库之间的通信的编程语言,SQL语言是脚本语言,直接运行在数据库上.同时,SQL语句与数据在数据库上的存储方式无关,只是不同的数据库对于同一条SQL ...
sql server 复习笔记2
主键约束可以通过定义primary key 约束来定义主键, 用于强制表的实体化完整性,一个表只能有一个主键约束, 并且primary key 约束中的列不能为空值,由于primary key 约束 ...
MySQL Group Replication-MGR集群简介
简介 MySQL Group Replication(简称MGR)字面意思是mysql组复制的意思,但其实他是一个高可用的集群架构,暂时只支持mysql5.7和mysql8.0版本. 是MySQL官方 ...
049_指定目录路径,脚本自动将该目录使用 tar 命令打包备份到/data 目录
#!/bin/bash[ ! -d /data ] && mkdir /data #确保有此目录[ -z $1 ] && exit #为空不需要打包if [ -d ...
read，write，lseek
转自 http://blog.csdn.net/todd911/article/details/11237627 1.read 调用read函数从文件去读数据,函数定义如下: #include < ...

scikit-learn机器学习(四)使用决策树做分类

scikit-learn机器学习(四)使用决策树做分类的更多相关文章

随机推荐

热门专题