Python sklearn拆分训练集、测试集及预测导出评分决策树

机器学习入门

　（注：无基础可快速入门，想提高准确率还得多下功夫，文中各名词不做过多解释）

Python语言、pandas包、sklearn包建议在Jupyter环境操作

操作步骤

1.pandas包加载给机器学习训练的表格

　　依照机器学习领域的习惯，我们把特征叫做X，目标叫做y，通常一列数据最后一列作为目标列

2.映射数据列为整型(Python做决策树需要整型或者实数)

3.拆分训练集、测试集

4.sklearn创建训练模型、测试模型准确率等

5.预测结果导出

算法

1.PCA算法
2.LDA算法
3.线性回归
4.逻辑回归
5.朴素贝叶斯
6.决策树
7.SVM
8.神经网络
9.KNN算法

import pandas as pd

import matplotlib.pyplot as plt

X = pd.read_csv('x_train.csv')

X = X.drop('target', axis=1)

y = df.target

#print(X.shape,y.head(10),y.shape,y.head(10))

#处理转换为整型（存在优化空间）

from sklearn.preprocessing import LabelEncoder

from collections import defaultdict

d = defaultdict(LabelEncoder)

X_train = X.apply(lambda x: d[x.name].fit_transform(x))

#X_train.tail(10)

#拆分训练集、测试集

from sklearn.cross_validation import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_train, y,test_size=0.25, random_state=7)

#print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

#决策树

from sklearn import tree

clf = tree.DecisionTreeClassifier(max_depth=3)

clf = clf.fit(X_train, y_train)

#acc正确率

from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, clf.predict(X_test)))

#F1 score

#from sklearn import metrics

#predict_labels = clf.predict(X_test)

#F1_scores = metrics.f1_score(y_test, predict_labels, pos_label=0)

#print(F1_scores)

#预测

X_pred = pd.read_csv('x_test')

dx = defaultdict(LabelEncoder)

X_pred = X_pred.apply(lambda x: dx[x.name].fit_transform(x))

pred_list = clf.predict(X_pred)

pred_proba_list = clf.predict_proba(X_pred)

print(pred_list)

print(pred_proba_list)

print(type(pred_list),type(pred_proba_list))

tag_list =pred_list.tolist()

proba_list = []

for i in pred_proba_list.tolist():

    proba_list.append(i[1])

X_pred["Proba"] = proba_list

X_pred["Tag"] = tag_list

X_pred.head(10)

X_pred.to_csv('./predict.csv',index=False,encoding='utf-8')

#from sklearn.svm import SVC

## 模型训练

#clf = SVC(kernel='linear')

#clf.fit(X_train, y_train)

## 模型存储

#joblib.dump(clf, './model/svm_mode.pkl')

#

Python sklearn拆分训练集、测试集及预测导出评分决策树的更多相关文章

Python数据预处理—训练集和测试集数据划分
使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...
机器学习基础：(Python)训练集测试集分割与交叉验证
在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常 ...
sklearn获得某个参数的不同取值在训练集和测试集上的表现的曲线刻画
from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y ...
sklearn学习3----模型选择和评估（1）训练集和测试集的切分
来自链接:https://blog.csdn.net/zahuopuboss/article/details/54948181 1.sklearn.model_selection.train_test ...
sklearn——train_test_split 随机划分训练集和测试集
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http: ...
机器学习入门06 - 训练集和测试集 (Training and Test Sets)
原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 测试集是用于评估根据训练 ...
Sklearn-train_test_split随机划分训练集和测试集
klearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/gener ...
十折交叉验证10-fold cross validation, 数据集划分训练集验证集测试集
机器学习数据挖掘数据集划分训练集验证集测试集 Q:如何将数据集划分为测试数据集和训练数据集? A:three ways: 1.像sklearn一样,提供一个将数据集切分成训练集和测试集的函数 ...
[DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习使用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.1 训练/开发/测试集对于一个数据集而言,可以将一个数据集分为三个部分,一部分作为训练集,一部分作为简单交叉验证集(dev)有时候也成为验 ...

随机推荐

NOI 2019 AFO 记
Text 真的退役了... 非常抱歉这篇文章暂时咕掉了
jQuery Validate 验证成功时的提示信息
大多数时候我们使用validate进行前台验证的时候,都是验证错误的时候给出提示信息,最近在做一个项目的时候,想这验证成功后给出一个验证成功的提示.于是在网上找了一些资料. <!doctype ...
六、smarty-缓存控制前的页面静态化原理
页面静态化可以实现优化服务,对大流量访问网站非常至关重要为什么页面静态化, 1. 不去执行数据库连接 2. 不去执行SQL语句设置按时间更新, 1. 按时间更新,如果缓存文件设置1小时如下 ...
jquery 登录判断遇到的小问题
1.碰到的第一个问题是: 往body上加载check,用load不管用,可以用ready试试. 2.原来jquery里获取用的val(),我一直以为是value()... 尴尬 3.两个标志位是为了判 ...
mysql的双主模式配置
第一台:192.168.0.160 第二台:192.168.0.170 主从配置,第一步:192.168.0.160 作为主数据库,192.168.0.170作为从数据库,配置如下: ======== ...
浏览器端-W3School-JavaScript：JavaScript String 对象
ylbtech-浏览器端-W3School-JavaScript:JavaScript String 对象 1.返回顶部 1. JavaScript String 对象 String 对象 Strin ...
PowerBuilder -- 连接sqlite
1.注册表修改,将以下内容保存为.reg文件,然后双击执行,注:测试机器为win10 64位系统 Windows Registry Editor Version 5.00 [HKEY_LOCAL_MA ...
flask包request搭建微服务（模拟测试桩）
from flask import Flask,requestimport json app=Flask(__name__)@app.route('/outsideWeb/integration/qr ...
Linux_Shell基础
目录目录查看系统中可以使用的shell 重定向管道变量 export指令与echo的不同算术运算符用户个性化系统变量文件通配符引号文件比较运算符查看系统中可以使用的shell ca ...
python学习笔记：（十四）面向对象
1.类(class): 用来描述具有相同的属性和方法的对象的集合.它定义了该集合中每个对象所共有的属性和方法 2.类变量: 类变量在整个实例化的对象中是公用的.类变量定义在类中且在函数体之外.类变量通 ...

Python sklearn拆分训练集、测试集及预测导出评分 决策树

Python sklearn拆分训练集、测试集及预测导出评分 决策树的更多相关文章

随机推荐

热门专题

Python sklearn拆分训练集、测试集及预测导出评分决策树

Python sklearn拆分训练集、测试集及预测导出评分决策树的更多相关文章