Python sklearn拆分训练集、测试集及预测导出评分决策树

机器学习入门

　（注：无基础可快速入门，想提高准确率还得多下功夫，文中各名词不做过多解释）

Python语言、pandas包、sklearn包建议在Jupyter环境操作

操作步骤

1.pandas包加载给机器学习训练的表格

　　依照机器学习领域的习惯，我们把特征叫做X，目标叫做y，通常一列数据最后一列作为目标列

2.映射数据列为整型(Python做决策树需要整型或者实数)

3.拆分训练集、测试集

4.sklearn创建训练模型、测试模型准确率等

5.预测结果导出

算法

1.PCA算法
2.LDA算法
3.线性回归
4.逻辑回归
5.朴素贝叶斯
6.决策树
7.SVM
8.神经网络
9.KNN算法

import pandas as pd

import matplotlib.pyplot as plt

X = pd.read_csv('x_train.csv')

X = X.drop('target', axis=1)

y = df.target

#print(X.shape,y.head(10),y.shape,y.head(10))

#处理转换为整型（存在优化空间）

from sklearn.preprocessing import LabelEncoder

from collections import defaultdict

d = defaultdict(LabelEncoder)

X_train = X.apply(lambda x: d[x.name].fit_transform(x))

#X_train.tail(10)

#拆分训练集、测试集

from sklearn.cross_validation import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_train, y,test_size=0.25, random_state=7)

#print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

#决策树

from sklearn import tree

clf = tree.DecisionTreeClassifier(max_depth=3)

clf = clf.fit(X_train, y_train)

#acc正确率

from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, clf.predict(X_test)))

#F1 score

#from sklearn import metrics

#predict_labels = clf.predict(X_test)

#F1_scores = metrics.f1_score(y_test, predict_labels, pos_label=0)

#print(F1_scores)

#预测

X_pred = pd.read_csv('x_test')

dx = defaultdict(LabelEncoder)

X_pred = X_pred.apply(lambda x: dx[x.name].fit_transform(x))

pred_list = clf.predict(X_pred)

pred_proba_list = clf.predict_proba(X_pred)

print(pred_list)

print(pred_proba_list)

print(type(pred_list),type(pred_proba_list))

tag_list =pred_list.tolist()

proba_list = []

for i in pred_proba_list.tolist():

    proba_list.append(i[1])

X_pred["Proba"] = proba_list

X_pred["Tag"] = tag_list

X_pred.head(10)

X_pred.to_csv('./predict.csv',index=False,encoding='utf-8')

#from sklearn.svm import SVC

## 模型训练

#clf = SVC(kernel='linear')

#clf.fit(X_train, y_train)

## 模型存储

#joblib.dump(clf, './model/svm_mode.pkl')

#

Python sklearn拆分训练集、测试集及预测导出评分决策树的更多相关文章

Python数据预处理—训练集和测试集数据划分
使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...
机器学习基础：(Python)训练集测试集分割与交叉验证
在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常 ...
sklearn获得某个参数的不同取值在训练集和测试集上的表现的曲线刻画
from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y ...
sklearn学习3----模型选择和评估（1）训练集和测试集的切分
来自链接:https://blog.csdn.net/zahuopuboss/article/details/54948181 1.sklearn.model_selection.train_test ...
sklearn——train_test_split 随机划分训练集和测试集
sklearn——train_test_split 随机划分训练集和测试集 sklearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http: ...
机器学习入门06 - 训练集和测试集 (Training and Test Sets)
原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 测试集是用于评估根据训练 ...
Sklearn-train_test_split随机划分训练集和测试集
klearn.model_selection.train_test_split随机划分训练集和测试集官网文档:http://scikit-learn.org/stable/modules/gener ...
十折交叉验证10-fold cross validation, 数据集划分训练集验证集测试集
机器学习数据挖掘数据集划分训练集验证集测试集 Q:如何将数据集划分为测试数据集和训练数据集? A:three ways: 1.像sklearn一样,提供一个将数据集切分成训练集和测试集的函数 ...
[DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习使用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.1 训练/开发/测试集对于一个数据集而言,可以将一个数据集分为三个部分,一部分作为训练集,一部分作为简单交叉验证集(dev)有时候也成为验 ...

随机推荐

poj 3625 （最小生成树算法）
Building Roads Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 12203 Accepted: 3448 D ...
【杂题】[ARC070F] Honest Or Unkind【交互】
Description 这是一道交互题有A+B个人,编号从0~A+B-1,其中有A个人是诚实的,B个人是居心叵测的. 你想知道每个人是诚实的还是居心叵测的. 询问可以用二元组(i,j)表示,代表问编 ...
sql in条件超过1000字符的处理方法
private string getOracleSQLIn(string[] ids, string field) { int count = Math.Min(ids.Length, 1000); ...
Acwing：137. 雪花雪花雪花（Hash表）
有N片雪花,每片雪花由六个角组成,每个角都有长度. 第i片雪花六个角的长度从某个角开始顺时针依次记为ai,1,ai,2,…,ai,6ai,1,ai,2,…,ai,6. 因为雪花的形状是封闭的环形,所以 ...
mysql 将时间戳与日期时间的转换
from_unixtime()是MySQL里的时间函数 mysql>SELECT FROM_UNIXTIME( 1249488000, '%Y%m%d' ) ->20071120 mys ...
Gradle项目构建工具学习笔记（持续更新中。。。）
1.gradle的安装 1)从官网下载gradle,然后解压 2)在系统环境变量新建GRADLE_HOME 3)将%GRADLE_HOME%\bin加入PATH中 2.验证是否安装成功 gradle ...
怎样用 Bash 编程：语法和工具
让我们通过本系列文章来学习基本的 Bash 编程语法和工具,以及如何使用变量和控制运算符,这是三篇中的第一篇. Shell 是操作系统的命令解释器,其中 Bash 是我最喜欢的.每当用户或者系统管理员 ...
leetcode-easy-trees-Maximum Depth of Binary Tree
mycode 92.69% # Definition for a binary tree node. # class TreeNode(object): # def __init__(self, x ...
[Java]分解算术表达式二
源码: package com.hy; import java.io.BufferedReader; import java.io.IOException; import java.io.InputS ...
hibernate注意
1.设置id <id name="ID">  <generator class="ide ...

Python sklearn拆分训练集、测试集及预测导出评分 决策树

Python sklearn拆分训练集、测试集及预测导出评分 决策树的更多相关文章

随机推荐

热门专题

Python sklearn拆分训练集、测试集及预测导出评分决策树

Python sklearn拆分训练集、测试集及预测导出评分决策树的更多相关文章