UDA机器学习基础—交叉验证

交叉验证的目的是为了有在训练集中有更多的数据点，以获得最佳的学习效果，同时也希望有跟多的测试集数据来获得最佳验证。交叉验证的要点是将训练数据平分到k个容器中，在k折交叉验证中，将运行k次单独的试验，每一次试验中，你将挑选k个训练集中的一个作为验证集，剩下k-1个作为训练集，训练你的模型，用测试集测试你的模型。这样运行k次，有十个不同的测试集，将十个测试集的表现平均，就是将这k次试验结果取平均。这样你就差不多用了全部数据去训练，也用全部数据去测试。

#!/usr/bin/python

"""

    Starter code for the validation mini-project.

    The first step toward building your POI identifier!

    Start by loading/formatting the data

    After that, it's not our code anymore--it's yours!

"""

import pickle

import sys

sys.path.append("../tools/")

from feature_format import featureFormat, targetFeatureSplit

from sklearn.metrics import accuracy_score

from sklearn.cross_validation import train_test_split

data_dict = pickle.load(open("../final_project/final_project_dataset.pkl", "r") )

### first element is our labels, any added elements are predictor

### features. Keep this the same for the mini-project, but you'll

### have a different feature list when you do the final project.

features_list = ["poi", "salary"]

data = featureFormat(data_dict, features_list)

labels, features = targetFeatureSplit(data)

features_train,features_test,labels_train,labels_test=train_test_split(features,labels,test_size=0.3,random_state=42)

from sklearn.tree import DecisionTreeClassifier

dlf=DecisionTreeClassifier()

dlf.fit(features_train ,labels_train)

f=dlf.predict(features_test)

print accuracy_score(f,labels_test)

### it's all yours from here forward!

UDA机器学习基础—交叉验证的更多相关文章

机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall_score(召回率)
1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, tes ...
机器学习- Sklearn (交叉验证和Pipeline)
前面一节咱们已经介绍了决策树的原理已经在sklearn中的应用.那么这里还有两个数据处理和sklearn应用中的小知识点咱们还没有讲,但是在实践中却会经常要用到的,那就是交叉验证cross_valid ...
UDA机器学习基础—评估指标
这里举例说明混淆矩阵精确率召回率 F1
UDA机器学习基础—误差原因
1.模型误差产生的原因 (1)模型无法表示基本数据的复杂度,而造成偏差. (2)因模型对训练它所用到的数据过度敏感造成的方差. 2.由偏差造成的误差--准确率和欠拟合有足够数据表示模型,但是由于模型 ...
UDA机器学习基础—异常值-安然数据处理
#!/usr/bin/python import pickle import sys import matplotlib.pyplot sys.path.append("../tools/& ...
机器学习基础：(Python)训练集测试集分割与交叉验证
在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常 ...
机器学习数据量不足问题----1 做好特征工程 2 不要用太多的特征 3 做好交叉验证使用线性svm
来自:https://www.zhihu.com/question/35649122 其实这里所说的数据量不足,可以换一种方式去理解:在维度高的情况下,数据相对少.举一个特例,比如只有一维,和1万个数 ...
机器学习——交叉验证，GridSearchCV，岭回归
0.交叉验证交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set) ...
机器学习中的train valid test以及交叉验证
转自 https://www.cnblogs.com/rainsoul/p/6373385.html 在以前的网络训练中,有关于验证集一直比较疑惑,在一些机器学习的教程中,都会提到,将数据集分为三部分 ...

随机推荐

nyoj 公约数和公倍数
公约数和公倍数时间限制:1000 ms | 内存限制:65535 KB 难度:1 描述小明被一个问题给难住了,现在需要你帮帮忙.问题是:给出两个正整数,求出它们的最大公约数和最小公倍数. ...
JAVA_SE基础——63.String类的常用方法
获取方法int length() 获取字符串的长度char charAt(int index) 获取特定位置的字符 (角标越界)int indexOf(String str) 查找子串第一次出现的索 ...
JQ 上传文件(单个,多个,分片)
最原始的方式: 前端代码: <div> <span>最原始的方式</span><br /> <span>条件1:必须是 post 方式< ...
新概念英语（1-97）A Small Blue Case
Lesson 97 A small blue case 一只蓝色的小箱子 Listen to the tape then answer this question. Does Mr. Hall get ...
Go语言的核心Routine-Channel
前言 Go语言通过routine,提供了并发编程的支持. Routine特性 (1) goroutine是Go语言运行库的功能,不是操作系统提供的功能,goroutine不是用线程实现的. 例:启动一 ...
leetcode算法： Find Largest Value in Each Tree Row
'''You need to find the largest value in each row of a binary tree.Example:Input: 1 / \ 3 2 / \ \ 5 ...
MYSQL 面试查询系列问题
表结构: `student`('id'.'name'.'code'.'age'.'sex')学生表 `teacher`('id'.'name')教师表 `course`('id'.'name'.'te ...
Python基础--函数的定义和调用
一.函数的作用: 提高代码的可读性,减少代码的冗余,方便调用和修改,组织结构清晰二.函数的定义:函数遵循先定义后调用的原则 1.无参函数 def funcname(): #def 是关键字,后跟函数 ...
HIve:beeline终端上在输错hive语句时，无论 Backspace还是delete 都删除不掉错误的语句，没有办法退格
通过SecureCRT工具连上linux后,通过beeline连接上hive后,在输错hive语句时,无论 Backspace还是delete 都删除不掉错误的语句,没有办法退格. 解决方案: 第一步 ...
POJ-3169 Layout---差分约束系统+Bellman
题目链接: https://vjudge.net/problem/POJ-3169 题目大意: 一些母牛按序号排成一条直线.有两种要求,A和B距离不得超过X,还有一种是C和D距离不得少于Y,问可能的最 ...

UDA机器学习基础—交叉验证

UDA机器学习基础—交叉验证的更多相关文章

随机推荐

热门专题