一:交叉验证(crossvalidation)(附实验的三种方法)方法简单介绍  



(1) 定义:交叉验证(Cross-validation)主要用于建模应用中,比如PCR(Principal Component Regression) 、PLS(Partial
least squares regression)回归建模中。在给定的建模样本中。拿出大部分样本进行建模型。留小部分样本用刚建立的模型进行预报。并求这小部分样本的预报误差。记录它们的平方加和。这个过程一直进行,直到全部的样本都被预报了一次并且仅被预报一次。

把每一个样本的预报误差平方加和。称为PRESS(predicted Error Sum of Squares)。【来自wikipidia:https://zh.wikipedia.org/wiki/%E4%BA%A4%E5%8F%89%E9%A9%97%E8%AD%89#K-fold_cross-validation】

(2)分类:

交叉验证一般分为三类:double-fold CV即常常所说的2折交叉。10-fold交叉和LOO(leaveone
out)CV即留一法交叉。

2折:将原始数据集DataSet均分为两份:一份作为训练集,即trainingSet。一份作为測试集,即testingSet,然后用训练集去做训练,用測试集去验证;之后再将训练集作为測试集,測试集作为训练集进行迭代一次,将两次所得的误差经行处理作为整体数据的预測误差。

(注:这里强调一点,就是数据集一定要均分为两份,理由是:作为训练集。数据量一定要不小于測试集,所以在迭代的过程中,使得数据不出现错误情况。必须均分。)

K-折:(在这里说下K-折)是在将数据集分成K个子集,K个子集中得一个作为測试集,而其余的K-1个数据集作为训练集,最后对K个数据子集的错误计算均值,K次迭代验证是对监督学习算法的结果进行评估的方法。数据集的划分一般採用等均分或者随机划分。

LOO:这种方法是K折的一种特列。就是把数据分为N份,事实上每一份都是一个样本,这样迭代N次,计算最后的误差来作为预測误差。

(3) 度量方法:在以上的交叉验证的最后都提到了数据误差,由于没验证一次都有一次数据误差,经行K折验证,进行迭代K次,这次误差的处理也有不同的方法,也就是度量方法,比方你取平均值ME,或者方差等都是能够的。还有平均标准误差等,都能够作为最后的验证误差。

(4) 以下是3-fold cross validation

二、实验数据处理方法

(1) 验证:是指把数据分为两部分。一部分作为训练集。即trainingSet,一部分为測试集,即testingSet,一般前者占数据的70%,后者占数据的30%,用训练集来进行训练,用測试集来进行检验,将最后的误差作为整体预測误差。

(注:在这里大家要注意与2折交叉验证的差别。主要在数据集的分和检验上)

(2)交叉验证:在这里就不叙述了。就是利用交叉验证的结果即作为參数选择的标准,同一时候也作为模型择优的标准。

(3) 实验三【来自机器学习导论】这里首先将数据分为两部分,一部分作为训练集,一部分作为測试集,用训练集做交叉验证选择最优參数,用測试集来选择最优模型。

当然最后的误差也是有測试集来作为预測误差。

以上是三种实验处理的方法,纠正哪种方法好,都不能做什么评论。仅仅能说适合你的胃口,或者你专业的胃口,或者看客的胃口……

大数据处理之道(实验方法<二>)的更多相关文章

  1. 大数据处理之道(十分钟学会Python)

    一:python 简介 (1)Python的由来 Python(英语发音:/ˈpaɪθən/), 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个 ...

  2. 大数据处理之道 (htmlparser获取数据<一>)

    一:简单介绍 (1)HTML Parser是一个用于解析Html的Java的库.可採用线性或嵌套两种方式.主要用于网页的转换或提取,他有一些特性:过滤器filter,遍历器visitors,通常的标签 ...

  3. SQL*Loader实验笔记【二】

      所有SQL*Loader实验笔记 实验案例总结(1-7):     SQL*Loader实验笔记[一] 实验案例总结(8-13):   SQL*Loader实验笔记[二] 实验案例总结(14-19 ...

  4. [转载] 一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

    原文: http://www.36dsj.com/archives/25042 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务 ...

  5. 《Spark大数据处理:技术、应用与性能优化 》

    基本信息 作者: 高彦杰 丛书名:大数据技术丛书 出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月 开本:16开 页码:255 ...

  6. 大数据处理框架之Strom: Storm----helloword

    大数据处理框架之Strom: Storm----helloword Storm按照设计好的拓扑流程运转,所以写代码之前要先设计好拓扑图.这里写一个简单的拓扑: 第一步:创建一个拓扑类含有main方法的 ...

  7. 大数据处理框架之Strom:认识storm

    Storm是分布式实时计算系统,用于数据的实时分析.持续计算,分布式RPC等. (备注:5种常见的大数据处理框架:· 仅批处理框架:Apache Hadoop:· 仅流处理框架:Apache Stor ...

  8. 一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

    作者:大数据女神-诺蓝(微信公号:dashujunvshen).本文是36大数据专稿,转载必须标明来源36大数据. 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要 ...

  9. Spark与Flink大数据处理引擎对比分析!

    大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop.Storm,还是后来的Spark.Flink.然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能 ...

随机推荐

  1. 【转】linux下passwd命令设置修改用户密码

    1.passwd 简单说明: 我们已经学会如何添加用户了,所以我们还要学习设置或修改用户的密码:passwd命令的用法也很多,我们只选如下的几个参数加以说明:想了解更多,请参考man passwd或p ...

  2. Kafka的3节点集群详细启动步骤(Zookeeper是外装)

    首先,声明,kafka集群是搭建在hadoop1.hadoop2和hadoop3机器上. kafka_2.10-0.8.1.1.tgz的1或3节点集群的下载.安装和配置(图文详细教程)绝对干货 如下分 ...

  3. python基础篇(一)-------- 字符串的操作

    1.字符串的常用操作: 已知字符串:str = "hello world zhangsan and zhangsan" 1.字符串的长度:len(str) 2.查看字符串的索引值: ...

  4. linux使用mount命令挂载、umount命令取消挂载

    一.mount挂载目录方式: mount 挂载目录 磁盘目录 二.umout取消挂载目录方式: 1.umout 磁盘目录 2.umout 挂载目录 3.umout 磁盘目录 挂载目录 如下图

  5. oracle 入门笔记--v$sql和v$sqlarea视图(转载)

    转载于作者:dbtan 原文链接:http://www.dbtan.com/2009/12/vsql-and-vsqlarea-view.html v$sql和v$sqlarea视图: 上文提到,v$ ...

  6. eclipse常用设置之自动格式化

    Eclipse 保存文件时自动格式化代码   很多同学不知道Eclipse有个很有用的功能,就是自动格式源代码的功能,一般大家都是直接Ctrl+Shift+F手动格式化,多浪费时间. 其实Eclips ...

  7. UVALive 3026(KMP算法)

    UVALive 3026     KMP中next[]数组的应用: 题意:给出一个字符串,问该字符串每个前缀首字母的位置和该前缀的周期. 思路:裸KMP直接上就是了: 设该字符串为str,str字符串 ...

  8. 安装RHEL7红帽操作系统

    1.单击“开启此虚拟机”启动RHEL 7系统安装. 开启虚拟机 2.通过键盘方向键选择Install Red Hat Enterprise Linux 7.0选项,然后回车,开始安装RHEL7操作系统 ...

  9. hdu2012 素数判定【C++】

    素数判定 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)Total Submis ...

  10. padding填充与box-sizing: border-box配合使用

    不管伸缩盒还是浮动盒子,只要使用到padding,就必须使用 box-sizing: border-box;     有图片的时候,需摇与其他文字对齐的时候,在图片的外层加个:vertical-ali ...