Weka数据预处理(一)

对于数据挖掘而言，我们往往仅关注实质性的挖掘算法，如分类、聚类、关联规则等，而忽视待挖掘数据的质量，但是高质量的数据才能产生高质量的挖掘结果，否则只有"Garbage in garbage out"了。保证待数据数据质量的重要一步就是数据预处理（Data Pre-Processing），在实际操作中，数据准备阶段往往能占用整个挖掘过程6~8成的时间。本文就weka工具中的数据预处理方法作一下介绍。

Weka 主要支持一种ARFF格式的数据，含有很多数据过滤方法。关于ARFF格式文件，可以在此处了解详情。

Weka的数据预处理又叫数据过滤，他们可以在weka.filters中找到。根据过滤算法的性质，可以分为有监督的（SupervisedFilter）和无监督的（UnsupervisedFilter）。对于前者，过滤器需要设置一个类属性，要考虑数据集中类的属性及其分布，以确定最佳的容器的数量和规模；而后者类的属性可以不存在。同时，这些过滤算法又可归结为基于属性的（attribute）和基于实例的(instance)。基于属性的方法主要是用于处理列，例如，添加或删除列；而基于实例的方法主要是用于处理行，例如，添加或删除行。

数据过滤主要解决以下问题（老生常谈的）：

数据的缺失值处理、标准化、规范化和离散化处理。

数据的缺失值处理：weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性，用平均值代替缺失值，对于nominal属性，用它的mode(出现最多的值)来代替缺失值。

标准化(standardize)：类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。

规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值，类属性除外。结果值默认在区间[0,1]，但是利用缩放和平移参数，我们能将数值属性值规范到任何区间。如：但scale=2.0，translation=-1.0时，你能将属性值规范到区间[-1,+1]。

离散化(discretize):类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化，用来离散数据集中的一些数值属性到分类属性。

下文将详细介绍一下Weka数据过滤类。

Weka数据预处理(二)

首先来看一下，有关属性—有监督过滤器。

AddClassification

该过滤器使用给定的分类器对原始数据添加分类标签，并给出类的分布以及关于原始数据集的错误分类标记。

其实就是利用分类算法对原始数据集进行预分类，其结果与在classify阶段得到的结果基本一致，同样包括分类的正确率等信息。

AttributeSelection

该过滤器，用于进行属性选择。根据给定的挖掘任务，利用合适的评估器，选择最有利于当前挖掘任务的属性。

ClassOrder

该过滤器用于改变的数据对象顺序，适用于binary对象和nominal对象。

Discretize

离散化过滤器，用于将连续属性离散化。使用频率非常高的一个过滤器，在实际应用当中，离散化也是很常见的数据预处理步骤。

NorminalToBinary

标称值转化为二分值。举个例子吧，看官请看下图，一目了然。

Nominal value

Binary value

下面谈到的是实例—有监督过滤器

Resample

让人又爱又恨的抽样过滤器。利用放回或者不放回方法抽取特定大小的随机样本。

抽样方法有很多种，基于水库的、链式抽样、分层抽样等等。

SMOTE

同样是抽样过滤器，叫综合少数过采样技术。他要求被采样的原始数据集必须全部存储在内存中。详细内容可以参考Synthetic Minority Over-sampling Technique。

SpreadSubsamp

该分类器需要得知类标是属性中的哪一个.当获得了类标之后，他会计算出类标属性的分布，同时，按照参数M，指定类标分布的最大差距，比如当给出参数W时，调整数据实例的权重。

注意，M参数设定值为l时，那么就认为是均匀分布，当设定为0的时候，那么不进行类标分布的拓展(SPread);如果设定大于l，那么这个值就表示了分布最大的类标属性（类标属性最为常见的值）和分布最小的属性（类标属性最为稀少的值）的分布的比例。

StratfiedRemoveFold

该过滤器简单的使用n重交叉验证的方法，将数据集进行分割，并返回按照参数指定的子集。

关于无监督方法的过滤器，可以参考：http://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html

参考：

http://www.pluscn.net/?p=1394

http://www.pluscn.net/?p=1400

输入数据与ARFF文件--数据挖掘学习和weka使用（二）

数据预处理和weka.filters的使用--数据挖掘学习和weka使用（三）

weka数据预处理的更多相关文章

WEKA中的数据预处理
数据预处理包括数据的缺失值处理.标准化.规范化和离散化处理. 数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues. 对于 ...
借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率
原文链接简介为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...
R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...
Scikit-Learn模块学习笔记——数据预处理模块preprocessing
preprocessing 模块提供了数据预处理函数和预处理类,预处理类主要是为了方便添加到 pipeline 过程中. 数据标准化标准化预处理函数: preprocessing.scale(X, ...
Deep Learning 11_深度学习UFLDL教程：数据预处理（斯坦福大学深度学习教程）
理论知识:UFLDL数据预处理和http://www.cnblogs.com/tornadomeet/archive/2013/04/20/3033149.html 数据预处理是深度学习中非常重要的一 ...
R语言--数据预处理
一.日期时间.字符串的处理日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date( ...
对数据预处理的一点理解[ZZ]
数据预处理没有统一的标准,只能说是根据不同类型的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,这里面经 ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
sklearn数据预处理－scale
对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...

随机推荐

Visual Studio快捷键不能使用解决办法
环境: Visual Studio 2010,windows 7 使用Visual Studio查找变量或方法时常用到[定位到]功能但该功能的快捷键却不能使用,解决办法如下所示: 1.工具--> ...
去除字符串中空格的方法（2016.1.12P141-2）
// forif来处理空格 // 方法一 String str = " ww sse rr"; String str1;// 定义一个中间变量 String str2 = &quo ...
servlet等一些砸碎的
1:servlet 中的synchronized 关键字能保证一次只有一个线程 2:servlet的线程问题只有在大量的方位时 3:AutoCloseable接口:资源自动关闭 4:EntityUti ...
②springMVC入门
1 1.1 需求以案例作为驱动. springmvc和mybaits使用一个案例(商品订单管理). 功能需求:商品列表查询 1.2 环境准备数据库环境:mysql5.1
vbox共享文件挂载
环境:主机操作系统是Windows 7,虚拟机是open suse 12.0,虚拟机是VirtualBox 4.2.1. 1. 安装增强功能包(Guest Additions) 安装好open sus ...
.Net搭建的WebService测试页使用TextArea大文本框方便调试
用.Net搭建的WebService,系统默认提供了测试页,供大家输入参数进行测试.但因为参数输入框使用的是单行input控件,导致无法输入换行文本,使得有些参数(如换行的xml)无法输入,及其不便. ...
MyBatis代码自动生成
MyBatis的代码自动生成的功能,由于MyBatis属于一种半自动的ORM框架,所以主要的工作就是配置Mapping映射文件,但是由于手写映射文件很容易出错,所以可利用MyBatis生成器自动生成实 ...
Android源码剖析之Framework层实战版（Ams管理Activity启动）
本文来自http://blog.csdn.net/liuxian13183/ ,引用必须注明出处! 讲到实战,就不得不拿两个例子来说明,本篇想拿的是应用最广泛的两个:Ams和Wms,一个管理activ ...
关于pom.xml的一些问题的理解
最近在pom上出了一些问题,搞了一天才理解了一些问题,记录一下. 当在覆盖本地repository包之后,pom.xml上面出现了一个x. 当mvn->update project之后,还是有许 ...
设计模式：命令模式（Command）
定义:将一个请求封装为一个对象,从而使你可用不同的请求对客户进行参数化:对请求排列或者记录请求日志,以及支持可撤销的操作. 结构图: Command类: abstract class Comma ...

weka数据预处理

输入数据与ARFF文件--数据挖掘学习和weka使用（二）

数据预处理和weka.filters的使用--数据挖掘学习和weka使用（三）

weka数据预处理的更多相关文章

随机推荐

热门专题