通过weka.jar包来进行数据预处理

前言：注意首先要将weka.jar包加载到相应的路径中去。程序中的数据也是用的weka自带的数据。

扩展：eclipse添加jar包的操作方法：

打开eclipse ,在对应的工程下右击，选择Build Path ->选择Configure Build Path ->选择Libraries ->点击Add External JARs ->然后到你的jar包所在路径选择它。即可。

一、特征选择

package learning;

import weka.attributeSelection.ASEvaluation;

import weka.attributeSelection.InfoGainAttributeEval;

import weka.attributeSelection.Ranker;

import weka.core.Instances;

import weka.core.converters.ConverterUtils.DataSink;

import weka.core.converters.ConverterUtils.DataSource;

import weka.filters.Filter;

import weka.filters.supervised.attribute.AttributeSelection;

/**feature selection via weka

 *

 * @author wenbaoli

 *

 */

public class featureSelect {

	/**

	 *

	 * @param arg

	 */

	public static void main(String[] arg){

		try {

			System.out.println("++++++++++++Example3:Feature Selection Via Weka.+++++++++");

			System.out.println("Step1:load data...");

			String fn = "E:/weka/data/iris.arff";

			DataSource source = new DataSource(fn);

			Instances instances = source.getDataSet();

			System.out.println("Step2:feature selction...");

			featureSelect fs = new featureSelect();

			int k = 2;

			AttributeSelection as = new AttributeSelection();

			Ranker rank = new Ranker();

			rank.setThreshold(0.0);

			rank.setNumToSelect(k);

			ASEvaluation ae = new InfoGainAttributeEval();

			as.setEvaluator(ae);

			as.setSearch(rank);

			as.setInputFormat(instances);

			Instances reductData = Filter.useFilter(instances, as);

			System.out.println("Step3:保存规约后的数据到新文件...");

			DataSink.write("E:/weka/data/iris_reducted.arff", reductData);

			System.out.println("Finished...");

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

二、缺失值处理

package learning;

import weka.core.Instances;

import weka.core.converters.ConverterUtils.DataSink;

import weka.core.converters.ConverterUtils.DataSource;

/**Missing value Handling via weka

 *

 * @author wenbaoli

 *

 */

public class missingHandle {

	/**

	 *

	 * @param arg

	 */

	public static void main(String[] arg) {

		try {

			System.out.println("+++++++++++++Example 2 :Missing Value Handling.++++++++++++++");

			System.out.println("Step1:load data...");

			String fn = "E:weka/data/labor.arff";

			DataSource source = new DataSource(fn);

			Instances instances = source.getDataSet();

			int dim = instances.numAttributes();

			int num = instances.numInstances();

			System.out.println("Step2:缺失值处理...");

			double[] meanV = new double[dim];

			for (int i = 0; i < meanV.length; i++) {

				meanV[i] = 0;

				int count = 0;

				for (int j = 0; j < num; j++) {

					if(!instances.instance(j).isMissing(i)){

						meanV[i] += instances.instance(j).value(i);

						count++;

					}

				}

				meanV[i] = meanV[i]/count;

				System.out.println(meanV[i]);

			}

			for (int i = 0; i < meanV.length; i++) {

				meanV[i] = 0;

				int count = 0;

				for (int j = 0; j < num; j++) {

					if(instances.instance(j).isMissing(i)){

						instances.instance(j).setValue(i, meanV[i]);

					}

				}

			}

			System.out.println("Step3:保存数据到新文件...");

			DataSink.write("E:weka/data/labor_missingValueHandled.arff", instances);

			System.out.println("Finished.");

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

三、归一化处理

package learning;

import weka.core.Attribute;

import weka.core.Instance;

import weka.core.Instances;

import weka.core.converters.ConverterUtils.DataSink;

import weka.core.converters.ConverterUtils.DataSource;

import weka.filters.Filter;

import weka.filters.unsupervised.attribute.Normalize;

/**normalize data via weka

 *

 * @author wenbaoli

 *

 */

public class normalizeTest {

	/**

	 *

	 * @param arg

	 */

	public static void main(String[] arg) {

		String file = "cpu.arff";

		String file_norm = "norm_" + file;

		//对数据进行归一化

		try {

		System.out.println("+++++++++++++Example 1 : Normalize Data via weka.+++++++++");

		System.out.println("Step1:读取数据...");

		DataSource source = new DataSource("E:/Weka/data/" + file);

		Instances instances = source.getDataSet();

		System.out.println("Step2:原数据打印...");

		System.out.println("---------------------------------");

		int attributeNo = instances.numAttributes();

		for (int i = 0; i < attributeNo; i++) {

			Attribute attr = instances.attribute(i);

			System.out.print(attr.name() + "\t");

		}

		System.out.println();

		int instanceNo = instances.numInstances();

		for (int i = 0; i < instanceNo; i++) {

			Instance ins = instances.instance(i);

			System.out.print(ins.toString() + "\t");

			System.out.println();

		}

		System.out.println("Step3:归一化...");

		Normalize norm = new Normalize();

		norm.setInputFormat(instances);

		//归一化关键步骤：

		Instances newInstances = Filter.useFilter(instances, norm);

		System.out.println("Step4:归一化之后的数据(打印)...");

		System.out.println("---------------------------------");

		//打印属性名

		int numOfAttributes = newInstances.numAttributes();

		for (int i = 0; i < numOfAttributes; i++) {

			Attribute attribute = newInstances.attribute(i);

			System.out.print(attribute.name() + "\t");

		}

		System.out.println();

		//打印实例

		int numOfInstance = newInstances.numInstances();

		for (int i = 0; i < numOfInstance ; i++) {

			Instance instance = newInstances.instance(i);

			System.out.print(instance.toString() + "\t");

			System.out.println();

		}

		//发现一个问题：这把标签label也给归一化了。。。。。。。。。。这样可以吗？？？？？？？

		System.out.println("Step5:保存归一化的新数据到新文件...");

		System.out.println("-----------------------");

		DataSink.write("E:/Weka/data/" +file_norm, newInstances);

		System.out.println("Congratulations.");

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

通过weka.jar包来进行数据预处理的更多相关文章

BeanShell使用json.jar包处理Json数据
环境准备 ①Jmeter版本 ,JDK ②前置条件:将json.jar包置于..\lib\下, 如果还是报错,可以将该jar包添加到测试计划的Library中:否则会报:Typed variable ...
weka数据预处理
Weka数据预处理(一) 对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类.聚类.关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbag ...
jdbc数据连接池dbcp要导入的jar包
jdbc数据连接池dbcp要导入的jar包只用导入commons-dbcp-x.y.z.jarcommons-pool-a.b.jar
Excel文件按照指定模板导入数据（用jxl.jar包）
本文中的方法只适合Excel2003,要读取Excel2007最好使用poi.jar,据说poi.jar还在更新,jxl.jar已经不更新了,处理Excel文件的读写问题最好还是学习poi.j ...
总结：独立开发 jar 包组件——功能主要是支持查询数据库的所有表数据
前言:开发完一个项目,必定总结,这次就将总结记录在博客,第一次开发组件 jar 包,包含前端,后台,中间遇到好多问题,这里一一描述.转载请注明出处: https://www.cnblogs.com/y ...
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例 json-lib-2.4-jdk15.jar所需全部JAR包.rar ...
使用C#利用cmd来调用java jar包获取其中的数据
其实也很简单,就是在C#中构建一个Process,启动jar包,并且给jar包传递参数因为我并没有怎么学过JAVA,所以只写了个很小的Demo,就是根据传入的参数获取对应的数据以下是JAVA De ...
Java 使用poi导入excel，结合xml文件进行数据验证的例子(增加了jar包)
ava 使用poi导入excel,结合xml文件进行数据验证的例子(增加了jar包) 假设现在要做一个通用的导入方法: 要求: 1.xml的只定义数据库表中的column字段,字段类型,是否非空等条件 ...
WEKA中的数据预处理
数据预处理包括数据的缺失值处理.标准化.规范化和离散化处理. 数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues. 对于 ...

随机推荐

推荐一个golang的json库
生成json的库 https://github.com/bennyscetbun/jsongo https://github.com/donnie4w/json4g
使用MyEclipse可视化开发Hibernate实例
2.7 使用MyEclipse可视化开发Hibernate实例 2.7节的例子源代码在配套光盘sourcecode/workspace目录的chapter02_first项目中. 这个实例主要演示如 ...
rsync 无密码传输
1.通过ssh执行rsync(需要密码) 通过ssh帐户(需要密码)执行rsync,将文件同步镜像到远程服务器.下面这个例子将本地的/home/ramesh同步到远程目录/backup/ramesh( ...
黄聪：利用OpenXml生成Word2007文档（转）
原文:http://blog.csdn.net/francislaw/article/details/7568317 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[-] 一Op ...
@property and retain, assign, copy, nonatomic解析
nonatomic vs. atomic - "atomic" is the default. Always use "nonatomic". I don't ...
python抓取百度百科点赞数等动态数据
利用selenium 模拟浏览器打开页面,加载后抓取数据 #!/usr/bin/env python # coding=utf-8 import urllib2 import re from bs4 ...
中文unicode范围及unicode编解码
中文unicode范围 : [\u4e00-\u9fa5] 普通字符串可以用多种方式编码成Unicode字符串,具体要看你究竟选择了哪种编码:unicodestring = u"Hello ...
TRUNCATE与 DELETE
源地址:http://zhidao.baidu.com/link?url=9zB64BuXiAXNPF-zxvd6VLGTKb2FsUzQ-FsRAeQaYzycOGT5uGPXb-oB44TuYoP ...
[ActionScript3.0] 逻辑或"||=" ，等于"=="和全等于"==="
function a(o:Object):void { o||=new Object(); trace(o); } //此上下两个方法作用是一样的 function b(o:Object):void ...
MyEclipse运行时自动保存
今天第一次用MyEclipse,我发现我的代码明明修改了,但运行结果发现总是修改前的代码结果.后来发现,是代码修改后必须保存,再点运行.这个功能明显不合适,所以需要更改MyEclipse的配置.红框是 ...

通过weka.jar包来进行数据预处理

通过weka.jar包来进行数据预处理的更多相关文章

随机推荐

热门专题