通过weka.jar包来进行数据预处理

前言：注意首先要将weka.jar包加载到相应的路径中去。程序中的数据也是用的weka自带的数据。

扩展：eclipse添加jar包的操作方法：

打开eclipse ,在对应的工程下右击，选择Build Path ->选择Configure Build Path ->选择Libraries ->点击Add External JARs ->然后到你的jar包所在路径选择它。即可。

一、特征选择

package learning;

import weka.attributeSelection.ASEvaluation;

import weka.attributeSelection.InfoGainAttributeEval;

import weka.attributeSelection.Ranker;

import weka.core.Instances;

import weka.core.converters.ConverterUtils.DataSink;

import weka.core.converters.ConverterUtils.DataSource;

import weka.filters.Filter;

import weka.filters.supervised.attribute.AttributeSelection;

/**feature selection via weka

 *

 * @author wenbaoli

 *

 */

public class featureSelect {

	/**

	 *

	 * @param arg

	 */

	public static void main(String[] arg){

		try {

			System.out.println("++++++++++++Example3:Feature Selection Via Weka.+++++++++");

			System.out.println("Step1:load data...");

			String fn = "E:/weka/data/iris.arff";

			DataSource source = new DataSource(fn);

			Instances instances = source.getDataSet();

			System.out.println("Step2:feature selction...");

			featureSelect fs = new featureSelect();

			int k = 2;

			AttributeSelection as = new AttributeSelection();

			Ranker rank = new Ranker();

			rank.setThreshold(0.0);

			rank.setNumToSelect(k);

			ASEvaluation ae = new InfoGainAttributeEval();

			as.setEvaluator(ae);

			as.setSearch(rank);

			as.setInputFormat(instances);

			Instances reductData = Filter.useFilter(instances, as);

			System.out.println("Step3:保存规约后的数据到新文件...");

			DataSink.write("E:/weka/data/iris_reducted.arff", reductData);

			System.out.println("Finished...");

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

二、缺失值处理

package learning;

import weka.core.Instances;

import weka.core.converters.ConverterUtils.DataSink;

import weka.core.converters.ConverterUtils.DataSource;

/**Missing value Handling via weka

 *

 * @author wenbaoli

 *

 */

public class missingHandle {

	/**

	 *

	 * @param arg

	 */

	public static void main(String[] arg) {

		try {

			System.out.println("+++++++++++++Example 2 :Missing Value Handling.++++++++++++++");

			System.out.println("Step1:load data...");

			String fn = "E:weka/data/labor.arff";

			DataSource source = new DataSource(fn);

			Instances instances = source.getDataSet();

			int dim = instances.numAttributes();

			int num = instances.numInstances();

			System.out.println("Step2:缺失值处理...");

			double[] meanV = new double[dim];

			for (int i = 0; i < meanV.length; i++) {

				meanV[i] = 0;

				int count = 0;

				for (int j = 0; j < num; j++) {

					if(!instances.instance(j).isMissing(i)){

						meanV[i] += instances.instance(j).value(i);

						count++;

					}

				}

				meanV[i] = meanV[i]/count;

				System.out.println(meanV[i]);

			}

			for (int i = 0; i < meanV.length; i++) {

				meanV[i] = 0;

				int count = 0;

				for (int j = 0; j < num; j++) {

					if(instances.instance(j).isMissing(i)){

						instances.instance(j).setValue(i, meanV[i]);

					}

				}

			}

			System.out.println("Step3:保存数据到新文件...");

			DataSink.write("E:weka/data/labor_missingValueHandled.arff", instances);

			System.out.println("Finished.");

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

三、归一化处理

package learning;

import weka.core.Attribute;

import weka.core.Instance;

import weka.core.Instances;

import weka.core.converters.ConverterUtils.DataSink;

import weka.core.converters.ConverterUtils.DataSource;

import weka.filters.Filter;

import weka.filters.unsupervised.attribute.Normalize;

/**normalize data via weka

 *

 * @author wenbaoli

 *

 */

public class normalizeTest {

	/**

	 *

	 * @param arg

	 */

	public static void main(String[] arg) {

		String file = "cpu.arff";

		String file_norm = "norm_" + file;

		//对数据进行归一化

		try {

		System.out.println("+++++++++++++Example 1 : Normalize Data via weka.+++++++++");

		System.out.println("Step1:读取数据...");

		DataSource source = new DataSource("E:/Weka/data/" + file);

		Instances instances = source.getDataSet();

		System.out.println("Step2:原数据打印...");

		System.out.println("---------------------------------");

		int attributeNo = instances.numAttributes();

		for (int i = 0; i < attributeNo; i++) {

			Attribute attr = instances.attribute(i);

			System.out.print(attr.name() + "\t");

		}

		System.out.println();

		int instanceNo = instances.numInstances();

		for (int i = 0; i < instanceNo; i++) {

			Instance ins = instances.instance(i);

			System.out.print(ins.toString() + "\t");

			System.out.println();

		}

		System.out.println("Step3:归一化...");

		Normalize norm = new Normalize();

		norm.setInputFormat(instances);

		//归一化关键步骤：

		Instances newInstances = Filter.useFilter(instances, norm);

		System.out.println("Step4:归一化之后的数据(打印)...");

		System.out.println("---------------------------------");

		//打印属性名

		int numOfAttributes = newInstances.numAttributes();

		for (int i = 0; i < numOfAttributes; i++) {

			Attribute attribute = newInstances.attribute(i);

			System.out.print(attribute.name() + "\t");

		}

		System.out.println();

		//打印实例

		int numOfInstance = newInstances.numInstances();

		for (int i = 0; i < numOfInstance ; i++) {

			Instance instance = newInstances.instance(i);

			System.out.print(instance.toString() + "\t");

			System.out.println();

		}

		//发现一个问题：这把标签label也给归一化了。。。。。。。。。。这样可以吗？？？？？？？

		System.out.println("Step5:保存归一化的新数据到新文件...");

		System.out.println("-----------------------");

		DataSink.write("E:/Weka/data/" +file_norm, newInstances);

		System.out.println("Congratulations.");

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

通过weka.jar包来进行数据预处理的更多相关文章

BeanShell使用json.jar包处理Json数据
环境准备 ①Jmeter版本 ,JDK ②前置条件:将json.jar包置于..\lib\下, 如果还是报错,可以将该jar包添加到测试计划的Library中:否则会报:Typed variable ...
weka数据预处理
Weka数据预处理(一) 对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类.聚类.关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbag ...
jdbc数据连接池dbcp要导入的jar包
jdbc数据连接池dbcp要导入的jar包只用导入commons-dbcp-x.y.z.jarcommons-pool-a.b.jar
Excel文件按照指定模板导入数据（用jxl.jar包）
本文中的方法只适合Excel2003,要读取Excel2007最好使用poi.jar,据说poi.jar还在更新,jxl.jar已经不更新了,处理Excel文件的读写问题最好还是学习poi.j ...
总结：独立开发 jar 包组件——功能主要是支持查询数据库的所有表数据
前言:开发完一个项目,必定总结,这次就将总结记录在博客,第一次开发组件 jar 包,包含前端,后台,中间遇到好多问题,这里一一描述.转载请注明出处: https://www.cnblogs.com/y ...
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例
json-lib-2.4-jdk15.jar所需全部JAR包.rar java jsoup解析开彩网api接口json数据实例 json-lib-2.4-jdk15.jar所需全部JAR包.rar ...
使用C#利用cmd来调用java jar包获取其中的数据
其实也很简单,就是在C#中构建一个Process,启动jar包,并且给jar包传递参数因为我并没有怎么学过JAVA,所以只写了个很小的Demo,就是根据传入的参数获取对应的数据以下是JAVA De ...
Java 使用poi导入excel，结合xml文件进行数据验证的例子(增加了jar包)
ava 使用poi导入excel,结合xml文件进行数据验证的例子(增加了jar包) 假设现在要做一个通用的导入方法: 要求: 1.xml的只定义数据库表中的column字段,字段类型,是否非空等条件 ...
WEKA中的数据预处理
数据预处理包括数据的缺失值处理.标准化.规范化和离散化处理. 数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues. 对于 ...

随机推荐

Struts2 - Convertion
Struts2中的Convertion插件是比较有用,它可以简化很多操作,比如不需要一个一个Action在struts.xml中设置.当然,最有意义的是它与rest插件一起整合使用,可以完成web-s ...
IOS开发-PCH文件的使用
PCH文件存储一些共享的数据,在其他的文件可以直接使用,这样减少程序输入,比如存储宏定义 1.首先新建PCH文件 2.建立完毕 3.在这里找到文件路径 4.进入targets 点击Build Sttt ...
apply()和call()的区别
这两个方法的用途都是在特定的作用域中调用函数,实际上等于设置函数体内this对象的值. apply()接收两个参数:一个参数是在其中运行的作用域,另一个是参数数组(可以是Array实例,也可以是arg ...
Learning Puppet — Resources and the RAL
Learning Puppet — Resources and the RAL Welcome to Learning Puppet! This series covers the basics of ...
什么是SQLCLR与使用
原帖地址:http://www.cnblogs.com/hsrzyn/archive/2013/05/28/1976555.html 什么是SQLCLR SQL CLR (SQL Common Lan ...
文件压缩与挤压ZIP
/// <summary> /// Zip压缩与解压缩 /// </summary> public class ZipHelper { /// <summary> ...
单源最短路径——Floyd算法
正如我们所知道的,Floyd算法用于求最短路径.Floyd算法可以说是Warshall算法的扩展,三个for循环就可以解决问题,所以它的时间复杂度为O(n^3). Floyd算法的基本思想如下:从任意 ...
C# new 和 override.
http://www.dotblogs.com.tw/skychang/archive/2012/05/10/72114.aspx?fid=60865
windows server 2012将计算机、回收站、文档等图标添加到桌面
rundll32.exe shell32.dll,Control_RunDLL desk.cpl,,0
js复习（二）
一.window.document对象(一)找元素 docunment.getElementById("id"):根据id找,最多找一个: docunment.getElement ...

通过weka.jar包来进行数据预处理

通过weka.jar包来进行数据预处理的更多相关文章

随机推荐

热门专题