Weka初步

从前年開始使用weka最数据挖掘方面的研究，到如今有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结。我也想整理一下。由于网上的资料实在是太少。记得刚接手的时候，真是硬着头皮看代码。只是到如今看来，也积累了非常多的代码了。希望可以在这里跟大家分享一下学习weka的乐趣与经验。

Weka是来之新西兰怀卡托大学的一款开源软件。主要是数据挖掘方面的一些算法的集合。这款软件大概是当前数据挖掘领域最好的开源软件了。当然国外还有其他一些组织维护的有自己的开源软件。可是仅仅有这款软件应用是比較广泛的了。详细关于weka的信息能够到官网去查看http://www.cs.waikato.ac.nz/ml/weka/ ，软件的下载也可大家到官网去。

我是从weka3.4一直用到如今的3.6版本号的，其间weka在图形界面上有一些变动，可是底层的框架结构没有太大的变化，主要是加入一些新的算法什么的。总之大家能够放心的使用。我如今积累的代码是从3.5版本号积累下来的，到如今3.6版本号，集成起来一点问题都没有，这大概也是我喜欢weka的一个原因。

数据挖掘的过程一般例如以下：

1. 读入训练、測试样本

2. 初始化分类器

3. 使用训练样本训练分类器

4. 使用測试样本測试分类器的学习效果

5. 打印分类结果

我们如今看看一个简单的实例

package com.csdn;

import java.io.File;

import weka.classifiers.Classifier;

import weka.classifiers.Evaluation;

import weka.core.Instance;

import weka.core.Instances;

import weka.core.converters.ArffLoader;

public class Test {

/**

* @param args

public static void main(String[] args) {

// TODO Auto-generated method stub

Instances ins = null;

Classifier cfs = null;

try{

* 1.读入训练、測试样本

* 在此我们将训练样本和測试样本作为同一个样本

File file= new File("C://Program Files//Weka-3-6//data//contact-lenses.arff");

ArffLoader loader = new ArffLoader();

loader.setFile(file);

ins = loader.getDataSet();

//在使用样本之前一定要首先设置instances的classIndex。否则在使用instances对象是会抛出异常

ins.setClassIndex(ins.numAttributes()-1);

* 2.初始化分类器

* 详细使用哪一种特定的分类器能够选择，请将特定分类器的class名称放入forName函数

* 这样就构建了一个简单的分类器

cfs = (Classifier)Class.forName("weka.classifiers.bayes.NaiveBayes").newInstance();

* 3.使用训练样本训练分类器

cfs.buildClassifier(ins);

* 4.使用測试样本測试分类器的学习效果

* 在这里我们使用的训练样本和測试样本是同一个，在实际的工作中须要读入一个特定的測试样本

Instance testInst;

* Evaluation: Class for evaluating machine learning models

* 即它是用于检測分类模型的类

Evaluation testingEvaluation = new Evaluation(ins);

int length = ins.numInstances();

for (int i =0; i < length; i++) {

testInst = ins.instance(i);

//通过这种方法来用每一个測试样本測试分类器的效果

testingEvaluation.evaluateModelOnceAndRecordPrediction(

cfs, testInst);

}

* 5.打印分类结果

* 在这里我们打印了分类器的正确率

* 其他的一些信息我们能够通过Evaluation对象的其他方法得到

System.out.println( "分类器的正确率：" + (1- testingEvaluation.errorRate()));

}catch(Exception e){

e.printStackTrace();

}

通过这个实例，我们能够看到在weka上做开发非常easy的。每一个模块weka都提供了非常好的支持。同一时候，我们能够在此基础上对weka进行一个简单的封装。

设计一个Util类，将数据读取。以及分类器測试等功能放在这个Util类中共以后其他的程序使用。

获取样本Instances

* 从.arff文件里获取样本Instances;

* 1.fileName instances的文件名称

public static Instances getInstances(String fileName) throws Exception{

File file= new File(fileName);

return getInstances(file);

}

* 从.arff文件里获取样本Instances;

* 1.file 获得instances的File对象

public static Instances getInstances(File file) throws Exception{

Instances inst = null;

try{

ArffLoader loader = new ArffLoader();

loader.setFile(file);

inst = loader.getDataSet();

}

catch(Exception e){

throw new Exception(e.getMessage());

}

return inst;

}

获得一个Evaluation对象：

* 获得一个Evaluation对象

* 1.h 一个已经训练过的分类器

* 2.ins 測试样本

public static Evaluation getEvaluation(Classifier h,Instances ins){

try{

Instance testInst;

* Evaluation: Class for evaluating machine learning models

* 即它是用于检測分类模型的类

Evaluation testingEvaluation = new Evaluation(ins);

int length = ins.numInstances();

for (int i =0; i < length; i++) {

testInst = ins.instance(i);

//通过这种方法来用每一个測试样本測试分类器的效果

testingEvaluation.evaluateModelOnceAndRecordPrediction(

h, testInst);

}

return testingEvaluation;

}

catch(Exception e){

System.out.println("haha bug!");

System.out.println(e);

}

return null;

}

通过这几个函数我们就将读取instances对象的功能以及測试分类器的效果的功能封装到两个static函数中了，下次我们使用的时候就能够方便的调用这个接口了。能够省去我们写这些代码的时间了。

我们还清楚？这是比较简单。

Weka初步的更多相关文章

Weka 3: Data Mining Software in Java
官方网站: Weka 3: Data Mining Software in Java 相关使用方法博客 WEKA使用教程(经典教程转载) (实例数据:bank-data.csv) Weka初步一.二. ...
Weka 二次开发使用心得
Weka 二次开发使用心得一.weka数据挖掘流程使用weka图形界面,初步尝试了下数据的预处理.分类.关联等操作,因为weka本身就是一个开源的机器学习库,于是想自己尝试下利用weka的api进 ...
WEKA使用（基础配置+垃圾邮件过滤+聚类分析+关联挖掘）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘(垃圾邮件过滤),第二是聚类分析, ...
利用weka和clementine数据挖掘举例
1.数据概述本报告中采用的数据集来自于UCI经典数据集Adult,最初来源是由1994年Barry Becker的统计数据集,该数据集本来最初的主要任务是根据数据集中的相关属性预测某个人的年收入是大 ...
Weka中数据挖掘与机器学习系列之Weka系统安装（四）
能来看我这篇博客的朋友,想必大家都知道,Weka采用Java编写的,因此,具有Java“一次编译,到处运行”的特性.支持的操作系统有Windows x86.Windows x64.Mac OS X.L ...
Weka学习之认识weka（一）
Weka 简介 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归.聚类.关联规则以及在新的交互式界面上的可视化. Weka是基 ...
WEKA简单介绍与资源汇总
简单介绍 Weka是一个开源的数据挖掘软件,里面集成了很多经典的机器学习算法,在高校和科研机构中受到了广泛的应用. 具体的简单介绍和简单的使用请參考文档:<使用Weka进行数据挖掘>. 学 ...
Weka中数据挖掘与机器学习系列之Exploer界面（七）
不多说,直接上干货! Weka的Explorer(探索者)界面,是Weka的主要图形化用户界面,其全部功能都可通过菜单选择或表单填写进行访问.本博客将详细介绍Weka探索者界面的图形化用户界面.预处理 ...
Weka中数据挖掘与机器学习系列之基本概念（三）
数据挖掘和机器学习数据挖掘和机器学习这两项技术的关系非常密切.机器学习方法构成数据挖掘的核心,绝大多数数据挖掘技术都来自机器学习领域,数据挖掘又向机器学习提出新的要求和任务. 数据挖掘就是在数据中寻 ...

随机推荐

BST树，B树、B-树、B+树、B*树
BST树,B树.B-树.B+树.B*树二叉搜索树(BST): 1.所有非叶子结点至多拥有两个儿子(Left和Right): 2.所有结点存储一个关键字: 3.非叶子结点的左指针指向小于其关键字的子树 ...
C语言中的函数指针
C语言中的函数指针函数指针的概念: 函数指针是一个指向位于代码段的函数代码的指针. 函数指针的使用: #include<stdio.h> typedef struct (*fun_t ...
lsb_release: command not found 解决方法(转)
问题:通过lsb_release -a 是查看linux系统版本时报错,具体的解决办法如下: [root@localhost ~]# lsb_release -a-bash: lsb_release: ...
UI —— 计算器
#import <UIKit/UIKit.h> @interface MyViewController :UIViewController { NSInteger _firstName; ...
(hdu step 6.3.5)Card Game Cheater(匹配的最大数：a与b打牌,问b赢a多少次)
称号: Card Game Cheater Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Other ...
OpenCV+MFC显示图像
1.首先下载openCV. 2.安装OpenCV.现在的版本号2.4.9,你并不需要配置环境变量. 3.设置包括文件夹,设定project库文件夹. 4.配置链接库.注意,链接库包含了文件名中包含一个 ...
【C语言探索之旅】第三部分第一课：SDL开发游戏之安装SDL
内容简介 1.课程大纲 2.第三部分第一课: SDL开发游戏之安装SDL 3.第三部分第二课预告: SDL开发游戏之创建窗口和画布课程大纲我们的课程分为四大部分,每一个部分结束后都会有练习题,并会 ...
WebAPI 15 CORS
WebAPI 15 CORS 同源策略首先基于安全的原因,浏览器是存在同源策略这个机制的,同源策略阻止从一个源加载的文档或脚本获取或设置另一个源加载的文档的属性. 对于同源必须要求URL在如下几个方 ...
hdu 5077 NAND(暴力打表)
题目链接:hdu 5077 NAND 题目大意:Xiaoqiang要写一个编码程序,然后依据x1,x2,x3的值构造出8个字符.如今给定要求生成的8个字符.问说Xiaoqiang最少要写多少行代码. ...
BestCoder Round #16
BestCoder Round #16 题目链接这场挫掉了,3挂2,都是非常sb的错误 23333 QAQ A:每一个数字.左边个数乘上右边个数,就是能够组成的区间个数,然后乘的过程注意取模不然会爆 ...

Weka初步

Weka初步的更多相关文章

随机推荐

热门专题