转:http://kasy-13.blog.163.com/blog/static/8214691420143226365887/

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站(http://www.cs.waikato.ac.nz/~ml/weka/downloading.html)下载,注意,若要添加新算法,应该下载使用developer version。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。

在weka中添加libSVM:

Weka中并不是没有SVM算法,Weka中有SMO算法的实现。LibSVM运行的比Weka里的SMO快的多,如果你敢用SMO算法去训练大数据集,你就明白天荒地老的真实含意了。

LibsvmLiblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创建的,主要是应对large-scale的data classification,因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多,时间也少很多,而且在large scale data上的性能和非线性的分类器性能相当,所以Liblinear是针对大数据而生的。

两者都是一个跨平台的通用工具库,支持windows/linux/mac os,代码本身是c++写的,同时也有matlab,python,java,c/c++扩展接口,方便不同语言环境使用,可以说是科研和企业人员的首选!像我这样在学校的一般用matlab/c++,而我同学在百度则主要用的是python/c++,所以只是各自侧重不一样,但所使用的核心还是其svm库。

libSVM的C++/java源码下载、matlab interface等下载:http://www.csie.ntu.edu.tw/~cjlin/libsvm/

 

Weka3.5后增加了libsvm这个选项,在分类器中的functions下面。需要安装才能使用。我使用的是weka3.7.10版本。安装weka后运行RunWeka.bat或Weka 3.7.exe,在菜单栏tools->package manager 中可以添加weka官方定义的各种成型的算法,从association类的到visualization类的都有,只要install就行了。

在weka下安装HMM:

如果在自带的package manager下没有找到合适的算法,还可以在网上找(有很多高手写好了愿意分享的!),比如我找到的HMMWeka,可下载HMM.zip

下载地址:

http://www.doc.gold.ac.uk/~mas02mg/software/hmmweka/index.html#download

当然,技巧是用Google English搜,且关键词也用英文,如“HMM classifier”。目前的package manager 只接受zip文件格式的外源算法,所以最好找标准格式的算法,如我上面分享的HMM classifier的作者就相当敬业,从scr/lib到 doc全部写好了,可以下载一下参考参考。

过程:

1、打开weka->菜单栏tools->package manager ->Unofficial->File/URL

2、选择所下载的HMM.zip

3、重启weka,在clasify->choose->classifiers->bayes->HMM找到HMM

4、若是不能运行,可参照下方(weka中的libsvm无法运行的解决方法)的内容修改。

最后总结一下,对于不习惯点上面暗连接的朋友们提供一下明地址:

  • 能自定义添加算法的weka development 版下载地址:

http://www.cs.waikato.ac.nz/~ml/weka/downloading.html

有时候无法下载weka developer版本,可以找百度云搜一下:
  • HMMweka下载地址:
  • libSVM下载地址:

http://www.csie.ntu.edu.tw/~cjlin/libsvm/

weka中的libsvm无法运行的解决方法

在Weka3.5.5后增加了libsvm这个选项,在分类器中的functions下面。但是,试图运行的时候,系统报错提示:Problem evaluating classifier:libsvm classes not in CLASSPATH。然后我们在环境变量-》系统变量-》CLASSPATH,把F:/Some Softwares/Weka-3-5/libsvm.jar(这个jar文件是在http://www.cs.iastate.edu/~yasser/wlsvm/.下载的)添加进去了,但是报错提示:Problem evaluating classifier:rand。如何才能时libsvm跑起来呢?

我参照别人写的教程(http://blog.csdn.net/aalbertini/article/details/5749622)做了以下的修改:

修改runweka.ini这个文件中的cmd_default,增加对这两个jar包的支持:
cmd_default=javaw -Dfile.encoding=#fileEncoding# -Xmx#maxheap# -classpath "#wekajar#;#cp#;libsvm.jar;liblinear.jar" #mainclass#

重启RunWeka.bat,但是仍然无法使用。

可能的原因:

1、检查你的weka是否是developer版本!(最可能的)

2、修改runweka.ini这个文件中的cmd_default,将两个jar包写在#cp#前:cmd_default=javaw -Dfile.encoding=#fileEncoding# -Xmx#maxheap# -classpath "#wekajar#;libsvm.jar;liblinear.jar;#cp#" #mainclass#

参考链接:http://baike.baidu.com/view/1380214.htm

http://pcc426.net/2012/05/18/add-new-algorithm-in-weka/

http://blog.sina.com.cn/s/blog_5b29caf7010127vh.html

在weka中添加libSVM或者HMM等新算法的更多相关文章

  1. 机器学习:weka中添加自己的分类和聚类算法

    不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法. 一 添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Cl ...

  2. 如何在 Linux 中添加一块大于 2TB 的新磁盘?

    你有没有试过使用 fdisk 对大于 2TB 的硬盘进行分区,并且纳闷为什么会得到需要使用 GPT 的警告? 是的,你看到的没错.我们无法使用 fdisk 对大于 2TB 的硬盘进行分区. 在这种情况 ...

  3. 如何在weka中连接数据库(转)

    相关准备: Weka.mysql已安装 MYSQL Driver for JDBC 1.进入weka的安装目录 1)新建文件夹lib和文件夹weka,然后将mysql-connector-java-5 ...

  4. Weka中数据挖掘与机器学习系列之Exploer界面(七)

    不多说,直接上干货! Weka的Explorer(探索者)界面,是Weka的主要图形化用户界面,其全部功能都可通过菜单选择或表单填写进行访问.本博客将详细介绍Weka探索者界面的图形化用户界面.预处理 ...

  5. 用Apache Ant在Weka中嵌入新算法

    本文将介绍一种新的添加新的算法到Weka中的方法,国内的论坛基本都是通过IDE(Eclipse或NetBeans)编译,详细教程请见上一篇博客.经研究,发现国外的网站很流行用Ant这个方法,教程奉上. ...

  6. 用Eclipse在Weka中嵌入新算法

    本文介绍添加一个新算法到Weka集成环境中的过程,并能在GUI中运行并显示其结果.想做到这一点有两种方法,一是用ANT命令生成新的weka.jar(稍后写教程),二是用IDE(Eclipse或NetB ...

  7. Weka中数据挖掘与机器学习系列之Weka系统安装(四)

    能来看我这篇博客的朋友,想必大家都知道,Weka采用Java编写的,因此,具有Java“一次编译,到处运行”的特性.支持的操作系统有Windows x86.Windows x64.Mac OS X.L ...

  8. Weka中数据挖掘与机器学习系列之Weka3.7和3.9不同版本共存(七)

    不多说,直接上干货! 为什么,我要写此博客,原因是(以下,我是weka3.7.8) 以下是,weka3.7.8的安装版本. Weka中数据挖掘与机器学习系列之Weka系统安装(四) 基于此,我安装最新 ...

  9. 在jekyll模板博客中添加网易云模块

    最近使用GitHub Pages + Jekyll 搭建了个人博客,作为一名重度音乐患者,博客里面可以不配图,但是不能不配音乐啊. 遂在博客里面引入了网易云模块,这里要感谢网易云的分享机制,对开发者非 ...

随机推荐

  1. Building Robust and Flexible Event System in Unity3D

    Building Robust and Flexible Event System in Unity3D 1. Prerequisites 1.1 Observer Pattern According ...

  2. 【SQL】176. Second Highest Salary

    Write a SQL query to get the second highest salary from the Employee table. +----+--------+ | Id | S ...

  3. 安卓 自定义ViewGroup

    韩梦飞沙  韩亚飞  313134555@qq.com  yue31313  han_meng_fei_sha 指定的 布局参数 在计算时候方法 中 计算 所有 子视图的 宽高, 然后根据这些 计算出 ...

  4. 洛谷 P1115 最大子段和

    P1115 最大子段和 题目描述 给出一段序列,选出其中连续且非空的一段使得这段和最大. 输入输出格式 输入格式: 输入文件maxsum1.in的第一行是一个正整数N,表示了序列的长度. 第2行包含N ...

  5. 基于Java 生产者消费者模式(详细分析)

    Java 生产者消费者模式详细分析 本文目录:1.等待.唤醒机制的原理2.Lock和Condition3.单生产者单消费者模式4.使用Lock和Condition实现单生产单消费模式5.多生产多消费模 ...

  6. 去除List中的重复元素

    /** * 去重list中的重复元素 * @param list * @return */ public static <T> List<T> removeRepeat(Lis ...

  7. hdu 3081

    二分答案,网络流是否满流判断合法性. #include <cstdio> #include <cstring> #include <queue> #include ...

  8. bzoj 2815 灭绝树

    对于一个食物网(一个DAG),一个物种死亡后,某些物种就必然死亡,求出必然死亡的是那些物种. 灭绝树的另一种含义是:“灭绝树跟节点到节点u的路径上的节点由那些原图中从根节点到节点u的所有路径中都经过了 ...

  9. 线性DP POJ 1159 Palindrome

    Palindrome Time Limit: 3000MS   Memory Limit: 65536K Total Submissions: 59101   Accepted: 20532 Desc ...

  10. memcached添加日志输出

    引子:qa的memcached总是隔一段时间挂掉,导致qa进不去.决定查一下原因,于是添加日志输出,等下次出错便于查阅.定位问题. memcache默认没有日志输出.如果想把memecache服务日志 ...