Weka算法介绍

RWeka (http://cran.r-project.org/web/packages/RWeka/index.html) ：
1) 数据输入和输出
WOW()：查看Weka函数的参数。
Weka_control()：设置Weka函数的参数。
read.arff()：读Weka Attribute-Relation File Format (ARFF)格式的数据。
write.arff：将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。
2) 数据预处理
Normalize()：无监督的标准化连续性数据。
Discretize()：用MDL(Minimum Description Length)方法，有监督的离散化连续性数值数据。
3) 分类和回归
IBk()：k最近邻分类
LBR()：naive Bayes法分类
J48()：C4.5决策树算法（决策树在分析各个属性时，是完全独立的）。
LMT()：组合树结构和Logistic回归模型，每个叶子节点是一个Logistic回归模型，准确性比单独的决策树和Logistic回归方法要好。
M5P()：M5 模型数算法，组合了树结构和线性回归模型，每个叶子节点是一个线性回归模型，因而可用于连续数据的回归。
DecisionStump()：单层决策树算法，常被作为boosting的基本学习器。
SMO()：支持向量机分类
AdaBoostM1()：Adaboost M1方法。-W参数指定弱学习器的算法。
Bagging()：通过从原始数据取样(用替换方法)，创建多个模型。
LogitBoost()：弱学习器采用了对数回归方法,学习到的是实数值
MultiBoostAB()：AdaBoost 方法的改进，可看作AdaBoost 和 “wagging”的组合。
Stacking()：用于不同的基本分类器集成的算法。
LinearRegression()：建立合适的线性回归模型。
Logistic()：建立logistic回归模型。
JRip()：一种规则学习方法。
M5Rules()：用M5方法产生回归问题的决策规则。
OneR()：简单的1-R分类法。
PART()：产生PART决策规则。
4) 聚类
Cobweb()：这是种基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。不适合对大数据库进行聚类处理。
FarthestFirst()：快速的近似的k均值聚类算法
SimpleKMeans()：k均值聚类算法
XMeans()：改进的k均值法，能自动决定类别数
DBScan()：基于密度的聚类方法，它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。
5）关联规则
Apriori()：Apriori是关联规则领域里最具影响力的基础算法，是一种广度优先算法，通过多次扫描数据库来获取支持度大于最小支持度的频繁项集。它的理论基础是频繁项集的两个单调性原则：频繁项集的任一子集一定是频繁的；非频繁项集的任一超集一定是非频繁的。在海量数据的情况下，Apriori 算法的时间和空间成本非常高。
Tertius()：Tertius算法。
6）预测和评估：
predict()：根据分类或聚类结果预测新数据的类别
table()：比较两个因子对象
evaluate_Weka_classifier()：评估模型的执行，如：TP Rate，FP Rate，Precision，Recall，F-Measure。

---- 整理自http://maya.cs.depaul.edu/~classes/ect584/WEKA/classify.html

Weka算法介绍的更多相关文章

【原创】机器学习之PageRank算法应用与C#实现(1)算法介绍
考虑到知识的复杂性,连续性,将本算法及应用分为3篇文章,请关注,将在本月逐步发表. 1.机器学习之PageRank算法应用与C#实现(1)算法介绍 2.机器学习之PageRank算法应用与C#实现(2 ...
KNN算法介绍
KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思. 算法描述 KNN是一种分类算法,其基本思想是采用测量不同特征值之间的距离方法进行分类. 算法过程如下: 1.准备样本数据集( ...
ISP基本框架及算法介绍
什么是ISP,他的工作原理是怎样的? ISP是Image Signal Processor的缩写,全称是影像处理器.在相机成像的整个环节中,它负责接收感光元件(Sensor)的原始信号数据,可以理解为 ...
Python之常见算法介绍
一.算法介绍 1. 算法是什么算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制.也就是说,能够对一定规范的输入,在有限时间内获得所要求的输 ...
RETE算法介绍
RETE算法介绍一. rete概述Rete算法是一种前向规则快速匹配算法,其匹配速度与规则数目无关.Rete是拉丁文,对应英文是net,也就是网络.Rete算法通过形成一个rete网络进行模式匹配,利 ...
H2O中的随机森林算法介绍及其项目实战（python实现）
H2O中的随机森林算法介绍及其项目实战(python实现) 包的引入:from h2o.estimators.random_forest import H2ORandomForestEstimator ...
STL 算法介绍
STL 算法介绍算法概述算法部分主要由头文件<algorithm>,<numeric>和<functional>组成. <algorithm ...
Levenshtein字符串距离算法介绍
Levenshtein字符串距离算法介绍文/开发部 Dimmacro KMP完全匹配算法和 Levenshtein相似度匹配算法是模糊查找匹配字符串中最经典的算法,配合近期技术栏目关于算法的探讨,上 ...
机器学习概念之特征选择（Feature selection）之RFormula算法介绍
不多说,直接上干货! RFormula算法介绍: RFormula通过R模型公式来选择列.支持R操作中的部分操作,包括‘~’, ‘.’, ‘:’, ‘+’以及‘-‘,基本操作如下: 1. ~分隔目标和 ...

随机推荐

ZOJ 3195 Design the city 题解
这个题目大意是: 有N个城市,编号为0~N-1,给定N-1条无向带权边,Q个询问,每个询问求三个城市连起来的最小权值. 多组数据每组数据 1 < N < 50000 1 < Q ...
ssh相关命令
ssh命令 ssh命令是openssh套件中的客户端连接工具,可以给予ssh加密协议实现安全的远程登录服务器. 语法ssh(选项)(参数)选项 -1:强制使用ssh协议版本1: -2:强制使用ssh协 ...
一道CVTE前端二面笔试题
题目:给你一个数组,输出数组中出现次数第n多的数字; 比如:[1,1,1,2,2,2,3,3,4,4,5,5,6,6,7]; 1---3次 2---3次 3---2次 4---2次 5---2次 6- ...
Array和ArrayCollection作为数据源的一个应用区别
在不用[Enabled]元标签的前提下,将一个Array赋值给DataGrid.DataList等控件的DataProvider后,当Array值发生改变时,控件显示内容不会及时更新(可调用控件的in ...
JS中字符串与数组的一些常用方法
真是恨透了这些类似于substring substr slice 要么长得像,要么就功能相近的方法... 1⃣️string 1.substring(start开始位置的索引,end结束位置索引) 截 ...
Android -- 从源码解析Handle+Looper+MessageQueue机制
1,今天和大家一起从底层看看Handle的工作机制是什么样的,那么在引入之前我们先来了解Handle是用来干什么的 handler通俗一点讲就是用来在各个线程之间发送数据的处理对象.在任何线程中,只要 ...
HTTP长连接、短连接使用及测试
概念 HTTP短连接(非持久连接)是指,客户端和服务端进行一次HTTP请求/响应之后,就关闭连接.所以,下一次的HTTP请求/响应操作就需要重新建立连接. HTTP长连接(持久连接)是指,客户端和服务 ...
jquery easyui的datagrid在初始化的时候会请求两次URL？
我们项目前端用的是jquery easyui,刚开始使用datagrid加载列表初始化时总是请求两次URL,这让人非常不解,怎么总是请求两次呢?数据一多,加载速度明显变慢,通过查资料才知道原来是重复声 ...
Measuring & Optimizing I/O Performance
By Ilya Grigorik on June 23, 2009 Measuring and optimizing IO performance is somewhat of a black art ...
如何使用python生成xml
最近要用python生成一个xml格式的文件.因为有一些内容是中文,原来的xml文件中使用了CDATA 的部分. 而之前的python程序所用的库中没有创建这个区域的方法.无奈研究了大半天. 最后用 ...

Weka算法介绍

Weka算法介绍的更多相关文章

随机推荐

热门专题