1.分类规则原理

if-else逻辑：前件由特征值的特定组合构成，在满足规则的条件下，后件描述用来指定的分类值。
决策树必须从上至下应用，而规则是单独存在的事实。通常比决策树更简洁、直接和理解。
规则学习应用于以名义特征为主，或全部是名义特征的问题。
“独立而治之”：与决策树的“分而治之”不同（每个决策节点会受到过去决策历史的影响），一旦规则学习算法分离出一组案例，下一组案例可能会根据完全不同的特征，以完全不同的顺序分离出来。如：所有动物——>if有皮毛（哺乳动物），else无皮毛（非哺乳）
分而治之和独立而治之（覆盖算法）都基于先到先得的思想，称为贪婪/学习算法。

1.1 1R单规则算法

ZeroR：无规则算法，即无需考虑特征值就能预测为最常见的类（忽略所有特征，只是预测目标的模式）。
1R/OneR：单规则算法，通过选择一个单一的规则来提高ZeroR算法的性能。简单规则通常极具预测性，它能够识别对于目标类最具有预测性的单一特征，并利用该特征构建一个规则集。

过程：对于每一个特征，基于相似的特征值1R对数据分组，然后对于每个书分组，该算法的预测类为占多数的类。比如动物分类中若以行走途径为规则错误率为2/15，若以是否有皮毛为规则错误率为3/15，因此1R算法基于以行走途径为规则返回结果。

注意：如果分类水平分布很不均匀，规则学习再预测少数类时会有困难。

单一的规则可能太简单了（大拇指规则），更复杂的任务需要考虑多个属性，用到更高级的规则学习算法，但早期这类算法非常慢，也不准确，因此陆续提出了IREP、RIPPER、IRPE++、SLIPPER、TRIPPER等算法来提高规则学习的性能。

1.2 RIPPER算法

RIPPER：重复增量修剪算法，对IREP（增量减少误差修剪算法）进行改进后再生成规则，性能与决策树相当。

RIPPER过程：生长——修剪——优化
分类规则也可以直接从决策树获得。即嵌套if-else结构。缺点：这样产生的规则比从规则学习算法学到的规则更复杂，分而治之策略是有偏的，与规则学习的结果会不同。

2. 规则学习应用示例

应用规则学习识别有毒的蘑菇

1）收集数据

8124个蘑菇案例的22个特征，额外一列包含有毒和无毒信息。

数据下载：

链接: https://pan.baidu.com/s/1nrLEXkdISPSn1DLkjaPbMA 提取码: mhvr

2）探索和准备数据

## Example: Identifying Poisonous Mushrooms ----

## Step 2: Exploring and preparing the data ----

mushrooms <- read.csv("mushrooms.csv", stringsAsFactors = TRUE)

# examine the structure of the data frame

str(mushrooms)

# drop the veil_type feature

mushrooms$veil_type <- NULL

# examine the class distribution

table(mushrooms$type)

3）训练数据

## Step 3: Training a model on the data ----

library(RWeka)

# train OneR() on the data

mushroom_1R <- OneR(type ~ ., data = mushrooms)

mushroom_1R

4）评估性能

## Step 4: Evaluating model performance ----

summary(mushroom_1R)

准确率能达到98%以上，但错过了120种可以食用的蘑菇。

5）提高性能

训练JRip规则算法，从所有的可用特征中选择规则：

## Step 5: Improving model performance ----

mushroom_JRip <- JRip(type ~ ., data = mushrooms)

mushroom_JRip

summary(mushroom_JRip)

JRip分类器学习了9条规则。准确度提高到100%。

6）选择决策树中的分类规则

看一下，选择了两个特征，比较比较。

# Rule Learner Using C5.0 Decision Trees (not in text)

library(C50)

mushroom_c5rules <- C5.0(type ~ odor + gill_size, data = mushrooms, rules = TRUE) #rules分类规则生成一个模型

summary(mushroom_c5rules)

和1R算法的结果一样。

【机器学习与R语言】5-规则学习算法的更多相关文章

【机器学习与R语言】13- 如何提高模型的性能？
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 ...
【机器学习与R语言】12- 如何评估模型的性能？
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...
【机器学习与R语言】11- Kmeans聚类
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...
【机器学习与R语言】10- 关联规则
目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识购物 ...
【机器学习与R语言】9- 支持向量机
目录 1.理解支持向量机(SVM) 1)SVM特点 2)用超平面分类 3)对非线性空间使用核函数 2. 支持向量机应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 ...
【机器学习与R语言】8- 神经网络
目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1) ...
【机器学习与R语言】7-回归树和模型树
目录 1.理解回归树和模型树 2.回归树和模型树应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归树和模型树决策树用于数值预测: 回归树:基于到达 ...
【机器学习与R语言】4-决策树
目录 1.决策树原理 2.决策树应用示例 2.1)收集数据 2.2)探索和准备数据 2.3)训练模型 2.4)评估模型性能 2.5)提高模型性能通过自适应增强算法(boosting) 将惩罚因子分配 ...
【机器学习与R语言】3-概率学习朴素贝叶斯（NB）
目录 1.理解朴素贝叶斯 1)基本概念 2)朴素贝叶斯算法 2.朴素贝斯分类应用 1)收集数据 2)探索和准备数据 3)训练模型 4)评估模型性能 5)提升模型性能 1.理解朴素贝叶斯 1)基本概念 ...

随机推荐

pyinstaller和wordcloud和jieba的使用案列
一.pyinstaller库 1.简介 pyinstaller库:将脚本程序转变为可执行(.exe)格式的第三方库注意:需要在.py文件所在目录进行以下命令,图标扩展名是.ico 2.格式: pyi ...
学习手册 | MySQL篇 · 其一
InnoDB关键特性插入缓冲(Insert Buffer) 问题: 在InnoDB插入的时候,由于记录通常都是按照插入顺序,也就是主键的顺序进行插入的,因此,插入聚集索引是顺序的,不需要随机IO ...
Noip模拟32（再度翻车） 2021.8.7
T1 Smooth 很水的一道题...可是最傻的是考场上居然没有想到用优先队列优化... 上来开题看到这个,最一开始想,这题能用模拟短除法,再一想太慢了,就想着优化偏偏想到线性筛然后试别的素 ...
计算机网络之网络层IP组播（IGMP、组播路由选择协议、组播地址）
文章转自:https://blog.csdn.net/weixin_43914604/article/details/105318560 学习课程:<2019王道考研计算机网络> 学习目的 ...
链式A+B 牛客网程序员面试金典 C++ Python
链式A+B 牛客网程序员面试金典 C++ Python 题目描述有两个用链表表示的整数,每个结点包含一个数位.这些数位是反向存放的,也就是个位排在链表的首部.编写函数对这两个整数求和,并用链表形式 ...
最短路计数（SPFA× Dijkstra√）
题目描述给出一个n个顶点m条边的无向无权图,顶点编号为1−n.问从顶点1开始,到其他每个点的最短路有几条. 输入格式第一行包含2个正整数n,m,为图的顶点数与边数. 接下来M行,每行2个正整数x, ...
PTA甲级1094 The Largest Generation (25分)
PTA甲级1094 The Largest Generation (25分) A family hierarchy is usually presented by a pedigree tree wh ...
nio实现文件夹内容的监听
参考的博客 package com.jp.filemonitor; import java.io.IOException; import java.nio.file.FileSystems; impo ...
大一C语言学习笔记（11）---编程篇--写一个程序，可以获取从键盘上输入的的三个数，并能够判断是否可以以这三个数字作为边长来构成一个三角形，如果可以的话，输出此三角形的周长及面积，要求 0 bug；
考核内容: 写一个程序,可以获取从键盘上输入的的三个数,并能够判断是否可以以这三个数字作为边长来构成一个三角形,如果可以的话,输出此三角形的周长及面积: 答案: #include<stdio.h ...
postman调试工具介绍及常用的快捷键收集
关于Postman postman基础功能介绍使用postman进行接口自动化测试快捷键大全简单操作请求工具栏接口窗口数据编辑关于Postman Postman是一款功能强大的网页调 ...

【机器学习与R语言】5-规则学习算法