数据分析与挖掘 - R语言：贝叶斯分类算法（案例一）

一个简单的例子！
环境：CentOS6.5
Hadoop集群、Hive、R、RHive，具体安装及调试方法见博客内文档。

名词解释：

先验概率：由以往的数据分析得到的概率, 叫做先验概率。

后验概率：而在得到信息之后，再重新加以修正的概率叫做后验概率。贝叶斯分类是后验概率。

贝叶斯分类算法步骤：

第一步：准备阶段

该阶段为朴素贝叶斯分类做必要的准备。主要是依据具体情况确定特征属性，并且对特征属性进行适当划分。然后就是对一部分待分类项进行人工划分，以确定训练样本。

这一阶段的输入是所有的待分类项，输出特征属性和训练样本。分类器的质量很大程度上依赖于特征属性及其划分以及训练样本的质量。

第二步：分类器训练阶段

主要工作是计算每个类别在训练样本中出现频率以及每个特征属性划分对每个类别的条件概率估计。输入是特征属性和训练样本，输出是分类器。

第三步：应用阶段

这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。

特别要注意的是：朴素贝叶斯的核心在于它假设向量的所有分量之间是独立的。

实例编写R脚本：

#!/usr/bin/Rscript

#构造训练集

data <- matrix(c("sunny","hot","high","weak","no",

                 "sunny","hot","high","strong","no",

                 "overcast","hot","high","weak","yes",

                 "rain","mild","high","weak","yes",

                 "rain","cool","normal","weak","yes",

                 "rain","cool","normal","strong","no",

                 "overcast","cool","normal","strong","yes",

                 "sunny","mild","high","weak","no",

                 "sunny","cool","normal","weak","yes",

                 "rain","mild","normal","weak","yes",

                 "sunny","mild","normal","strong","yes",

                 "overcast","mild","high","strong","yes",

                 "overcast","hot","normal","weak","yes",

                 "rain","mild","high","strong","no"),

                 byrow = TRUE,

                 dimnames = list(day = c(),condition = c("outlook","temperature","humidity","wind","playtennis")),

                 nrow=14,

                 ncol=5);  

#计算先验概率

prior.yes = sum(data[,5] == "yes") / length(data[,5]);

prior.no  = sum(data[,5] == "no")  / length(data[,5]);  

#贝叶斯模型

naive.bayes.prediction <- function(condition.vec) {

    # Calculate unnormlized posterior probability for playtennis = yes.

    playtennis.yes <-

        sum((data[,1] == condition.vec[1]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(outlook = f_1 | playtennis = yes)

        sum((data[,2] == condition.vec[2]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(temperature = f_2 | playtennis = yes)

        sum((data[,3] == condition.vec[3]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(humidity = f_3 | playtennis = yes)

        sum((data[,4] == condition.vec[4]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(wind = f_4 | playtennis = yes)

        prior.yes; # P(playtennis = yes)  

    # Calculate unnormlized posterior probability for playtennis = no.

    playtennis.no <-

        sum((data[,1] == condition.vec[1]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(outlook = f_1 | playtennis = no)

        sum((data[,2] == condition.vec[2]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(temperature = f_2 | playtennis = no)

        sum((data[,3] == condition.vec[3]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(humidity = f_3 | playtennis = no)

        sum((data[,4] == condition.vec[4]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(wind = f_4 | playtennis = no)

        prior.no; # P(playtennis = no)  

    return(list(post.pr.yes = playtennis.yes,

            post.pr.no  = playtennis.no,

            prediction  = ifelse(playtennis.yes >= playtennis.no, "yes", "no")));

}  

#预测

naive.bayes.prediction(c("overcast", "mild", "normal", "weak"));

结果：

$post.pr.yes

[1] 0.05643739

$post.pr.no

[1] 0

$prediction

[1] "yes"

预测结果为：yes

数据分析与挖掘 - R语言：贝叶斯分类算法（案例一）的更多相关文章

零基础数据分析与挖掘R语言实战课程（R语言）
随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况 ...
数据分析与挖掘 - R语言：贝叶斯分类算法（案例三）
案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数. 代码如下: > library(e1071)> classifier<-naiveBayes(iris ...
数据分析与挖掘 - R语言：贝叶斯分类算法（案例二）
接着案例一,我们再使用另一种方法实例一个案例直接上代码: #!/usr/bin/Rscript library(plyr) library(reshape2) #1.根据训练集创建朴素贝叶斯分类器 ...
数据分析与挖掘 - R语言：KNN算法
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理.然后,对未知分 ...
数据分析与挖掘 - R语言：K-means聚类算法
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目--有一个用户点击数据样本(husercollect)--按用户访问的 ...
数据分析与挖掘 - R语言：多元线性回归
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 线性回归主要用来做预测模型. 1.准备数据集: X Y 0.10 42.0 0.1 ...
R语言分类算法之随机森林
R语言分类算法之随机森林 1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策 ...
R语言神经网络算法
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自 ...
R语言、02 案例2-1 Pelican商店、《商务与经济统计》案例题
编程教材 <R语言实战·第2版>Robert I. Kabacoff 课程教材<商务与经济统计·原书第13版> (安德森) P48.案例2-1 Pelican 商店 PS C: ...

随机推荐

BZOJ 3224 - 普通平衡树 - [Treap][Splay]
题目链接:https://www.lydsy.com/JudgeOnline/problem.php?id=3224 Description 您需要写一种数据结构(可参考题目标题),来维护一些数,其中 ...
spring @Order标记
@Order标记定义了组件的加载顺序. @Order标记从spring 2.0出现,但是在spring 4.0之前,@Order标记只支持AspectJ的切面排序.spring 4.0对@Order做 ...
安装和配置hive
1.上传hive.mysql.mysql driver到服务器/mnt目录下: [root@chavin mnt]# ll mysql-5.6.24-linux-glibc2.5-x86_64.tar ...
screen基本用法
当某些命令执行时间过长或者某些程序关闭shell后自动断开时,就能使用screen 1.安装yum -y install screen 2.输入screen命令进入screen控制台 3.输入scre ...
WIN10登录时找不到Administrator用户
前提:WIN才安装的系统登录时只看到admin用户看不到administrator用户 1. 按网上方法,进入[此电脑]--[管理]--[系统工具]--[本地用户和组]--[用户] 2. 双击打开Ad ...
centos所有版本下载源
http://ftp.sjtu.edu.cn/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1511.iso http://mirrors.yun-idc.com/ ...
一步步搭建 Spring Boot maven 框架的工程
摘要:让Spring应用从配置到运行更加快速,演示DIY Spring Boot 框架时,如何配置端口号,如何添加日志. Spring Boot 框架帮助开发者更容易地创建基于Spring的应用程序和 ...
nginx 负载均衡5种配置方式
nginx 负载均衡5种配置方式 1.轮询(默认) 每个请求按时间顺序逐一分配到不同的后端服务器,如果后端服务器down掉,能自动剔除. 2.weight 指定轮询几率,weight和访问比率成正比, ...
图书管理（Loj0034）+浅谈哈希表
图书管理题目描述图书管理是一件十分繁杂的工作,在一个图书馆中每天都会有许多新书加入.为了更方便的管理图书(以便于帮助想要借书的客人快速查找他们是否有他们所需要的书),我们需要设计一个图书查找系统. ...
NOIP2009靶形数独
题目描述: 小城和小华都是热爱数学的好学生,最近,他们不约而同地迷上了数独游戏,好胜的他们想用数独来一比高低.但普通的数独对他们来说都过于简单了,于是他们向 Z 博士请教,Z 博士拿出了他最近发明的“ ...

数据分析与挖掘 - R语言：贝叶斯分类算法（案例一）

数据分析与挖掘 - R语言：贝叶斯分类算法（案例一）的更多相关文章

随机推荐

热门专题