[分类算法] ：朴素贝叶斯 NaiveBayes

1. 原理和理论基础（参考）

2. Spark代码实例：

1）windows 单机

import org.apache.spark.mllib.classification.NaiveBayes

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.{SparkConf, SparkContext}

object local_NaiveBayes {

  System.setProperty("hadoop.dir.home","E:/zhuangji/winutil/")

  def main(args:Array[String]) {

    val conf = new SparkConf().setMaster("local[2]").setAppName("NaiveBayes")

    val sc = new SparkContext(conf)

    //initiated data and labeled

    val data = sc.textFile("E:/Java_WS/ScalaDemo/data/sample_naive_bayes_data.txt")

    val parsedData = data.map {

      line =>

        val parts = line.split(',')

        LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split( ' ').map(_.toDouble)) )

    }

    // split data

    val splits=parsedData.randomSplit(Array(0.6,0.4),seed=11L)

    val training=splits(0)

    val test=splits(1)

    //model and calculated precision & accuracy

    val model=NaiveBayes.train(training,lambda=1.0,modelType="multinomial")

    val predictionAndLabel=test.map(p=>(model.predict(p.features),p.label))

    val accuracy=1.0*predictionAndLabel.filter(x=>x._1==x._2).count()/test.count()

    //save and load model

    model.save(sc,"E:/Spark/models/NaiveBayes")

    val sameModel=NaiveBayesModel.load(sc,"E:/Spark/models/NaiveBayes")

  }

}

2）集群模式

需要打包，然后通过spark-submit 提交到yarn client或者cluster中：

spark-submit --class myNaiveBayes --master yarn ScalaDemo.jar

import org.apache.spark.mllib.classification.{NaiveBayesModel, NaiveBayes}

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.{SparkConf, SparkContext}

object myNaiveBayes {

  def main(args:Array[String]) {

    val conf = new SparkConf().setAppName("NaiveBayes")

    val sc = new SparkContext(conf)

    //initiated data and labeled

    val data = sc.textFile("hdfs://nameservice1/user/hive/spark/data/sample_naive_bayes_data.txt")

    val parsedData = data.map {

      line =>

        val parts = line.split(',')

        LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split( ' ').map(_.toDouble)) )

    }

    // split data

    val splits=parsedData.randomSplit(Array(0.6,0.4),seed=11L)

    val training=splits(0)

    val test=splits(1)

    //model and calculated precision & accuracy

    val model=NaiveBayes.train(training,lambda=1.0,modelType="multinomial")

    val predictionAndLabel=test.map(p=>(model.predict(p.features),p.label))

    val accuracy=1.0*predictionAndLabel.filter(x=>x._1==x._2).count()/test.count()

    //save and load model

    model.save(sc,"hdfs://nameservice1/user/hive/spark/NaiveBayes/model")

    val sameModel=NaiveBayesModel.load(sc,"hdfs://nameservice1/user/hive/spark/NaiveBayes/model")

  }

}

3）pyspark 代码实例

可以直接利用spark-submit提交，但注意无法到集群（cluster模式目前不支持独立集群、 mesos集群以及python应用程序）

spark-submit pyNaiveBayes.py

#-*- coding:utf-8 -*-

from pyspark.mllib.classification import NaiveBayes,NaiveBayesModel

from pyspark.mllib.linalg import Vectors

from pyspark.mllib.regression import LabeledPoint

from pyspark import SparkContext

if __name__=="__main__":

    sc=SparkContext(appName="PythonPi")

    def parseLine(line):

        parts=line.split(',')

        label=float(parts[0])

        features=Vectors.dense([float(x) for x in parts[1].split(' ')])

        return LabeledPoint(label,features)

    data=sc.textFile("hdfs://nameservice1/user/hive/spark/data/sample_naive_bayes_data.txt").map(parseLine)

    training,test=data.randomSplit([0.6,0.4],seed=0)

    model=NaiveBayes.train(training,1.0)

    predictionAndLabel=test.map(lambda p:(model.predict(p.features),p.label))

    accuracy=1.0*predictionAndLabel.filter(lambda(x,v):x==v).count()/test.count()

    model.save(sc, "hdfs://nameservice1/user/hive/spark/PythonNaiveBayes/model")

    sameModel = NaiveBayesModel.load(sc, "hdfs://nameservice1/user/hive/spark/PythonNaiveBayes/model")

}

3. Python　

from sklearn import naive_bayes

import random

##拆分训练集和测试集

def SplitData(data,M,k,seed):

    test=[]

    train=[]

    random.seed(seed)

    for line in data:

        if random.randint(0,M)==k:

            test.append(''.join(line))

        else:

            train.append(''.join(line))

    return train,test

##按分割符拆分X，Y

def parseData(data,delimiter1,delimiter2):

    x=[]

    y=[]

    for line in data:

        parts = line.split(delimiter1)

        x1 = [float(a) for a in parts[1].split(delimiter2)]

        y1 = float(parts[0])

        ##print x1,y1

        x.append(x1)

        y.append(y1)

    return x,y

##读取数据

data=open('e:/java_ws/scalademo/data/sample_naive_bayes_data.txt','r')

training,test=SplitData(data,4,2,10)

trainingX,trainingY=parseData(training,',',' ')

testX,testY=parseData(test,',',' ')

##建模

model=naive_bayes.GaussianNB()

model.fit(trainingX,trainingY)

##评估

for b in testX:

    print(model.predict(b),b)

[分类算法] ：朴素贝叶斯 NaiveBayes的更多相关文章

python机器学习（三）分类算法-朴素贝叶斯
一.概率基础概率定义:概率定义为一件事情发生的可能性,例如,随机抛硬币,正面朝上的概率. 联合概率:包含多个条件,且所有条件同时成立的概率,记作:
Spark朴素贝叶斯(naiveBayes)
朴素贝叶斯(Naïve Bayes) 介绍 Byesian算法是统计学的分类方法,它是一种利用概率统计知识进行分类的算法.在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法想媲美,该算法能运 ...
分类算法之贝叶斯(Bayes)分类器
摘要:旁听了清华大学王建勇老师的数据挖掘:理论与算法的课,讲的还是挺细的,好记性不如烂笔头,在此记录自己的学习内容,方便以后复习. 一:贝叶斯分类器简介 1)贝叶斯分类器是一种基于统计的分类器 ...
（ZT）算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)
https://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html 2.1.摘要在上一篇文章中我们讨论了朴素贝叶斯分类.朴素贝 ...
机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归
朴素贝叶斯: 是使用概率论来分类的算法.其中朴素:各特征条件独立:贝叶斯:根据贝叶斯定理.这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了.类别 y 的先验概率可以通过训练集算出 k-近邻 ...
机器学习理论基础学习3.5--- Linear classification 线性分类之朴素贝叶斯
一.什么是朴素贝叶斯? (1)思想:朴素贝叶斯假设条件独立性假设:假设在给定label y的条件下,特征之间是独立的最简单的概率图模型解释: (2)重点注意:朴素贝叶斯拉普拉斯平滑 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
tf-idf、朴素贝叶斯的短文本分类简述
朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法,在监督学习领域有着很重要的应用.朴素贝叶斯是建立在“全概率公式”的基础下的,由已知的尽可能多 ...
吴裕雄--天生自然python机器学习：朴素贝叶斯算法
分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值. 概率论是许多机器学习算法的基础在计算特征值取某个值的概率时涉及了一些概率知识,在那里我们先 ...

随机推荐

HADOOP安装指南-Ubuntu15.10和hadoop2.7.2
Ubuntu15.10中安装hadoop2.7.2安装手册太初目录 1. Hadoop单点模式... 2 1.1 安装步骤... 2 0.环境和版本... 2 1.在ubu ...
Oracle如何实现创建数据库、备份数据库及数据导出导入的一条龙操作
Oracle中对数据对象和数据的管理,无疑都是使用PL/SQL Developer来进行管理,该工具也提供给我们很多方便.快捷的操作,使得我们不再为Oracle本身丑陋.难用的UI而抱怨.由于我们一般 ...
.NET应用架构设计—适当使用活动记录模式代替领域模型模式
阅读目录: 1.背景介绍 2.简单介绍领域模型模式.活动记录模式 3.活动记录模式的简单示例及要点 4.总结 1.背景介绍对软件开发方法论有兴趣的博友应该发现最近“领域驱动设计”慢慢的被人发现被人实 ...
openstack-swift云存储部署（二）
接上篇,swift-proxy和swift-store的安装先说一下服务器分配 swift-proxy和keystone部署在192.168.25.11 swift-store是两台分别是192 ...
在CentOS安装PHP5.6
简单介绍一下,如何在CentOS上安装PHP5.6. 配置yum源追加CentOS 6.5的epel及remi源. # rpm -Uvh http://ftp.iij.ad.jp/pub/linux ...
【2016-11-7】【坚持学习】【Day22】【Oracle 分页查询】
方法1: select * from (select rownum rn, temp.* from ( +sqlText+ ) temp ) where rn > "+ start + ...
全面剖析 <input> 标签 ------ HTML\HTML5
<input>标签因其形式多样.功能强大,当之无愧成为了WEB前端开发人员最钟爱的元素之一.下面就来对<input>做一个全面的剖析: 标签定义: <input> ...
一切Web的基础----HTTP
HTTP 是基于 TCP/IP 协议的应用层协议.它不涉及数据包(packet)传输,主要规定了客户端和服务器之间的通信格式,默认使用80端口.HTTP协议基于TCP连接,该协议针对TCP连接上的数据 ...
洛谷P1108 低价购买[DP | LIS方案数]
题目描述 “低价购买”这条建议是在奶牛股票市场取得成功的一半规则.要想被认为是伟大的投资者,你必须遵循以下的问题建议:“低价购买:再低价购买”.每次你购买一支股票,你必须用低于你上次购买它的价格购买它 ...
Win10 Sql2008R2 在关闭【0x80041033】
以前SQL Server 2008 不能登陆的时候,总是通过“计算机管理”→“SQL Server服务”更改一下,"SQL Server(MSSQLSERVER)".可是现在出现的 ...

[分类算法] ：朴素贝叶斯 NaiveBayes

1. 原理和理论基础（参考）

2. Spark代码实例：

1）windows 单机

2）集群模式

3）pyspark 代码实例

3. Python

[分类算法] ：朴素贝叶斯 NaiveBayes的更多相关文章

随机推荐

热门专题

3. Python