spark-ML之朴素贝叶斯

训练语料格式

自定义五个类别及其标签：0 运费、1 寄件、2 人工、3 改单、4 催单、5 其他业务类。
从原数据中挑选一部分作为训练语料和测试语料

建立模型测试并保存

import org.apache.spark.ml.classification.NaiveBayes

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

import org.apache.spark.ml.feature.{HashingTF, IDF, LabeledPoint, Tokenizer}

import org.apache.spark.ml.linalg.{Vector, Vectors}

import org.apache.spark.sql.Row

import org.apache.spark.{SparkConf, SparkContext}

object shunfeng {

  case class RawDataRecord(label: String, text: String)

    def main(args : Array[String]) {

      val config = new SparkConf().setAppName("createModel").setMaster("local[4]")

      val sc =new  SparkContext(config)

      val sqlContext = new org.apache.spark.sql.SQLContext(sc)

      //开启RDD隐式转换，利用.toDF方法自动将RDD转换成DataFrame；

      import sqlContext.implicits._

      val TrainDf = sc.textFile("E:\\train.txt").map {

        x =>

           val data = x.split("\t")

           RawDataRecord(data(0),data(1))

       }.toDF()

      val TestDf= sc.textFile("E:\\test.txt").map {

        x =>

          val data = x.split("\t")

          RawDataRecord(data(0),data(1))

      }.toDF()

      //tokenizer分解器，把句子划分为词语

      val TrainTokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

      val TrainWords = TrainTokenizer.transform(TrainDf)

      val TestTokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

      val TestWords = TestTokenizer.transform(TestDf)

      //特征抽取，利用TF-IDF

      val TrainHashingTF = new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(5000)

      val TrainData = TrainHashingTF.transform(TrainWords)

      val TestHashingTF = new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(5000)

      val TestData = TestHashingTF.transform(TestWords)

      val TrainIdf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

      val TrainIdfmodel = TrainIdf.fit(TrainData)

      val TrainForm = TrainIdfmodel.transform(TrainData)

      val TestIdf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

      val TestIdfModel = TestIdf.fit(TestData)

      val TestForm = TestIdfModel.transform(TestData)

      //把数据转换成朴素贝叶斯格式

      val TrainDF = TrainForm.select($"label",$"features").map {

        case Row(label: String, features: Vector) =>

          LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

      }

      val TestDF = TestForm.select($"label",$"features").map {

          case Row(label: String, features: Vector) =>

            LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

        }

      //建立模型

      val model =new NaiveBayes().fit(TrainDF)

      val predictions = model.transform(TestDF)

      predictions.show()

      //评估模型

      val evaluator = new MulticlassClassificationEvaluator()

        .setLabelCol("label")

        .setPredictionCol("prediction")

        .setMetricName("accuracy")

      val accuracy = evaluator.evaluate(predictions)

      println("准确率:"+accuracy)

      //保存模型

      model.write.overwrite().save("model")

    }

}

模型评估：

使用模型预测

import org.ansj.recognition.impl.StopRecognition

import org.ansj.splitWord.analysis.{DicAnalysis, ToAnalysis}

import org.apache.spark.ml.classification.NaiveBayesModel

import org.apache.spark.ml.feature._

import org.apache.spark.sql.SparkSession

import org.apache.spark.{SparkConf, SparkContext}

object stest {

  case class RawDataRecord(label: String)

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[4]").setAppName("shunfeng")

    val sc = new SparkContext(conf)

    val spark = SparkSession.builder().config(conf).getOrCreate()

    import spark.implicits._

    val frdd = sc.textFile("C:\\Users\\Administrator\\Desktop\\01\\*")

    val filter = new StopRecognition()

    filter.insertStopNatures("w") //过滤掉标点

    val rdd = frdd.filter(_.contains("含中文"))

      .filter(!_.contains("▃▂▁机器人丰小满使用指引▁▂▃"))

      .map(_.split("含中文")(0))

      .map(_.split("\\|")(3))

      .filter(_.length>1)

      .map{x =>

        val temp = ToAnalysis.parse(x.toString)

        RawDataRecord(DicAnalysis.parse(x.toString).recognition(filter).toStringWithOutNature(" "))

      }.toDF()

    val tokenizer = new Tokenizer().setInputCol("label").setOutputCol("words")

    val wordsData = tokenizer.transform(rdd)

    //setNumFeatures的值越大精度越高，开销也越大

    val hashingTF = new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(5000)

    val PreData = hashingTF.transform(wordsData)

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(PreData)

    val PreModel = idfModel.transform(PreData)

    //加载模型

    val model =NaiveBayesModel.load("model")

     model.transform(PreModel).select("words","prediction").show()

  }

}

结果：

spark-ML之朴素贝叶斯的更多相关文章

朴素贝叶斯算法源码分析及代码实战【python sklearn/spark ML】
一.简介贝叶斯定理是关于随机事件A和事件B的条件概率的一个定理.通常在事件A发生的前提下事件B发生的概率,与在事件B发生的前提下事件A发生的概率是不一致的.然而,这两者之间有确定的关系,贝叶斯定理就 ...
贝叶斯、朴素贝叶斯及调用spark官网 mllib NavieBayes示例
贝叶斯法则机器学习的任务:在给定训练数据A时,确定假设空间B中的最佳假设. 最佳假设:一种方法是把它定义为在给定数据A以及B中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...
Spark朴素贝叶斯(naiveBayes)
朴素贝叶斯(Naïve Bayes) 介绍 Byesian算法是统计学的分类方法,它是一种利用概率统计知识进行分类的算法.在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法想媲美,该算法能运 ...
[置顶] 生成学习算法、高斯判别分析、朴素贝叶斯、Laplace平滑——斯坦福ML公开课笔记5
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9285001 该系列笔记1-5pdf下载请猛击这里. 本篇博客为斯坦福ML公开 ...
[ML学习笔记] 朴素贝叶斯算法（Naive Bayesian)
[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先 ...
spark 机器学习朴素贝叶斯实现(二)
已知10月份10-22日网球场地,会员打球情况通过朴素贝叶斯算法,预测23,24号是否适合打网球.结果,日期,天气温度风速结果(0否,1是)天气(0晴天,1阴天,2下雨)温度(0热,1舒适,2冷) ...
【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）
目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶 ...
ML—朴素贝叶斯
华电北风吹日期:2015/12/12 朴素贝叶斯算法和高斯判别分析一样同属于生成模型.但朴素贝叶斯算法须要特征条件独立性如果,即样本各个特征之间相互独立. 一.朴素贝叶斯模型朴素贝叶斯算法通过训练 ...
spark(1.1) mllib 源码分析(三)-朴素贝叶斯
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4042467.html 本文主要以mllib 1.1版本为基础,分析朴素贝叶斯的基本原理与源码一.基本原 ...

随机推荐

github 访问加速
http://nullpointer.pw/github%E4%BB%A3%E7%A0%81clone%E5%8A%A0%E9%80%9F.html hosts:https://raw.githubu ...
css的层叠性+继承性+优先级+权重
一.层叠性 1.含义多种css样式叠加,浏览器处理冲突的能力. 2.原则 1>一般情况下,若出现冲突,会按照css的书写顺序,以最后的样式为准 2>样式不冲突,就不会层叠二.css的继 ...
群晖的moments套件发生未知错误
一次了,哎也不知道什么原因引起的只能再搞一遍先把homes文件夹数据弄走,免得弄丢然后卸载momemts,删除数据库还有其他人遇到这个情况http://www.gebi1.com/threa ...
linux sed命令使用疑惑总结
s 替换命令 [zhuhc@test111 ~]$ sed 's/ma/mass' test.txt , : unterminated `s' command 原因:替换命令s末尾的斜杠丢失了.正确命 ...
c++新特性实验(3)声明与定义:constexpr
1.作用 constexpr 声明一个函数或变量,它的值可以在编译时出现在常量表达式之中. 2.constexpr 变量要求其类型必须是字面类型 (LiteralType) . 它必须被立即初始化 ...
poweroj1745: 餐巾计划问题
传送门最小费用最大流. 每天拆成两个点,i表示用完的餐巾,i+n表示干净的餐巾. s向i连容量为ri费用为0的边,表示每天用脏的ri条餐巾. i+n向t连容量为ri费用为0的边,表示每天需要用ri条 ...
jquery全部选是，全部选否。
<div class="col-md-9"> <div class="box box-primary"> <div class=& ...
JQuery或JS判断浏览器内核版本号以及是否支持W3C盒子模型
jQuery 从 1.9 版开始,移除了 $.browser 和 $.browser.version , 取而代之的是 $.support .在更新的 2.0 版本中,将不再支持 IE 6/7/8. ...
Linux安装Desktop 和 vncserver
sudo su - #使用 root 账户 yum grouplist #查看所有可用的group yum groupinstall GNOME Desktop #安装 GNOME 桌面 yum -y ...
论ul、ol和dl的区别
1.ul是无序列表,也就是说没有排列限制可以随意加li: <ul> <li>可以随意放置</li> <li>可以随意放置</li> < ...

spark-ML之朴素贝叶斯

训练语料格式

建立模型测试并保存

使用模型预测

spark-ML之朴素贝叶斯的更多相关文章

随机推荐

热门专题