Spark ML 文本的分类

最近一直在研究Spark的分类算法，因为我们是做日志文本分类，在官网和各大网站一直没找到相应的Demo，经过1个多月的研究，终于有点成效。

val sparkConf = new SparkConf().setAppName("DecisionTree1").setMaster("local[2]")

    val sc = new SparkContext(sparkConf)

    var data1 = sc.textFile("/XXX/sample_libsvm_data.txt")

    val hashingTF = new HashingTF()

    val data = data1.map { line =>

      val parts = line.split('\t')

      LabeledPoint(parts(0).toDouble, hashingTF.transform(parts.tail))

    }

    val splits = data.randomSplit(Array(0.9, 0.1))

    val (trainingData, testData) = (splits(0), splits(1))

    // Train a DecisionTree model.

    //  Empty categoricalFeaturesInfo indicates all features are continuous.

    val numClasses = 5

    val categoricalFeaturesInfo = Map[Int, Int]()

    val impurity = "gini"

    val maxDepth = 5

    val maxBins = 32

    println("--------------------train--------------------")

    val model = DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,

      impurity, maxDepth, maxBins)

    println("--------------------Test--------------------")

    // Evaluate model on test instances and compute test error

    val testStr = Array("l","o","k")

    val prediction = model.predict(hashingTF.transform(testStr))

    println("-----------------------------------------")

    println(prediction)

    println("-----------------------------------------")

样例数据：

2    f    g    k    m

3    o    p    s    d

4    i    l    o    v

4    i    l    o    w

4    i    l    o    f

4    i    l    o    k

4    i    l    o    n

4    i    l    o    a

2    f    g    i    m

2    f    g    o    m

2    f    g    u    m

2    f    g    w    m

3    o    k    s    d

3    o    m    s    d

3    o    s    s    d

3    o    i    s    d

Classification算法只支持Double类型，其实我们的核心就是怎么把字符串转成Double型的向量，在Spark1.3.0版本中有 HashingTF 来做转化，就发现程序很简单了。

Spark ML 文本的分类的更多相关文章

基于 Spark 的文本情感分析
转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.ht ...
Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用
1. Naive Bayes算法朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种.在文本分类上经常会用到这两种方法.在词袋模型中,对于一 ...
Spark ML Pipeline简介
Spark ML Pipeline基于DataFrame构建了一套High-level API,我们可以使用MLPipeline构建机器学习应用,它能够将一个机器学习应用的多个处理过程组织起来,通过在 ...
朴素贝叶斯算法源码分析及代码实战【python sklearn/spark ML】
一.简介贝叶斯定理是关于随机事件A和事件B的条件概率的一个定理.通常在事件A发生的前提下事件B发生的概率,与在事件B发生的前提下事件A发生的概率是不一致的.然而,这两者之间有确定的关系,贝叶斯定理就 ...
Spark ML源码分析之一设计框架解读
本博客为作者原创,如需转载请注明参考在深入理解Spark ML中的各类算法之前,先理一下整个库的设计框架,是非常有必要的,优秀的框架是对复杂问题的抽象和解剖,对这种抽象的学习本身 ...
Spark ML机器学习
Spark提供了常用机器学习算法的实现, 封装于spark.ml和spark.mllib中. spark.mllib是基于RDD的机器学习库, spark.ml是基于DataFrame的机器学习库. ...
Spark中文文本分析建模
实用的朴素贝叶斯模型建模建模过程主要是把文本转化成向量然后再作分析数据格式: ,善良美丽 ,丑陋阴险卑鄙 ,温和 ....... 注:前面是给文章贴的标签,后面是文章的分词,分词可以找关于分 ...
基于Spark ML的Titanic Challenge (Top 6%)
下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测. scala 2.11.12 spark 2.2.2 packa ...
Spark ML 中 VectorIndexer, StringIndexer等用法（转载）
VectorIndexer 主要作用:提高决策树或随机森林等ML方法的分类效果.VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features ...

随机推荐

Python、PIP环境变量的配置
Python安装的路径:D:\Python35 pip的环境变量 Python和pip的PATH: PIP下载链接:https://pypi.python.org/pypi/pip 随意解压好,然后C ...
MySQL删除表数据
原文请点这里在MySQL中有两种方法可以删除数据,一种是DELETE语句,另一种是TRUNCATE TABLE语句.DELETE语句可以通过WHERE对要删除的记录进行选择.而使用TRUNCATE ...
yii2.0高级框架配置时打开init.bat秒退的解决方法 (两种方法)
第一种: 这几天刚接触到yii2.0框架,在配置advanced版本时运行init.bat初始化文件时老是闪退: 用cmd运行该文件时显示:The OpenSSL PHP extension is r ...
PR和VV的分类与区别
Adobe Premiere是一款常用的视频编辑软件,由Adobe公司推出.现在常用的有CS4.CS5.CS6.CC.CC 2014及CC 2015版本.是一款编辑画面质量比较好的软件,有较好的兼容性 ...
hadoop运行原理之Job运行(二) Job提交及初始化
本篇主要介绍Job从客户端提交到JobTracker及其被初始化的过程. 以WordCount为例,以前的程序都是通过JobClient.runJob()方法来提交Job,但是现在大多用Job.wai ...
My Game --线段数据
在背景中用到了一个自定义的类 VectArr : class VectArr { public: VectArr( const Bezier & bz, int conut = 30 ) : ...
ASP.NET Web API 入门示例详解
REST服务已经成为最新的服务端开发趋势,ASP.NET Web API即为.NET平台的一种轻量级REST架构. ASP.NET Web API直接借鉴了ASP.NET MVC的设计,两者具有非常类 ...
Sae上传war包找不到编译文件
最近在试新浪的sae平台,有个问题困扰了几天,现在想来还是自己对JAVA的理解不深入,这里写下仅作记忆. 问题:在整微信公众号平台进开发者中心的时候,token验证一直是失败的.但是项目在本地的环境中 ...
Android Studio 1.5错误
Error:Unable to start the daemon process: could not reserve enough space for object heap. Please ass ...
mysql linux终端登陆
mysql -uroot -hlocalhost -psorry 设置远程登录用户名及密码 GRANT ALL PRIVILEGES ON *.* TO root@"%" IDE ...

Spark ML 文本的分类

Spark ML 文本的分类的更多相关文章

随机推荐

热门专题