Spark中文文本分析建模

实用的朴素贝叶斯模型建模
建模过程主要是把文本转化成向量然后再作分析
数据格式：

，善良 美丽

，丑陋 阴险 卑鄙

，温和

.......

注：前面是给文章贴的标签，后面是文章的分词，分词可以找关于分词的文章去查看，后面我也会写关于分词的文章

import org.apache.spark.SparkConf

import org.apache.spark.sql.SparkSession

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.Tokenizer

import org.apache.spark.ml.feature.HashingTF

import org.apache.spark.sql.Row

import org.apache.spark.ml.linalg.Vector

import org.apache.spark.ml.linalg.Vectors

import org.apache.spark.ml.feature.LabeledPoint

import org.apache.spark.ml.feature.IDF

import org.apache.spark.ml.classification.NaiveBayes

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

class CreatModel {

}

object CreatModel{

  case class RawDataRecord(category: String, text: String)

  def main(args: Array[String]): Unit = {

    val config = new SparkConf().setAppName("createModel").setMaster("local[4]");

    val sc =new  SparkContext(config);

    val spark = SparkSession.builder().config(config).config("spark.sql.warehouse.dir", "warehouse/dir").getOrCreate();

    import spark.implicits._

    //分数据

    val Array(srcDF,testDF) = sc.textFile("D:\\decstop\\testFiles\\sougou").map {

      x =>

        val data = x.split(",")

        RawDataRecord(data(),data())

    }.toDF().randomSplit(Array(0.7,0.3))

    //分词

    val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val wordsData = tokenizer.transform(srcDF)

    wordsData.show(false)

    val testtokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val testwordsData = testtokenizer.transform(testDF)

    //文档词频

    val hashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val featurizedData = hashingTF.transform(wordsData)

    val testhashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val testfeaturizedData = testhashingTF.transform(testwordsData)

    //逆文档词频

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(featurizedData)

    val rescaledData = idfModel.transform(featurizedData)

    val testidf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val testidfModel = testidf.fit(testfeaturizedData)

    val testrescaledData = testidfModel.transform(testfeaturizedData)

    rescaledData.show(false)

    //转换成贝叶斯的输入格式

    val trainDataRdd = rescaledData.select($"category",$"features").map {

      case Row(label: String, features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val testtrainDataRdd = testrescaledData.select($"category",$"features").map {

      case Row(label: String, features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val model =new NaiveBayes().fit(trainDataRdd)

    val predictions = model.transform(testtrainDataRdd)

    println("predictln out:");

    predictions.show();

    model.write.overwrite().save("resoult")

    //模型评估

    val evaluator = new MulticlassClassificationEvaluator()

      .setLabelCol("label")

      .setPredictionCol("prediction")

      .setMetricName("accuracy")

    val accuracy = evaluator.evaluate(predictions)

    println("accuracy out :")

    println("Accuracy:"+accuracy)

  }

}

Spark中文文本分析建模的更多相关文章

基于 Spark 的文本情感分析
转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.ht ...
LSTM实现中文文本情感分析
1. 背景介绍文本情感分析是在文本分析领域的典型任务,实用价值很高.本模型是第一个上手实现的深度学习模型,目的是对深度学习做一个初步的了解,并入门深度学习在文本分析领域的应用.在进行模型的上手实现之 ...
Spark 的情感分析
Spark 的情感分析本文描述了基于 Spark 如何构建一个文本情感分析系统.文章首先介绍文本情感分析基本概念和应用场景,其次描述采用 Spark 作为分析的基础技术平台的原因和本文使用到技术组件 ...
万字总结Keras深度学习中文文本分类
摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文 ...
Solr：文本分析
文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引 ...
ChineseCounter.cs 统计中文文本中常用字占比
http://www.tuicool.com/articles/qmMba2 1 using System; using System.IO; using System.Collections.Gen ...
为网上流行论点“UIAutomator不能通过中文文本查找控件”正名
1. 问题描述和起因相信大家学习UIAutomator一开始的时候必然会看过一下这篇文章. Android自动化测试(UiAutomator)简要介绍因为你在百度输入UIAutomator搜索的时 ...
Spark源码分析之Spark Shell（下）
继上次的Spark-shell脚本源码分析,还剩下后面半段.由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述. 上篇回顾:Spark源码分析之Spark Shell(上 ...
用R进行文本分析初探——以《红楼梦》为例
一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text ...

随机推荐

如何在浏览器控制台(console)里输出彩色样式调试信息
console.log(XX,XX,XX) log 的第一个参数声明第二.第三个参数的作用,第二个参数就是样式,第三个参数是要输出的字符串 console.log("%c%s", ...
MathType中常遇到的几个问题
每次打开别人的论文,发现公式文字都排版得非常整齐,公式也编辑得非常漂亮,看起来就非常得赏心悦目.再打开自己的论文,一片凌乱,自己不想都再看,公式编辑得乱七八糟,符号不够规范,大小不够统一,你自己都觉得 ...
linux环境,crontab报错Authentication token is no longer valid; new one required You (aimonitor) are not allowed to access to (crontab) because of pam configuration.
问题描述: 今天同事反应,一个系统上的某些数据没有生成,看了下,怀疑定时任务没有执行,就看下了crontab,发现报了下面的错误: [aimonitor@4A-LF-w08 ~]$ crontab - ...
linux系统中RPM包的通用命名规则
http://blog.csdn.net/kexiuyi/article/details/53292358
c#接口作为参数传递、返回
接口做为参数传递,传递的是实现了接口的对象: 接口作为类型返回,返回的是实现了接口的对象. 接口的传递与返回就是围绕着上面的两句话展开的.
css揭秘读书笔记
currentColor属性让hr和段落相同的颜色: div { color: red; } hr { background: currentColor; /* 一定要设置高度*/ height: 0 ...
ArcGIS ArcPy Python处理数据
1.使用搜索游标查看行中的字段值.import arcpy # Set the workspace arcpy.env.workspace = "c:/base/data.gdb" ...
解决IE中img.onload失效的方法
解决IE中img.onload失效的方法 - CoffeeCat's IT Blog - IT博客 http://www.cnitblog.com/CoffeeCat/archive/2008/02/ ...
isdigit()
isdigit() 是字符串的一个方法,用来判断这个字符串是否是纯数字的字符串 In [1]: str = 'hello' In [2]: str.isdigit() Out[2]: False In ...
是否可以从一个static（静态）方法内部调用非static（非静态）方法？
不可以.static方法调用时不需要创建对象(可直接调用),当一个static方法被调用时,可能还没有创建任何实例对象,也就不可能调用非静态方法.

Spark中文文本分析建模

Spark中文文本分析建模的更多相关文章

随机推荐

热门专题