Spark中文文本分析建模

实用的朴素贝叶斯模型建模
建模过程主要是把文本转化成向量然后再作分析
数据格式：

，善良 美丽

，丑陋 阴险 卑鄙

，温和

.......

注：前面是给文章贴的标签，后面是文章的分词，分词可以找关于分词的文章去查看，后面我也会写关于分词的文章

import org.apache.spark.SparkConf

import org.apache.spark.sql.SparkSession

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.Tokenizer

import org.apache.spark.ml.feature.HashingTF

import org.apache.spark.sql.Row

import org.apache.spark.ml.linalg.Vector

import org.apache.spark.ml.linalg.Vectors

import org.apache.spark.ml.feature.LabeledPoint

import org.apache.spark.ml.feature.IDF

import org.apache.spark.ml.classification.NaiveBayes

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

class CreatModel {

}

object CreatModel{

  case class RawDataRecord(category: String, text: String)

  def main(args: Array[String]): Unit = {

    val config = new SparkConf().setAppName("createModel").setMaster("local[4]");

    val sc =new  SparkContext(config);

    val spark = SparkSession.builder().config(config).config("spark.sql.warehouse.dir", "warehouse/dir").getOrCreate();

    import spark.implicits._

    //分数据

    val Array(srcDF,testDF) = sc.textFile("D:\\decstop\\testFiles\\sougou").map {

      x =>

        val data = x.split(",")

        RawDataRecord(data(),data())

    }.toDF().randomSplit(Array(0.7,0.3))

    //分词

    val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val wordsData = tokenizer.transform(srcDF)

    wordsData.show(false)

    val testtokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val testwordsData = testtokenizer.transform(testDF)

    //文档词频

    val hashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val featurizedData = hashingTF.transform(wordsData)

    val testhashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val testfeaturizedData = testhashingTF.transform(testwordsData)

    //逆文档词频

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(featurizedData)

    val rescaledData = idfModel.transform(featurizedData)

    val testidf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val testidfModel = testidf.fit(testfeaturizedData)

    val testrescaledData = testidfModel.transform(testfeaturizedData)

    rescaledData.show(false)

    //转换成贝叶斯的输入格式

    val trainDataRdd = rescaledData.select($"category",$"features").map {

      case Row(label: String, features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val testtrainDataRdd = testrescaledData.select($"category",$"features").map {

      case Row(label: String, features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val model =new NaiveBayes().fit(trainDataRdd)

    val predictions = model.transform(testtrainDataRdd)

    println("predictln out:");

    predictions.show();

    model.write.overwrite().save("resoult")

    //模型评估

    val evaluator = new MulticlassClassificationEvaluator()

      .setLabelCol("label")

      .setPredictionCol("prediction")

      .setMetricName("accuracy")

    val accuracy = evaluator.evaluate(predictions)

    println("accuracy out :")

    println("Accuracy:"+accuracy)

  }

}

Spark中文文本分析建模的更多相关文章

基于 Spark 的文本情感分析
转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.ht ...
LSTM实现中文文本情感分析
1. 背景介绍文本情感分析是在文本分析领域的典型任务,实用价值很高.本模型是第一个上手实现的深度学习模型,目的是对深度学习做一个初步的了解,并入门深度学习在文本分析领域的应用.在进行模型的上手实现之 ...
Spark 的情感分析
Spark 的情感分析本文描述了基于 Spark 如何构建一个文本情感分析系统.文章首先介绍文本情感分析基本概念和应用场景,其次描述采用 Spark 作为分析的基础技术平台的原因和本文使用到技术组件 ...
万字总结Keras深度学习中文文本分类
摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文 ...
Solr：文本分析
文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引 ...
ChineseCounter.cs 统计中文文本中常用字占比
http://www.tuicool.com/articles/qmMba2 1 using System; using System.IO; using System.Collections.Gen ...
为网上流行论点“UIAutomator不能通过中文文本查找控件”正名
1. 问题描述和起因相信大家学习UIAutomator一开始的时候必然会看过一下这篇文章. Android自动化测试(UiAutomator)简要介绍因为你在百度输入UIAutomator搜索的时 ...
Spark源码分析之Spark Shell（下）
继上次的Spark-shell脚本源码分析,还剩下后面半段.由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述. 上篇回顾:Spark源码分析之Spark Shell(上 ...
用R进行文本分析初探——以《红楼梦》为例
一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text ...

随机推荐

DOTween中的Time.Scale
因为在做游戏暂停的时候通常会使用Time.Scale ＝ 0 ,可是暂停的时候UI如果需要继续有动画怎么办呢?在DoTween中只需要设置 tweener.SetUpdate(true ...
如何在ChemDraw中绘制分子立体结构
ChemDraw是当前最常用的的化学结构绘图软件,软件功能包括化学作图.分子模型生成.化学数据库信息管理等,可以说是化学家和生物学家所需要最终极的化学结构绘图工具.本教程主要介绍ChemDraw绘制分 ...
【java】java内存模型(2)--volatile内存语义详解
多线程并发编程中synchronized和Volatile都扮演着重要的角色,Volatile是轻量级的synchronized,它在多处理器开发中保证了共享变量的“可见性”.可见性的意思是当一个线程 ...
C#导出Excel按照指定格式设置单元格属性值
最近项目中一直在写XML.Table.Excel之间的转化.之前一直都是不考虑格式的导出,今天给出一个格式,让按照格式导出,还真把我这新手为难了一翻,网上给出的资料基本一样.为了一个单元格文字变色纠结 ...
Hash表 hash table 又名散列表
直接进去主题好了. 什么是哈希表? 哈希表(Hash table,也叫散列表),是根据key而直接进行访问的数据结构.也就是说,它通过把key映射到表中一个位置来访问记录,以加快查找的速度.这个映射函 ...
Python 练习题：统计系统剩余内存
#!/usr/bin/env python #-*- coding:utf-8 -*- ''' 统计系统内存信息 ''' with open('/proc/meminfo') as fd: for l ...
M0 M4之UART初始化
新唐的M0/M4 UART都有16级或者64级FIFO,用来缓存UART数据的收/发.例如:如果RX FIFO中断触发级别设为14,UART接收14个字节才会发生RDA(接收数据可得)中断.这样可以降 ...
如何提高AJAX客户端响应速度
AJAX的出现极大的改变了Web应用客户端的操作模式,它使的用户可以在全心工作时不必频繁的忍受那令人厌恶的页面刷新.理论上AJAX技术在很大的程度上可以减少用户操作的等待时间,同时节约网络上的数据流量 ...
[置顶] think in java interview-高级开发人员面试宝典代码示例
下载资源地址为: http://download.csdn.net/detail/lifetragedy/6379755 这是think in java interview中的代码示例,包括JAVA基 ...
Eclipse '<>' operator is not allowed for source level below 1.7
'<>' operator is not allowed for source level below 1.7 解决方法:

Spark中文文本分析建模

Spark中文文本分析建模的更多相关文章

随机推荐

热门专题