Spark Streaming里面使用文本分析模型

功能：接收来自kafka的数据，数据是一篇文章，来判断文章的类型，把判断的结果一并保存到Hbase，并把文章建立索引（没有代码只有一个空壳，可以自己实现，以后有机会了可能会补上）

import org.apache.spark.ml.PipelineModel

import org.apache.spark.ml.feature.{HashingTF, IDF, LabeledPoint, Tokenizer}

import org.apache.spark.ml.linalg.{Vector, Vectors}

import org.apache.spark.SparkConf

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream

import org.apache.spark.SparkConf

import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream.fromReceiverInputDStream

import org.apache.spark.rdd.RDD

import org.apache.spark.ml.classification.NaiveBayesModel

import org.omg.CORBA_2_3.portable.OutputStream

import java.io.FileOutputStream

class UseModel1 {

}

object UseModel1{

  //流程代码

  def main(args: Array[String]): Unit = {

    val Array(zkQuorum, group, topics, numThreads) =Array("192.168.10.199:2181","order","order","");

    val conf = new SparkConf().setAppName("useModel").setMaster("local[4]");

    val ssc = getStreamingContext(conf, );

    val dstreams = getKafkaDstream(ssc, topics, zkQuorum, group, numThreads);

    val dstream = dstreams.inputDStream.map(_._2);

    dstream.persist()

    //测试

    dstream.print()

    //如果能判断不为空就更好了

    dstream.foreachRDD(rdd =>everyRDD(rdd))

    ssc.start()

    ssc.awaitTermination()

  }

   //得到StreamingContext

  def getStreamingContext(conf:SparkConf,secend:Int):StreamingContext = {

    return new StreamingContext(conf, Seconds(secend))

  }

  //得到sparkSession

  def getSparkSession(conf:SparkConf): SparkSession = {

    val spark = SparkSession.builder()

          .config(conf)

          .config("spark.sql.warehouse.dir", "warehouse/dir")

          .getOrCreate()

    return spark;

  }

  //得到kafkaDStream

  def getKafkaDstream(ssc:StreamingContext,topics:String,zkQuorum:String,group:String,numThreads:String):JavaPairReceiverInputDStream[String,String] ={

     ssc.checkpoint("directory")

     val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap;

     val stream = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)

     return stream;

  }

  //文件保存测试

  def savaString(str:String):Unit={

    val out = new FileOutputStream("D:\\decstop\\file.txt",true);

    out.write(str.getBytes)

    out.flush()

    out.close()

  }

  //每一个rdd做动作

  def everyRDD(rdd:RDD[String]){

    val sameModel = NaiveBayesModel.load("resoult")

    val spark = getSparkSession(rdd.context.getConf)

    import spark.implicits._

    val rddDF = rdd.map { line => (,line) }.toDF("label","text").persist()

    //rddDF.show()

    val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val tokenizerRDD = tokenizer.transform(rddDF)

    //tokenizerRDD.show(false)

    val hashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val hashingTFRDD = hashingTF.transform(tokenizerRDD) 

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(hashingTFRDD)

    val rescaledData = idfModel.transform(hashingTFRDD)

    //rescaledData.show(false)

    //转化为贝叶斯需要的格式

    val useDataRdd = rescaledData.select($"label", $"features").map{

      case Row(label:Int , features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val predictions = sameModel.transform(useDataRdd)

    predictions.persist()

    //predictions.show(false)

    //参照下面可以实现各种的逻辑，可以把下面的保存，建索引都加上

    predictions.select($"label",$"prediction").foreach { x => savaString((""+x.getAs("label")+" "+x.getAs("prediction")+"\n\r")) }

    //测试

    predictions.createOrReplaceTempView("prediction")

    rddDF.createOrReplaceTempView("atical")

    //spark.sql("select p.label,p.prediction,a.text from prediction p,atical a where p.label=a.label").select(col, cols)

  }

  //简历索引 主要的建立索引的有hbase_rowKay(time) aothor title article

  def buiderIndex(){}

  //保存到hbase

  def savaToHbase(){

  }

  //发送到下一个kafka 发送的数据 time 正舆情数量 负面舆情数量 百分比 是否报警 

  def sendToKafka(){

  }

}

代码实现：

Spark Streaming里面使用文本分析模型的更多相关文章

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
Spark Streaming 入门指南
这篇博客帮你开始使用Apache Spark Streaming和HBase.Spark Streaming是核心Spark API的一个扩展,它能够处理连续数据流. Spark Streaming是 ...
9.Spark Streaming
Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark Streaming编程指南
Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（一）
本文由网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
Spark Streaming入门
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文将帮助您使用基于HBase的Apache Spark Streaming.Spark Streaming是Spark API核心的一个扩 ...

随机推荐

CWorkBooks、CWorkBook、CWorkSheets、CWorkSheet、CRange
我们使用VC++操作Excel,对于Excel编程来说肯定少不了要遇到六个最基本的类: CApplication.CWorkBook.CWorkBooks.CWorkSheet.CWorkSheets ...
Shell脚本中$0、$?、$!、$$、$*、$#、$@等的意义
http://blog.csdn.net/slovyz/article/details/47400107
iOS-WKWebView使用
使用代码:可直接粘贴到自己项目中使用 .h #import "BaseViewController.h" @interface LinkNewsController : BaseV ...
超全面的JavaWeb笔记day21<过滤器>
1.过滤器的原理 2.实现过滤器写一个类实现javax.servlet.Filter接口在web.xml中对Filter进行配置 3.Filter接口 void init(FilterConfig ...
python2.0 s12 day8 _ python线程&python进程
1.进程.与线程区别2.cpu运行原理3.python GIL全局解释器锁4.线程 1.语法 2.join 3.线程锁之Lock\Rlock\信号量 4.将线程变为守护进程 5.Event事件 6.q ...
改进动态设置query cache导致额外锁开销的问题分析及解决方法-mysql 5.5 以上版本
改进动态设置query cache导致额外锁开销的问题分析及解决方法关键字:dynamic switch for query cache, lock overhead for query cach ...
Android 使用WebView显示网页
构建WebView就可以显示Web信息.因为我觉得这里会讲述很多方式来实现WebView,所以我决定为每一种方式创建一个对应的Activity,MainActivity通过Button可以点击进入对应 ...
Docker源码分析（四）：Docker Daemon之NewDaemon实现
1. 前言 Docker的生态系统日趋完善,开发者群体也在日趋庞大,这让业界对Docker持续抱有极其乐观的态度.如今,对于广大开发者而言,使用Docker这项技术已然不是门槛,享受Docker带来的 ...
JS-随机div颜色
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
在android真机上使用sqlite3
#zijun#2013.10.29#QQ:223663737 在android真机上使用sqlite3 前期准备: 1:保证手机已经ROOT 操作步骤: 1 : 打开CMD 2 : 进入android ...

Spark Streaming里面使用文本分析模型

Spark Streaming里面使用文本分析模型的更多相关文章

随机推荐

热门专题