Spark Streaming里面使用文本分析模型

功能：接收来自kafka的数据，数据是一篇文章，来判断文章的类型，把判断的结果一并保存到Hbase，并把文章建立索引（没有代码只有一个空壳，可以自己实现，以后有机会了可能会补上）

import org.apache.spark.ml.PipelineModel

import org.apache.spark.ml.feature.{HashingTF, IDF, LabeledPoint, Tokenizer}

import org.apache.spark.ml.linalg.{Vector, Vectors}

import org.apache.spark.SparkConf

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream

import org.apache.spark.SparkConf

import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream.fromReceiverInputDStream

import org.apache.spark.rdd.RDD

import org.apache.spark.ml.classification.NaiveBayesModel

import org.omg.CORBA_2_3.portable.OutputStream

import java.io.FileOutputStream

class UseModel1 {

}

object UseModel1{

  //流程代码

  def main(args: Array[String]): Unit = {

    val Array(zkQuorum, group, topics, numThreads) =Array("192.168.10.199:2181","order","order","");

    val conf = new SparkConf().setAppName("useModel").setMaster("local[4]");

    val ssc = getStreamingContext(conf, );

    val dstreams = getKafkaDstream(ssc, topics, zkQuorum, group, numThreads);

    val dstream = dstreams.inputDStream.map(_._2);

    dstream.persist()

    //测试

    dstream.print()

    //如果能判断不为空就更好了

    dstream.foreachRDD(rdd =>everyRDD(rdd))

    ssc.start()

    ssc.awaitTermination()

  }

   //得到StreamingContext

  def getStreamingContext(conf:SparkConf,secend:Int):StreamingContext = {

    return new StreamingContext(conf, Seconds(secend))

  }

  //得到sparkSession

  def getSparkSession(conf:SparkConf): SparkSession = {

    val spark = SparkSession.builder()

          .config(conf)

          .config("spark.sql.warehouse.dir", "warehouse/dir")

          .getOrCreate()

    return spark;

  }

  //得到kafkaDStream

  def getKafkaDstream(ssc:StreamingContext,topics:String,zkQuorum:String,group:String,numThreads:String):JavaPairReceiverInputDStream[String,String] ={

     ssc.checkpoint("directory")

     val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap;

     val stream = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)

     return stream;

  }

  //文件保存测试

  def savaString(str:String):Unit={

    val out = new FileOutputStream("D:\\decstop\\file.txt",true);

    out.write(str.getBytes)

    out.flush()

    out.close()

  }

  //每一个rdd做动作

  def everyRDD(rdd:RDD[String]){

    val sameModel = NaiveBayesModel.load("resoult")

    val spark = getSparkSession(rdd.context.getConf)

    import spark.implicits._

    val rddDF = rdd.map { line => (,line) }.toDF("label","text").persist()

    //rddDF.show()

    val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")

    val tokenizerRDD = tokenizer.transform(rddDF)

    //tokenizerRDD.show(false)

    val hashingTF =

      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()

    val hashingTFRDD = hashingTF.transform(tokenizerRDD) 

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(hashingTFRDD)

    val rescaledData = idfModel.transform(hashingTFRDD)

    //rescaledData.show(false)

    //转化为贝叶斯需要的格式

    val useDataRdd = rescaledData.select($"label", $"features").map{

      case Row(label:Int , features:Vector) =>

        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))

    }

    val predictions = sameModel.transform(useDataRdd)

    predictions.persist()

    //predictions.show(false)

    //参照下面可以实现各种的逻辑，可以把下面的保存，建索引都加上

    predictions.select($"label",$"prediction").foreach { x => savaString((""+x.getAs("label")+" "+x.getAs("prediction")+"\n\r")) }

    //测试

    predictions.createOrReplaceTempView("prediction")

    rddDF.createOrReplaceTempView("atical")

    //spark.sql("select p.label,p.prediction,a.text from prediction p,atical a where p.label=a.label").select(col, cols)

  }

  //简历索引 主要的建立索引的有hbase_rowKay(time) aothor title article

  def buiderIndex(){}

  //保存到hbase

  def savaToHbase(){

  }

  //发送到下一个kafka 发送的数据 time 正舆情数量 负面舆情数量 百分比 是否报警 

  def sendToKafka(){

  }

}

代码实现：

Spark Streaming里面使用文本分析模型的更多相关文章

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
Spark Streaming 入门指南
这篇博客帮你开始使用Apache Spark Streaming和HBase.Spark Streaming是核心Spark API的一个扩展,它能够处理连续数据流. Spark Streaming是 ...
9.Spark Streaming
Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark Streaming编程指南
Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（一）
本文由网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
Spark Streaming入门
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文将帮助您使用基于HBase的Apache Spark Streaming.Spark Streaming是Spark API核心的一个扩 ...

随机推荐

最值得一看的几条简单的谷歌 Google 搜索技巧，瞬间提升你的网络搜索能力
可能你和我一样,几乎每天都必须与搜索引擎打交道,不过很多时候,你辛辛苦苦搜了半天也没找到合适的资料,然而“高手们”上来一眨眼功夫就能命中目标了.这并不是别人运气好,而是搜索引擎其实是有很多技巧可以帮助 ...
parameter "timeout" in socketchannel does not work
// Accept the connection and make it non-blocking SocketChannel socketChannel = serverSocketChannel. ...
NPOI抓取WPS表格保存的EXCEL文件
其实是可以抓取的,唯一不同就是Sheet的位置前进了一位. var sheet1 = (HSSFSheet)hssfworkbook.GetSheetAt(1); 来自为知笔记(Wiz ...
phpstrom配置
《C++ Primer Plus》第11章使用类学习笔记
本章介绍了定义和使用类的许多重要方面.一般来说,访问私有类成员的唯一方法是使用类方法.C++使用友元函数来避开这种限制.要让函数称为友元,需要在类声明中声明该函数,并在声明前加上关键字friend.C ...
JS-对象查找父级
之前在寻找两个以上的父级,一直傻傻的用parent().parent()... 今天,需要写五个,当然以前也是写过五个的,但是今天总想着换个简单的方式,至少不要.parent().parent().p ...
打造不死的asp木马
作者:黑色记忆本文已发表于<黑客X档案>杂志第十期版权归<黑客X档案>所有转载请注明版权想不到,前几天我才发现,我千辛万苦收集的asp木马,居然没有几个不被Kill的.常 ...
Java中DESKeySpec类
此类位于 javax.crypto.spec 包下.声明如下: public class DESKeySpec extends Object implements KeySpec 此类指定一个 DES ...
【BZOJ1045】[HAOI2008] 糖果传递贪心
[BZOJ1045][HAOI2008] 糖果传递 Description 有n个小朋友坐成一圈,每人有ai个糖果.每人只能给左右两人传递糖果.每人每次传递一个糖果代价为1. Input 第一行一个正 ...
angular -- get请求该如何使用？
在做 angualr 的开发过程中,经常会用到的就是 ajax 请求.下面是 get 请求示例: 如果存在多个 get 请求可以考虑进行封装下: // get 携参数访问 ajaxGet(getUrl ...

Spark Streaming里面使用文本分析模型

Spark Streaming里面使用文本分析模型的更多相关文章

随机推荐

热门专题