功能:接收来自kafka的数据,数据是一篇文章,来判断文章的类型,把判断的结果一并保存到Hbase,并把文章建立索引(没有代码只有一个空壳,可以自己实现,以后有机会了可能会补上)

import org.apache.spark.ml.PipelineModel
import org.apache.spark.ml.feature.{HashingTF, IDF, LabeledPoint, Tokenizer}
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream
import org.apache.spark.SparkConf
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream.fromReceiverInputDStream
import org.apache.spark.rdd.RDD
import org.apache.spark.ml.classification.NaiveBayesModel
import org.omg.CORBA_2_3.portable.OutputStream
import java.io.FileOutputStream class UseModel1 { }
object UseModel1{
//流程代码
def main(args: Array[String]): Unit = {
val Array(zkQuorum, group, topics, numThreads) =Array("192.168.10.199:2181","order","order","");
val conf = new SparkConf().setAppName("useModel").setMaster("local[4]");
val ssc = getStreamingContext(conf, );
val dstreams = getKafkaDstream(ssc, topics, zkQuorum, group, numThreads);
val dstream = dstreams.inputDStream.map(_._2);
dstream.persist()
//测试
dstream.print()
//如果能判断不为空就更好了
dstream.foreachRDD(rdd =>everyRDD(rdd))
ssc.start()
ssc.awaitTermination()
} //得到StreamingContext
def getStreamingContext(conf:SparkConf,secend:Int):StreamingContext = {
return new StreamingContext(conf, Seconds(secend))
} //得到sparkSession
def getSparkSession(conf:SparkConf): SparkSession = {
val spark = SparkSession.builder()
.config(conf)
.config("spark.sql.warehouse.dir", "warehouse/dir")
.getOrCreate()
return spark;
} //得到kafkaDStream
def getKafkaDstream(ssc:StreamingContext,topics:String,zkQuorum:String,group:String,numThreads:String):JavaPairReceiverInputDStream[String,String] ={
ssc.checkpoint("directory")
val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap;
val stream = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)
return stream;
} //文件保存测试
def savaString(str:String):Unit={
val out = new FileOutputStream("D:\\decstop\\file.txt",true);
out.write(str.getBytes)
out.flush()
out.close()
} //每一个rdd做动作
def everyRDD(rdd:RDD[String]){
val sameModel = NaiveBayesModel.load("resoult") val spark = getSparkSession(rdd.context.getConf)
import spark.implicits._
val rddDF = rdd.map { line => (,line) }.toDF("label","text").persist()
//rddDF.show()
val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")
val tokenizerRDD = tokenizer.transform(rddDF)
//tokenizerRDD.show(false) val hashingTF =
new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures()
val hashingTFRDD = hashingTF.transform(tokenizerRDD) val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(hashingTFRDD)
val rescaledData = idfModel.transform(hashingTFRDD)
//rescaledData.show(false)
//转化为贝叶斯需要的格式
val useDataRdd = rescaledData.select($"label", $"features").map{
case Row(label:Int , features:Vector) =>
LabeledPoint(label.toDouble, Vectors.dense(features.toArray))
}
val predictions = sameModel.transform(useDataRdd)
predictions.persist()
//predictions.show(false)
//参照下面可以实现各种的逻辑,可以把下面的保存,建索引都加上
predictions.select($"label",$"prediction").foreach { x => savaString((""+x.getAs("label")+" "+x.getAs("prediction")+"\n\r")) } //测试
predictions.createOrReplaceTempView("prediction")
rddDF.createOrReplaceTempView("atical") //spark.sql("select p.label,p.prediction,a.text from prediction p,atical a where p.label=a.label").select(col, cols) } //简历索引 主要的建立索引的有hbase_rowKay(time) aothor title article
def buiderIndex(){} //保存到hbase
def savaToHbase(){ } //发送到下一个kafka 发送的数据 time 正舆情数量 负面舆情数量 百分比 是否报警 def sendToKafka(){ }
}

代码实现:

Spark Streaming里面使用文本分析模型的更多相关文章

  1. Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...

  2. Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源 ...

  3. Spark Streaming官方文档学习--上

    官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...

  4. Spark Streaming 入门指南

    这篇博客帮你开始使用Apache Spark Streaming和HBase.Spark Streaming是核心Spark API的一个扩展,它能够处理连续数据流. Spark Streaming是 ...

  5. 9.Spark Streaming

    Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ...

  6. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  7. Spark Streaming编程指南

    Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ...

  8. Apache 流框架 Flink,Spark Streaming,Storm对比分析(一)

    本文由  网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...

  9. Spark Streaming入门

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文将帮助您使用基于HBase的Apache Spark Streaming.Spark Streaming是Spark API核心的一个扩 ...

随机推荐

  1. 最值得一看的几条简单的谷歌 Google 搜索技巧,瞬间提升你的网络搜索能力

    可能你和我一样,几乎每天都必须与搜索引擎打交道,不过很多时候,你辛辛苦苦搜了半天也没找到合适的资料,然而“高手们”上来一眨眼功夫就能命中目标了.这并不是别人运气好,而是搜索引擎其实是有很多技巧可以帮助 ...

  2. parameter "timeout" in socketchannel does not work

    // Accept the connection and make it non-blocking SocketChannel socketChannel = serverSocketChannel. ...

  3. NPOI抓取WPS表格保存的EXCEL文件

    其实是可以抓取的,唯一不同就是Sheet的位置前进了一位.     var sheet1 = (HSSFSheet)hssfworkbook.GetSheetAt(1);     来自为知笔记(Wiz ...

  4. phpstrom配置

  5. 《C++ Primer Plus》第11章 使用类 学习笔记

    本章介绍了定义和使用类的许多重要方面.一般来说,访问私有类成员的唯一方法是使用类方法.C++使用友元函数来避开这种限制.要让函数称为友元,需要在类声明中声明该函数,并在声明前加上关键字friend.C ...

  6. JS-对象查找父级

    之前在寻找两个以上的父级,一直傻傻的用parent().parent()... 今天,需要写五个,当然以前也是写过五个的,但是今天总想着换个简单的方式,至少不要.parent().parent().p ...

  7. 打造不死的asp木马

    作者:黑色记忆本文已发表于<黑客X档案>杂志第十期 版权归<黑客X档案>所有 转载请注明版权 想不到,前几天我才发现,我千辛万苦收集的asp木马,居然没有几个不被Kill的.常 ...

  8. Java中DESKeySpec类

    此类位于 javax.crypto.spec 包下.声明如下: public class DESKeySpec extends Object implements KeySpec 此类指定一个 DES ...

  9. 【BZOJ1045】[HAOI2008] 糖果传递 贪心

    [BZOJ1045][HAOI2008] 糖果传递 Description 有n个小朋友坐成一圈,每人有ai个糖果.每人只能给左右两人传递糖果.每人每次传递一个糖果代价为1. Input 第一行一个正 ...

  10. angular -- get请求该如何使用?

    在做 angualr 的开发过程中,经常会用到的就是 ajax 请求.下面是 get 请求示例: 如果存在多个 get 请求可以考虑进行封装下: // get 携参数访问 ajaxGet(getUrl ...