scala_spark实践1

/**

  *  scala模型的main(args:Array[String])是业务执行入口

  *  org.apache.spark.{SparkConf, SparkContext}

  *  val sparkConf =new SparkConf().setAppName(appName)

  *  val ssc = new StreamingContext(sparkConf, Seconds(batchNum))

  *  val sc = ssc.sparkContext  //如果代码中不用StreamingContextval 只需要SparkContext则new一个如val sc = new SparkContext(sparkConf)

  *

  *  val sqlContext = new HiveContext(sc)//HiveContext是对SQLContext的扩展 val sqlContext = new SQLContext(sc)

  *  val result:DataFrame = sqlContext.sql(sql)

  *  //2.0之后HiveContext和SQLContext也可以用SparkSession替换val result =SparkSession.builder().appName("test").config("key","value").getOrCreate().sql(sql)

  *

  *  项目中一般用json处理，如发送kafka或者格式转换和过滤

  *   val resultRdd = result.toJSON.rdd.map(x => {

          val json = new JSONObject(x)

          val computerIp = json.optString("ip", "")

          val rowKey = json.optString("name", "")

          ......

          val dataMap = new util.HashMap[String, String]()

          dataMap.put("computerip", computerIp)

          (rowKey, dataMap)

      })

   val bhaseRdd = resultRdd.filter(r => {

   r._1 != "" && r._1 != null && r._1.length > 0

   }).map(line => {

   val put = new Put(Bytes.toBytes(line._1)) //rowKey 为参数，拿到put

   val key = line._2.keySet().iterator(); //拿到对应的dataMap

   while (key.hasNext) {

    val k = key.next().toString

    put.addColumn(Bytes.toBytes("info"), Bytes.toBytes(k), Bytes.toBytes(line._2.get(k)))

   }

    (new ImmutableBytesWritable(), put)

   })

   val hadoopconf = sc.hadoopConfiguration

   val jobconf = new JobConf(hadoopconf)

   jobconf.setMapOutputKeyClass(classOf[ImmutableBytesWritable])

   jobconf.setOutputValueClass(classOf[Result])

   jobconf.setClass("mapreduce.job.outputformat.class", classOf[TableOutputFormat[ImmutableBytesWritable]],classOf[OutputFormat[ImmutableBytesWritable, Mutation]])

   jobconf.set(TableOutputFormat.OUTPUT_TABLE, table)

   bhaseRdd.saveAsNewAPIHadoopDataset(jobconf) //存入Hasee

  *-----------------------------------------------------------------------------------------------------------

  * class KafkaSink(createProducer: () => KafkaProducer[String, String]) extends Serializable {

    lazy val producer = createProducer()

    def send(topic: String, value: String): Unit ={

      producer.send(new ProducerRecord(topic, value))

    }

    }

  object KafkaSink {

    def apply(config: java.util.Map[String, Object]): KafkaSink = {

      val f = () => {

        val producer = new KafkaProducer[String, String](config)

        producer

      }

      new KafkaSink(f)

    }

  }

  *val kafka = sc.broadcast(KafkaSink(Configs.kafka_props))

  *selectDatas.toJSON.rdd.foreach(x => {

      val json = new JSONObject(x)

      kafka.value.send(topic, json.toString)

  })

  *//发送topic

  *-------------------------------------------------------------------

* val kafkaStream= KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](ssc,kafka_param,topic,StorageLevel.MEMORY_AND_DISK_SER).map(_._2)

* kafkaStream.foreachRDD(rdd =>{

*   rdd.foreach(data=> {

* //消费kafka

*/

scala_spark实践1的更多相关文章

scala_spark实践4
SparkStreaming中foreachRDD SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是“批处理”).每一个时间段内处理的都是一个RDD.而Spar ...
scala_spark实践3
Spark 读写HBase优化读数据可以采用RDD的方式读取HBase数据: val conf = HBaseConfiguration.create() conf.set(TableInputF ...
scala_spark实践2
参考:jianshu.com/p/9d2d225c1951 监听socket获取数据,代码如下:这里使用nc -lk 9999 在ip为10.121.33.44的机器上发送消息 object Sock ...
webp图片实践之路
最近,我们在项目中实践了webp图片,并且抽离出了工具模块,整合到了项目的基础模板中.传闻IOS10也将要支持webp,那么使用webp带来的性能提升将更加明显.估计在不久的将来,webp会成为标配. ...
Hangfire项目实践分享
Hangfire项目实践分享目录 Hangfire项目实践分享目录什么是Hangfire Hangfire基础基于队列的任务处理(Fire-and-forget jobs) 延迟任务执行(De ...
TDD在Unity3D游戏项目开发中的实践
0x00 前言关于TDD测试驱动开发的文章已经有很多了,但是在游戏开发尤其是使用Unity3D开发游戏时,却听不到特别多关于TDD的声音.那么本文就来简单聊一聊TDD如何在U3D项目中使用以及如何使 ...
Logstash实践: 分布式系统的日志监控
文/赵杰 2015.11.04 1. 前言服务端日志你有多重视? 我们没有日志有日志,但基本不去控制需要输出的内容经常微调日志,只输出我们想看和有用的经常监控日志,一方面帮助日志微调,一方面及 ...
【大型网站技术实践】初级篇：借助Nginx搭建反向代理服务器
一.反向代理:Web服务器的“经纪人” 1.1 反向代理初印象反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从 ...
Windows平台分布式架构实践 - 负载均衡
概述最近.NET的世界开始闹腾了,微软官方终于加入到了对.NET跨平台的支持,并且在不久的将来,我们在VS里面写的代码可能就可以通过Mono直接在Linux和Mac上运行.那么大家(开发者和企业)为 ...

随机推荐

一、create-react-app的安装及使用
一.安装create-react-app 1.在全局环境中安装create-react-app npm install -g create-react-app 2.在您所需要的目录(盘)下生成一个项目 ...
选择tomcat时候提示Project facet Java version 1.8 is not supported.解决办法
是因为jdk版本不一致导致的,如何解决? 方法一: 选中项目Properties,选择Project Facets,右击选择Java,Change Version 方法二: 在项目的目录下有一个.se ...
JAVA为什么不能通过构造函数传参来设置数组长度。
今天我们来说说 JAVA通过构造函数传递的参数来设置数组长度的问题. 问题在于我们没有明确知晓JVM的运行顺序.在new对象的时候,先调用构造函数,但是并没有将执行构造函数的代码,随机之后就初始化了 ...
一款带Web面板的轻量级、高性能内网穿透工具：nps使用教程
说明:内网穿透工具之前已经介绍了不少了,比如Frp.lanproxy.Holer等,现在再介绍个带Web面板的穿透工具nps,之前叫easyProxy,只是改名了而已,该工具是一款使用go语言编写的轻 ...
李瑞红201771010111《面向对象程序设计（java）》第四周学习总结
实验四:类与对象的定义及使用第一部分:理论知识学习 1.类与对象概念 (1)类是构造对象的模板或蓝图,由类构造对象的过程称为创建类的实例. (2)对象:即数据,对象有三个特性,行为.状态.标识. ...
干货|Python基础入门课程笔记（三）
目录列表元组字典三元表达式一.列表前面学习的字符串可以用来存储一串信息,那么想一想,如果现在有很多人,总不能每个人都起一个变量名把?那岂不得疯~ 咱们可以使用列表. (1)列表得格式和输出 ...
ThunderNet ：像闪电一样，旷视再出超轻量级检测器，高达267fps | ICCV 2019
论文提出了实时的超轻量级two-stage detector ThunderNet,靠着精心设计的主干网络以及提高特征表达能力的CEM和SAM模块,使用很少的计算量就能超越目前的one-stage d ...
本地不安装Oracle时，PLSQL的配置
这篇我在csdn上写过的,文章地址:https://blog.csdn.net/weixin_40404606/article/details/101940542
【Ubuntu】常用命令汇总，整理ing
Ubuntu 常用命令(在此页面中Ctrl+F即可快速查找) 在Ubuntu系统使用过程中,会不断地接触到命令行操作,下面对一些常用的命令进行汇总,方便查找. 1.文件操作 1.1 文件复制拷贝 cp ...
scikit_learn分类器详解
1 分类分类是将事物按特性进行分类,例如将手写数字图片分类为对应的数字. 1.1 MINIST数字图片集分类 MINST就是一个70000张规格较小的手写数字图片,如何将他们分类为对应 ...

scala_spark实践1

scala_spark实践1的更多相关文章

随机推荐

热门专题