scala_spark实践1

/**

  *  scala模型的main(args:Array[String])是业务执行入口

  *  org.apache.spark.{SparkConf, SparkContext}

  *  val sparkConf =new SparkConf().setAppName(appName)

  *  val ssc = new StreamingContext(sparkConf, Seconds(batchNum))

  *  val sc = ssc.sparkContext  //如果代码中不用StreamingContextval 只需要SparkContext则new一个如val sc = new SparkContext(sparkConf)

  *

  *  val sqlContext = new HiveContext(sc)//HiveContext是对SQLContext的扩展 val sqlContext = new SQLContext(sc)

  *  val result:DataFrame = sqlContext.sql(sql)

  *  //2.0之后HiveContext和SQLContext也可以用SparkSession替换val result =SparkSession.builder().appName("test").config("key","value").getOrCreate().sql(sql)

  *

  *  项目中一般用json处理，如发送kafka或者格式转换和过滤

  *   val resultRdd = result.toJSON.rdd.map(x => {

          val json = new JSONObject(x)

          val computerIp = json.optString("ip", "")

          val rowKey = json.optString("name", "")

          ......

          val dataMap = new util.HashMap[String, String]()

          dataMap.put("computerip", computerIp)

          (rowKey, dataMap)

      })

   val bhaseRdd = resultRdd.filter(r => {

   r._1 != "" && r._1 != null && r._1.length > 0

   }).map(line => {

   val put = new Put(Bytes.toBytes(line._1)) //rowKey 为参数，拿到put

   val key = line._2.keySet().iterator(); //拿到对应的dataMap

   while (key.hasNext) {

    val k = key.next().toString

    put.addColumn(Bytes.toBytes("info"), Bytes.toBytes(k), Bytes.toBytes(line._2.get(k)))

   }

    (new ImmutableBytesWritable(), put)

   })

   val hadoopconf = sc.hadoopConfiguration

   val jobconf = new JobConf(hadoopconf)

   jobconf.setMapOutputKeyClass(classOf[ImmutableBytesWritable])

   jobconf.setOutputValueClass(classOf[Result])

   jobconf.setClass("mapreduce.job.outputformat.class", classOf[TableOutputFormat[ImmutableBytesWritable]],classOf[OutputFormat[ImmutableBytesWritable, Mutation]])

   jobconf.set(TableOutputFormat.OUTPUT_TABLE, table)

   bhaseRdd.saveAsNewAPIHadoopDataset(jobconf) //存入Hasee

  *-----------------------------------------------------------------------------------------------------------

  * class KafkaSink(createProducer: () => KafkaProducer[String, String]) extends Serializable {

    lazy val producer = createProducer()

    def send(topic: String, value: String): Unit ={

      producer.send(new ProducerRecord(topic, value))

    }

    }

  object KafkaSink {

    def apply(config: java.util.Map[String, Object]): KafkaSink = {

      val f = () => {

        val producer = new KafkaProducer[String, String](config)

        producer

      }

      new KafkaSink(f)

    }

  }

  *val kafka = sc.broadcast(KafkaSink(Configs.kafka_props))

  *selectDatas.toJSON.rdd.foreach(x => {

      val json = new JSONObject(x)

      kafka.value.send(topic, json.toString)

  })

  *//发送topic

  *-------------------------------------------------------------------

* val kafkaStream= KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](ssc,kafka_param,topic,StorageLevel.MEMORY_AND_DISK_SER).map(_._2)

* kafkaStream.foreachRDD(rdd =>{

*   rdd.foreach(data=> {

* //消费kafka

*/

scala_spark实践1的更多相关文章

scala_spark实践4
SparkStreaming中foreachRDD SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是“批处理”).每一个时间段内处理的都是一个RDD.而Spar ...
scala_spark实践3
Spark 读写HBase优化读数据可以采用RDD的方式读取HBase数据: val conf = HBaseConfiguration.create() conf.set(TableInputF ...
scala_spark实践2
参考:jianshu.com/p/9d2d225c1951 监听socket获取数据,代码如下:这里使用nc -lk 9999 在ip为10.121.33.44的机器上发送消息 object Sock ...
webp图片实践之路
最近,我们在项目中实践了webp图片,并且抽离出了工具模块,整合到了项目的基础模板中.传闻IOS10也将要支持webp,那么使用webp带来的性能提升将更加明显.估计在不久的将来,webp会成为标配. ...
Hangfire项目实践分享
Hangfire项目实践分享目录 Hangfire项目实践分享目录什么是Hangfire Hangfire基础基于队列的任务处理(Fire-and-forget jobs) 延迟任务执行(De ...
TDD在Unity3D游戏项目开发中的实践
0x00 前言关于TDD测试驱动开发的文章已经有很多了,但是在游戏开发尤其是使用Unity3D开发游戏时,却听不到特别多关于TDD的声音.那么本文就来简单聊一聊TDD如何在U3D项目中使用以及如何使 ...
Logstash实践: 分布式系统的日志监控
文/赵杰 2015.11.04 1. 前言服务端日志你有多重视? 我们没有日志有日志,但基本不去控制需要输出的内容经常微调日志,只输出我们想看和有用的经常监控日志,一方面帮助日志微调,一方面及 ...
【大型网站技术实践】初级篇：借助Nginx搭建反向代理服务器
一.反向代理:Web服务器的“经纪人” 1.1 反向代理初印象反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从 ...
Windows平台分布式架构实践 - 负载均衡
概述最近.NET的世界开始闹腾了,微软官方终于加入到了对.NET跨平台的支持,并且在不久的将来,我们在VS里面写的代码可能就可以通过Mono直接在Linux和Mac上运行.那么大家(开发者和企业)为 ...

随机推荐

Fluent算例精选｜03利用VOF和蒸发-冷凝模型
通过学习本算例您将获得? 1.学会基本的VOF模型设置流程 2.学会利用蒸发-冷凝模型来模拟传热沸腾目录 1摘要4 2传热沸腾模型介绍4 3前处理4 4求解设置5 4.1启动Fluent5 4.2网 ...
QQ小程序支付
QQ小程序支付 Java后端同学折腾QQ小程序的支付折腾了好几天,没有完成统一下单,因为我做过微信和支付宝支付,他就让我帮忙搞我搞了好两三个小时,也没搞出来,最终我觉得问题在商户key那里,问了几 ...
Python异常处理，将异常写入到一个文件
'''定义一个函数func(urllist) urllist:为URL的列表,例如:['http://xx.com','http://www.xx.com','http://www.xxx.com'. ...
《Explaining and harnessing adversarial examples》论文学习报告
<Explaining and harnessing adversarial examples> 论文学习报告组员:裴建新赖妍菱周子玉 2020-03-27 1 背景 Sz ...
laravel的中间件创建思路
网上有很多解析laravel中间件的实现原理,但是不知道有没有读者在读的时候不明白,作者是怎么想到要用array_reduce函数的? 本文从自己的角度出发,模拟了如果我是作者,我是怎么实现这个中间件 ...
[单调栈]小A的柱状图
链接:https://ac.nowcoder.com/acm/problem/23619来源:牛客网时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 262144K,其他语言52428 ...
五、运算符的补充与if语句
1.可变不可变类型指:对前面所学类型做一个可变和不可变类型的分类可变类型:值改变,ID不变,证明改的是原值,原值是可以被改变的不可变类型:值改变,ID也变了,证明是产生新的值,压根没有改变原值, ...
OpenCV-Python 图像阈值 | 十五
目标在本教程中,您将学习简单阈值,自适应阈值和Otsu阈值. 你将学习函数cv.threshold和cv.adaptiveThreshold. 简单阈值在这里,问题直截了当.对于每个像素,应用相同 ...
为何Keras中的CNN是有问题的，如何修复它们？
在训练了 50 个 epoch 之后,本文作者惊讶地发现模型什么都没学到,于是开始深挖背后的问题,并最终从恺明大神论文中得到的知识解决了问题. 上个星期我做了一些实验,用了在 CIFAR10 数据集上 ...
Nginx Configure
1.主配置/etc/nginx.conf #/etc/nginx/nginx.conf user nginx; worker_processes auto; error_log /var/log/ng ...

scala_spark实践1

scala_spark实践1的更多相关文章

随机推荐

热门专题