val conf = HBaseConfiguration.create()
conf.addResource(new Path("/opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.p0.4/lib/hbase/conf/hbase-site.xml"))
conf.addResource(new Path("/opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.p0.4/lib/hadoop/etc/hadoop/core-site.xml"))
conf.set(TableInputFormat.INPUT_TABLE, "FLOW") //添加过滤条件,年龄大于 18 岁
//val scan = new Scan()
//conf.set(TableInputFormat.SCAN, convertScanToString(scan))
/*
scan.setFilter(new SingleColumnValueFilter("basic".getBytes, "age".getBytes,
CompareOp.GREATER_OR_EQUAL, Bytes.toBytes(18)))
*/ val usersRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],
classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
classOf[org.apache.hadoop.hbase.client.Result]) val data1 = usersRDD.count() val sf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSSSS") println("data length:" + data1) var map = HashMap[String, HashMap[String, collection.mutable.ArrayBuffer[Double]]]() usersRDD.collect().map {
case (_, result) =>
val key = Bytes.toInt(result.getRow)
println("Key:" + key)
val ip = Bytes.toString(result.getValue("F".getBytes, "SADDR".getBytes))
val port = Bytes.toString(result.getValue("F".getBytes, "SPORT".getBytes))
val startTimeLong = Bytes.toString(result.getValue("F".getBytes, "STIME".getBytes))
val endTimeLong = Bytes.toString(result.getValue("F".getBytes, "LTIME".getBytes))
val protocol = Bytes.toString(result.getValue("F".getBytes, "PROTO".getBytes))
val sumTime = Bytes.toString(result.getValue("F".getBytes, "DUR".getBytes))
val sum = Bytes.toString(result.getValue("F".getBytes, "DBYTES".getBytes)).toDouble println("ip:" + ip + ",port:" + port + ",startTime:" + startTimeLong + ",endTime:" + endTimeLong + ",protocol:" + protocol + ",sum:" + sum) //ip+port+udp,14:02 14:07 List
//ip+port+tcp,15:02 15:07 List
val startTimeDate = sf.parse(startTimeLong)
val endTimeLongDate = sf.parse(endTimeLong)
val startHours = startTimeDate.getHours
val startMinutes = startTimeDate.getMinutes val endHours = endTimeLongDate.getHours
val endMinutes = endTimeLongDate.getMinutes val key1 = ip + "_" + port + "_" + protocol
println("key1:" + key1) val key2 = startHours + ":" + startMinutes + "_" + endHours + ":" + endMinutes println("key2:" + key2) val tmpMap = map.get(key1) if (!tmpMap.isEmpty) {
println("--------------------map is not null:" + tmpMap.size + "--------------------")
val sumArray = tmpMap.get.get(key2)
if (!sumArray.isEmpty) {
sumArray.get += sum
}
} else {
println("--------------------map is null--------------------")
//如果当前Key不存在的话,是一个全新的Ip
val sumArray = collection.mutable.ArrayBuffer[Double]()
sumArray += sum val secondMap = HashMap[String, collection.mutable.ArrayBuffer[Double]]()
secondMap += (key2 -> sumArray)
map += (key1 -> secondMap)
}
map
println("map size-----------------:" + map.size)
} println("map size:" + map.size) map.map(e => {
println("--------------------Statistics start --------------------")
val resultKey1 = e._1
val resultVal1 = e._2
println("resultKey1:" + resultKey1)
resultVal1.foreach(f => {
val resultKey2 = f._1
val resultVal2 = f._2
println("resultKey2:" + resultKey2)
println("-----------------resultVal2:" + resultVal2.length) resultVal2.map(f=>{
println("------------------------f:"+f)
}) val dataArray = resultVal2.map(f => Vectors.dense(f)) val summary: MultivariateStatisticalSummary = Statistics.colStats(sc.parallelize(dataArray)) //
println("--------------------mean:" + summary.mean + " --------------------")
println("--------------------variance:" + summary.variance + " --------------------") println("--------------------mean apply 0:" + summary.mean.toArray.apply(0) + " --------------------")
println("--------------------variance apply 0:" + summary.variance.apply(0) + " --------------------") val upbase = summary.mean.toArray.apply(0) + 1.960 * Math.sqrt(summary.variance.apply(0))
val downbase = summary.mean.toArray.apply(0) - 1.960 * Math.sqrt(summary.variance.apply(0))
println("------------------- " + upbase + " ---------- " + downbase)
val df = new DecimalFormat(".##")
val upbaseString = df.format(upbase)
val downbaseString = df.format(downbase)
//resultMap.put(key, value)
val result3 = HashMap[Double, Double]()
//result3 +=(upbase -> downbase)
println("ip port:" + resultKey1 + ",time:" + resultKey2 + ",upbase:" + upbase + ",downbase:" + downbase)
})
}) println("--------------------baseLine end --------------------")
sc.stop()

Spark读取Hbase的数据的更多相关文章

  1. 使用TableSnapshotInputFormat读取Hbase快照数据

    根据快照名称读取hbase快照中的数据,在网上查了好多资料,很少有资料能够给出清晰的方案,根据自己的摸索终于实现,现将代码贴出,希望能给大家有所帮助: public void read(org.apa ...

  2. Spark 读取HBase和SolrCloud数据

    Spark1.6.2读取SolrCloud 5.5.1 //httpmime-4.4.1.jar // solr-solrj-5.5.1.jar //spark-solr-2.2.2-20161007 ...

  3. Spark 读取HBase数据

    Spark1.6.2 读取 HBase 1.2.3 //hbase-common-1.2.3.jar //hbase-protocol-1.2.3.jar //hbase-server-1.2.3.j ...

  4. Spark读取Hbase中的数据

    大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...

  5. spark读取hbase形成RDD,存入hive或者spark_sql分析

    object SaprkReadHbase { var total:Int = 0 def main(args: Array[String]) { val spark = SparkSession . ...

  6. Spark读取结构化数据

    读取结构化数据 Spark可以从本地CSV,HDFS以及Hive读取结构化数据,直接解析为DataFrame,进行后续分析. 读取本地CSV 需要指定一些选项,比如留header,比如指定delimi ...

  7. spark读取hbase(NewHadoopAPI 例子)

    package cn.piesat.controller import java.text.{DecimalFormat, SimpleDateFormat}import java.utilimpor ...

  8. spark读取hbase数据

    def main(args: Array[String]): Unit = { val hConf = HBaseConfiguration.create(); hConf.set("hba ...

  9. Spark读取HBase

    背景:公司有些业务需求是存储在HBase上的,总是有业务人员找我要各种数据,所以想直接用Spark( shell) 加载到RDD进行计算 摘要: 1.相关环境 2.代码例子 内容 1.相关环境 Spa ...

随机推荐

  1. Myeclipse中导入新项目报叹号

    Myeclipse中导入新项目报红色叹号 原因是导入项目中,有的jar路径不对, 在上图中,先把报错的jar移除,之后将JRE开头的那个library移除,最后点击add Library,选择jre. ...

  2. iredmail安装脚本分析(一)---iRedmail.sh

    iredmail是一套以postfix为核心的整合邮件系统的安装脚本,可以达到快速部署邮件服务器的目的.为了让自己不遗忘shell的语法,所以闲来无事,学习一下他的代码. 我从官网下载他的最新版,解压 ...

  3. svn客户端命令

    记几个常用的命令. 首次拉仓库时,先要进行检出(url可以带端口号): svn checkout http://svn.example.com:9834/repos svn checkout file ...

  4. day27_反射

    1.反射-概述(掌握) 反射就是在程序运行过程中,通过.class文件动态的获取类的信息(属性,构造,方法),并调用 注意:JAVA不是动态语言,因为动态语言强调在程序运行过程中不仅能获取并调用类里面 ...

  5. 关于rem的自定义HTML比例设定

    通过设定html根标签的font-size值,控制rem来达到全局布局的自适应的,CSS长度单位全部通过rem设定 必须在head在中引入不可以延迟引入: (function (doc, win) { ...

  6. mac下获取应用签名

    查看md5和SHA1: universalbroker.jks为签名文件 keytool -list -v -keystore universalbroker.jks 微信分享和登录平台需要去掉冒号的 ...

  7. oracle select into 的时候提示未找到数据

    ); begin '; --在select into 后面添加exception 错误处理机制 exception when no_data_found then version:= 'hhh '; ...

  8. SpringMVC中使用Cron表达式的定时器

    SpringMVC中使用Cron表达式的定时器 cron(定时策略)简要说明 顺序: 秒 分 时 日 月 星期 年份 (7个参数,空格隔开各个参数,年份非必须参数) 通配符: , 如果分钟位置为* 1 ...

  9. JDBC修改表数据

    修改数据时用到update语句,使用这个语句时也要有条件的,指定修改某一行的数据,没有条件判断,则修改全部. package qddx.JDBC; import java.sql.*; public ...

  10. 【Cocos2d-x 3.x】 场景切换生命周期、背景音乐播放和场景切换原理与源码分析

    大部分游戏里有很多个场景,场景之间需要切换,有时候切换的时候会进行背景音乐的播放和停止,因此对这块内容进行了总结. 场景切换生命周期 场景切换用到的函数: bool Setting::init() { ...