关于spark进行实时日志解析，保存hbase与mysql

进行地域分析  rowkey=中国_上海_201901016  value=访问次数

 areaStartAmt.foreachRDD(rdd => {

       rdd.foreachPartition(partitionOfRecords => {

 //        /**

 //          * *&**********************************************************************

 //          *注意事项1：在各个分区内进行hbase设置，开启连接  每个分区连接一次 避免每条每条数据进行连接

 //          * 注意事项2：在外部创建hbase与connect  是在diver端的代码  需要注意在foreachRDD算子进行的操作是在executor的操作 会报序列化错误

 //          * 注意事项3：从中可以看出，直接把 int 型的参数传入 Bytes.toBytes() 函数中，编译不会报错，但数据的格式发生错误，再显示时就会出现乱码，

 //          * 因此，在调用 Bytes.toBytes() 函数时，需要先将 int, double 型数据转换成 String 类型，此时即可正常显示。

 //          *  查询会出现乱码  int double等 需要  put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("accountNum"), Bytes.toBytes(String.valueOf(record._2)))

 //          *  注意事项3：使用500条一个批次提交的sql代码执行 局部更新操作 ，数据更新不知是太慢 还是未达到500条 数据库数据不正确

 //          *  直接使用了 val sql1 = s"insert into area_user_amt (date,country,provence,amt)

 //          *  values('${datekey}','${countrykey}','${provencekey}','${amt}') ON DUPLICATE KEY UPDATE `amt`= '${amt}'"

 //          * 未使用预编译 与批次提交 实时更新  在集群模式下所以的分区与机器都访问数据库的次数过多 造成结果？？

 //          *********************************************************************

 //          */

         val hbaseConf = HBaseConfiguration.create()

         //        hbaseConf.set("hbase.rootdir", "hdfs://hadoop01:9000/hbase")

         //        hbaseConf.set("hbase.zookeeper.quorum", "hadoop01:2181,hadoop02:2181,hadoop03:2181")

         hbaseConf.addResource("hbase-site.xml")

         val connection = ConnectionFactory.createConnection(hbaseConf)

         // val admin=connection.getAdmin;

         val table = connection.getTable(TableName.valueOf("test1"));

         if (partitionOfRecords.isEmpty) {

           println("This RDD is not null but partition is null")

         } else {

           partitionOfRecords.foreach(record => {

             val put = new Put(Bytes.toBytes(record._1))

             /*

              从中可以看出，直接把 int 型的参数传入 Bytes.toBytes() 函数中，编译不会报错，但数据的格式发生错误，再显示时就会出现乱码，

             因此，在调用 Bytes.toBytes() 函数时，需要先将 int, double 型数据转换成 String 类型，此时即可正常显示。

            ***********************************************************************

              */

             put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("accountNum"), Bytes.toBytes(String.valueOf(record._2)))

             table.put(put)

           })

         }

       })

      //   HbaseUtil.scanDataFromHabse(table)

关于spark进行实时日志解析，保存hbase与mysql的更多相关文章

Spark Streaming实时写入数据到HBase
一.概述在实时应用之中,难免会遇到往NoSql数据如HBase中写入数据的情景.题主在工作中遇到如下情景,需要实时查询某个设备ID对应的账号ID数量.踩过的坑也挺多,举其中之一,如一开始选择使用NE ...
苏宁基于Spark Streaming的实时日志分析系统实践 Spark Streaming 在数据平台日志解析功能的应用
https://mp.weixin.qq.com/s/KPTM02-ICt72_7ZdRZIHBA 苏宁基于Spark Streaming的实时日志分析系统实践原创: AI+落地实践 AI前线 20 ...
【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化
系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streami ...
Spark踩坑记——数据库（Hbase+Mysql）
[TOC] 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
(一个）kafka-jstorm集群实时日志分析它 ---------kafka实时日志处理
package com.doctor.logbackextend; import java.util.HashMap; import java.util.List; import java.util. ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
ELK实时日志分析平台环境部署--完整记录
在日常运维工作中,对于系统和业务日志的处理尤为重要.今天,在这里分享一下自己部署的ELK(+Redis)-开源实时日志分析平台的记录过程(仅依据本人的实际操作为例说明,如有误述,敬请指出)~ ==== ...
ELK实时日志分析平台环境部署--完整记录(转)
在日常运维工作中,对于系统和业务日志的处理尤为重要.今天,在这里分享一下自己部署的ELK(+Redis)-开源实时日志分析平台的记录过程(仅依据本人的实际操作为例说明,如有误述,敬请指出)~ ==== ...
Spark踩坑记——数据库（Hbase+Mysql）转
转自:http://www.cnblogs.com/xlturing/p/spark.html 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库 ...

随机推荐

windows系统redmine安装总结
今天在公司服务器上安装了redmine,主要用于项目管理和缺陷跟踪.安装过程比较简单,总结如下: 1.网上下载redmine安装包(bitnami-redmine-3.3.1-0-windows-in ...
C# HtmlElement的GetAttribute("class") return ""
用GetAttribute("className")代替GetAttribute("class")
Linux ssh将命令放入后台
如何在关闭ssh连接的情况下,让程序继续运行? 对Unix,Linux类服务器维护经常是通过ssh完成的,而有些操作比较费时,如更新程序等.此时如果断开ssh连接的话,更新程序就会随之被中断.如何保证 ...
Scala数据类型的继承结构
Scala中,所有的值都是类对象,而所有的类,包括值类型,都最终继承自一个统一的根类型Any.统一类型,是Scala的又一大特点.更特别的是,Scala中还定义了几个底层类(Bottom Class) ...
springboot测试
一.单元测试在开发阶段的时候最重要的是单元测试了,springboot对单元测试的支持已经很完善了. 1.在pom包中添加spring-boot-starter-test包引用 <depend ...
【RPC】综述
RPC定义 RPC(Remote Procedure Call)全称远程过程调用,它指的是通过网络,我们可以实现客户端调用远程服务端的函数并得到返回结果.这个过程就像在本地电脑上运行该函数一样,只不过 ...
Oracle相关安装经验总结
1. 安装的是oracle 12c client for windows,从同事处拿到的,说是64位的,不过我没有找到包含有64这样的文件名或者里面内容有64位的.从同事处拿到的plsqldev110 ...
calibur处理ROSETTA输出的多个结构文件，clustering
下载网址:https://sourceforge.net/projects/calibur/ 安装: $ tar zxvf calibur.tar.gz $ cd calibur $ make 安装完 ...
网络编程之Socket的TCP协议实现客户端与客户端之间的通信
我认为当你学完某个知识点后,最好是做一个实实在在的小案例.这样才能更好对知识的运用与掌握如果你看了我前两篇关于socket通信原理的入门文章.我相信对于做出我这个小案列是完全没有问题的!! 既然是小 ...
数据表格控件 DataGridControl
数据表格控件书154页 <?xml version="1.0" encoding="utf-8"?> <s:Application xmln ...

关于spark进行实时日志解析，保存hbase与mysql

关于spark进行实时日志解析，保存hbase与mysql的更多相关文章

随机推荐

热门专题