编写程序向HBase添加日志信息
关注公众号:分享电脑学习
回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新)
承接上一篇文档《日志信息和浏览器信息获取及数据过滤》
上一个文档最好做个本地测试

将map方法改为public,做一个测试看是否有错误代码,代码和之前的MainProcess基本一样

之前完成了数据的过滤、补全,大致思路总结如下:
补全
1. IP地址的补全 ==> IP地址转换为地域信息 -->国家、省份、城市
(1) 直接使用第三方提供的rest api进行ip地址解析,比如淘宝

(2)使用第三方提供的IP解析库(解析文件) ==> 纯真IP数据库
(3)使用公司内部的IP库
表结构:start_ip、end_ip、country、province、city
start_ip和end_ip其实就是ip转换为long型之后的值
在获取数据的时候:
1. 将IP转换为long型
2. 查数据库看该值对应的地域是什么
2. 服务器时间转换 1532762408.139 -> 153276240839
将服务器时间转换为毫米级的时间戳
3. 浏览器UserAgent数据的解析补全
作用:获取浏览器和操作系统相关数据
方式: UASparser.jar
针对不同的平台、不同的事件进行数据过滤判断
完成了数据的过滤、补全,接下来完成清洗的内容。
先明白下面的选择:
为什么选择HBase作为数据存储?
1.数据收集的各个事件字段不固定,导致etl之后的数据的结构不是固定的,使用Hive表要求结构必须是固定的,所以这里采用HBase,hbase中的列可多可少
2.因为我们的数据分析的时候不是获取所有事件的数据,使用HBASE存储,可以将数据的过滤操作放到RegionServer中进行处理,降低数据的网络传输量
3.对比日志的格式发现日志的内容都可以解析成一个个key-value对的形式
HBase表结构的设计
1. 按天分表:一天的数据放一张表,做一个定时任务,30天以前的数据归档到一张历史表中
2. rowkey设计:随机的值(uuid+serverTime+clientInfo)
通过crc32生成一个唯一的值
提取每条日志数据中特征字段信息,然后通过crc32工具根据一定的算法生成一个唯一的值
3. 列簇:采用单列簇
4. 其他相关参数的设置,比如是否缓存
开始代码编写
首先编写一个Map和Runner
Map使用之前的AnalysisDataMapper,我们进一步完善
添加继承类和属性

Setup方法

Map方法更改

添加结果输出

完成generateHBasePut方法

完成generateRowKey方法

创建Runner

完成代码,继承Tool

添加配置属性

完成运行方法

设置配置

重载运行方法

开始创建job

设置参数信息

完成processArgs方法

完成setJobInputPaths方法


完成setHBaseOutputConfig方法
构建表名称

本地配置启动部分

HbaseAdmin的创建,注意这里有个Hbase版本的选择,根据自己机器的环境

Info列镞

创建表

主方法

完成之后开始运行(集群上环境都已经启动)
本地
默认是路径上有日志数据,读取的是昨天的,如果没有需要指定时间

添加参数




然后打包运行到集群中
这里添加了一个配置文件

里面要更改一个路径,这里是你的工作空间

然后执行maven的install命令,打包成jar
上传到linux
执行
Yarn jar 你的jar com.xlgl.wzy.mr.etl.AnalysisDataRunner(runner的全包类)


去HBASE看有没有表和数据

编写程序向HBase添加日志信息的更多相关文章
- logback日志项目使用方法 - 150205交易模块添加日志信息logback,orderNo订单号为log主键便于跟踪,数字常量化,解决取消支付BUG,弱网络环境原因
1.项目里面的日志,便于跟踪数据的变更和异常错误信息产生.生产环境的日志级别是INFO,测试环境日志级别DEBUG,如果生产环境的日志级别是DEBUG,虽然方便查询问题,可以看到SQL语句等信息,但是 ...
- c#.NET中日志信息写入Windows日志中解决方案
1. 目的应用系统的开发和维护离不开日志系统,选择一个功能强大的日志系统解决方案是应用系统开发过程中很重要的一部分.在.net环境下的日志系统解决方案有许多种,log4net是其中的佼佼者.在Wind ...
- VisualSVN:强制必须填写日志信息
上回将到怎么修改已提交的版本日志信息,而开发项目过程中团队中总是有人忘记添加日志信息注释直接提交,这样会后期维护带来不便. 现在先演示一下效果 当直接提交一个空白日志信息时 有填写日志信息时 那怎么实 ...
- 使用JAVA编写电话薄程序,具备添加,查找,删除等功能
//该程序需要连接数据库.根据word文档要求所有功能均已实现.//大部分方法基本差不多,//在查询修改的时候能输出 最大ID号 和最小ID号,并且可以对输入的ID号进行判断是否存在(具体方法请查看 ...
- 【转】Python之向日志输出中添加上下文信息
[转]Python之向日志输出中添加上下文信息 除了传递给日志记录函数的参数(如msg)外,有时候我们还想在日志输出中包含一些额外的上下文信息.比如,在一个网络应用中,可能希望在日志中记录客户端的特定 ...
- Python 日志输出中添加上下文信息
Python日志输出中添加上下文信息 除了传递给日志记录函数的参数(如msg)外,有时候我们还想在日志输出中包含一些额外的上下文信息.比如,在一个网络应用中,可能希望在日志中记录客户端的特定信息,如: ...
- C#添加错误日志信息
错误日志是软件用来记录运行时出错信息的文本文件.编程人员和维护人员等可以利用错误日志对系统进行调试和维护. 系统日志 系统日志包含了由Windows系统组件记录的事件.例如,在启动期间装入驱动程序或其 ...
- log4net--帮助程序员将日志信息输出到各种目标(控制台、文件、数据库等)的工具
1. log4net库是Apache log4j框架在Microsoft .NET平台的实现,是一个帮助程序员将日志信息输出到各种目标(控制台.文件.数据库等)的工具. 2. Log4net的结构如下 ...
- VS2010中编写宏添加作者信息与函数注释
这里所说的宏是指通过一系列键盘组合键和可以插入自定义内容.下面介绍怎么编写一个自己的宏: 1.在Visual Studio 2010中按Alt+F11打开宏IDE: 2.打开后选择添加模块: 3.在弹 ...
随机推荐
- 什么是JMS规范?
一.简介 JMS是什么:JMS是Java提供的一套技术规范和关于消息中间件的协议 JMS干什么用:通过生产者Producer,消息服务器,以及消费者通力合作,使异构系统能进行集成通信,缓解系统瓶颈,提 ...
- 新一代Java程序员必学的Docker容器化技术基础篇
Docker概述 **本人博客网站 **IT小神 www.itxiaoshen.com Docker文档官网 Docker是一个用于开发.发布和运行应用程序的开放平台.Docker使您能够将应用程序与 ...
- CF60A Where Are My Flakes? 题解
Content 有人发现他的麦片不见了,原来是室友把它藏在了 \(n\) 个盒子中的一个,另外还有 \(m\) 个提示,有两种: \(\texttt{To the left of }x\):麦片在第 ...
- 什么是协程?与线程和进程对比优劣在哪?gevent协程示例代码
协程 协程,又称微线程,纤程.英文名Coroutine..一句话说明什么是线程:协程是一种用户态的轻量级线程. 协程拥有自己的寄存器上下文和栈.协程调度切换时,将寄存器上下文和栈保存到其他地方,在 ...
- js 让小数四舍五入保留两位小数的函数是?
js 让小数四舍五入保留两位小数的函数是? 例子:data.relations[i].data[j].toFixed(2) toFixed(2)这个函数就是保留两位小数的作用
- UDP&串口调试助手用法(5)
note 提供安装包 基于win10开发 已通过win10测试,windows其他平台,没有测试 日志 2021-09-18 1.修复计算校验和错误的现象 2.屏蔽不计算校验和位置的REG验证(后期更 ...
- 聊一聊Yarp结合Nacos完成服务发现
背景 Yarp 这个反向代理出来后,相信还是有不少人在关注的. 在 Yarp 中,反向代理的配置默认也是基于配置文件的,也有不少大佬已经把这个配置做成了数据库配置+可视化界面. 仔细想了想,做成数据库 ...
- 【LeetCode】1151. Minimum Swaps to Group All 1's Together 解题报告 (C++)
作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 目录 题目描述 题目大意 解题方法 滑动窗口 日期 题目地址:https://leetco ...
- 【LeetCode】 258. Add Digits 解题报告(Java & Python)
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录 题目描述 题目大意 解题方法 方法一:递归 方法二:减1模9 方法三:直接模9 日 ...
- 【LeetCode】293. Flip Game 解题报告(C++)
作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 目录 题目描述 题目大意 解题方法 遍历 日期 题目地址:https://leetcode ...