1.Flink实时项目前期准备
1.日志生成项目

日志生成机器:hadoop101
jar包:mock-log-0.0.1-SNAPSHOT.jar
gmall_mock
 |----mock_common
 |----mock_db
 |----mock_log
项目地址:https://github.com/zhangbaohpu/gmall-mock
将模块mock_log打包成jar,并在同级添加application.yml
cd /opt/software/applog/
vim application.yml
点击查看代码
# 外部配置打开
# logging.config=./logback.xml
#业务日期
mock.date: "2020-12-18"
  #模拟数据发送模式
mock.type: "http"
  #http模式下,发送的地址
mock.url: "http://hadoop101:8081/applog"
#mock:
#  kafka-server: "hdp1:9092,hdp2:9092,hdp3:9092"
#  kafka-topic: "ODS_BASE_LOG"
#启动次数
mock.startup.count: 1000
  #设备最大值
mock.max.mid: 20
  #会员最大值
mock.max.uid: 50
  #商品最大值
mock.max.sku-id: 10
  #页面平均访问时间
mock.page.during-time-ms: 20000
  #错误概率 百分比
mock.error.rate: 3
  #每条日志发送延迟 ms
mock.log.sleep: 100
  #商品详情来源  用户查询,商品推广,智能推荐, 促销活动
mock.detail.source-type-rate: "40:25:15:20"
#领取购物券概率
mock.if_get_coupon_rate: 75
#购物券最大id
mock.max.coupon-id: 3
  #搜索关键词
mock.search.keyword: "图书,小米,iphone11,电视,口红,ps5,苹果手机,小米盒子"
然后启动项目
java -jar mock-log-0.0.1-SNAPSHOT.jar
默认端口8080,调用以下方法,会向接口http://hadoop101:8081/applog 发送日志数据
点击查看代码
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.ConfigurableApplicationContext;
@SpringBootApplication
public class GmallMockLogApplication {
    public static void main(String[] args) {
        ConfigurableApplicationContext context = SpringApplication.run(GmallMockLogApplication.class, args);
        MockTask mockTask = context.getBean(MockTask.class);
        mockTask.mainTask();
    }
}
2.日志采集项目
日志处理机器:hadoop101,hadoop102,hadoop103
项目地址:https://github.com/zhangbaohpu/gmall-flink-parent/tree/master/gmall-logger
jar包:gmall-logger-0.0.1-SNAPSHOT.jar
项目中配置文件:application.yml
点击查看代码
server:
  port: 8081
#kafka
spring:
  kafka:
    bootstrap-servers: 192.168.88.71:9092,192.168.88.72:9092,192.168.88.73:9092
    producer:
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      value-serializer: org.apache.kafka.common.serialization.StringSerializer
LoggerController.java
接收日志,并把日志发送给kafka
点击查看代码
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.kafka.core.KafkaTemplate;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
/**
 * @author zhangbao
 * @date 2021/5/16 11:33
 **/
@RestController
@Slf4j
public class LoggerController {
    @Autowired
    KafkaTemplate kafkaTemplate;
    @RequestMapping("/applog")
    public String logger(String param){
        log.info(param);
        kafkaTemplate.send("ods_base_log",param);
        return param;
    }
}
3.nginx配置
安装机器:hadoop101
修改nginx.conf配置,hadoop101作为负载均衡机器,hadoop101,hadoop102,hadoop103作为日志处理机器,nginx默认端口为80,主要配置如下:
点击查看代码
#在 server 内部配置
location /
{
        proxy_pass http://www.logserver.com;
}
#切记:在 server 外部配置反向代理
upstream www.logserver.com{
        server hadoop101:8081 weight=1;
        server hadoop102:8081 weight=2;
        server hadoop103:8081 weight=3;
}
4.将日志采集项目jar分发
将日志采集jar包分发到其他机器,供nginx负载均衡转发调用
xsync gmall-logger-0.0.1-SNAPSHOT.jar
5.修改模拟日志生成的配置
我们将生成的日子发送给nginx,然后在分发到其他采集日志的机器,生成日志的机器在hadoop101
cd /opt/software/applog/
vim application.yml
点击查看代码
  #模拟数据发送模式
mock.type: "http"
  #http模式下,发送的地址
mock.url: "http://hadoop101/applog"
6.集群群起脚本
将采集日志服务和nginx服务放在脚本中
在/home/zhangbao/bin创建脚本logger.sh
cd /home/zhangbao/bin,并授予执行权限
点击查看代码
#!/bin/bash
JAVA_HOME=/opt/module/jdk1.8.0_144/bin/java
APPNAME=gmall-logger-0.0.1-SNAPSHOT.jar
case $1 in
"start"){
        for i in hadoop101 hadoop102 hadoop103
        do
                echo "================$i================="
                ssh $i "$JAVA_HOME -Xms32m -Xmx64m -jar /opt/software/applog/$APPNAME >/dev/null 2>&1 &"
        done
        echo "===============NGINX================="
        /opt/module/nginx/sbin/nginx
};;
"stop"){
        echo "===============NGINX================="
        /opt/module/nginx/sbin/nginx -s stop
        for i in hadoop101 hadoop102 hadoop103
        do
                echo "================$i==============="
                ssh $i "ps -ef|grep $APPNAME |grep -v grep|awk '{print \$2}'|xargs kill" >dev/null 2>&1
        done
};;
esac
7.测试
| hadoop101 | hadoop102 | hadoop103 | |
|---|---|---|---|
| gmall_mock(生产日志) | √ | ||
| gmall-logger(采集日志) | √ | √ | √ | 
| nginx | √ | ||
| kafka | √ | √ | √ | 
注意以下操作需要在linux的zhangbao用户下操作,因为这些组件是在此用户下安装,不然起不来,脚本都在hadoop101这台机器:
启动zookeeper
su zhangbao
zk.sh start
启动kafka
kf.sh start
然后本项目的jar包可以在root用户下操作
手动执行
- 启动kafka消费者
 
kafka-console-consumer.sh --zookeeper hadoop101:2181,hadoop102:2181,hadoop103:2181 --topic ods_base_log
- 启动nginx
 
/opt/module/nginx/sbin/nginx,地址:http://hadoop101/
启动日志采集服务
日志采集服务做了负责均衡,分别在hadoop101,hadoop102,hadoop103
java -jar /opt/software/applog/gmall-logger-0.0.1-SNAPSHOT.jar生产日志服务
生产日志服务在hadoop101,一台即可
java -jar /opt/software/applog/mock-log-0.0.1-SNAPSHOT.jar
使用脚本启停采集日志服务和nginx服务
./bin/logger.sh start
./bin/logger.sh stop
1.Flink实时项目前期准备的更多相关文章
- 5.Flink实时项目之业务数据准备
		
1. 流程介绍 在上一篇文章中,我们已经把客户端的页面日志,启动日志,曝光日志分别发送到kafka对应的主题中.在本文中,我们将把业务数据也发送到对应的kafka主题中. 通过maxwell采集业务数 ...
 - 10.Flink实时项目之订单维度表关联
		
1. 维度查询 在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表.但是即使通过主键的方式查询,hbase 速度 ...
 - 3.Flink实时项目之流程分析及环境搭建
		
1. 流程分析 前面已经将日志数据(ods_base_log)及业务数据(ods_base_db_m)发送到kafka,作为ods层,接下来要做的就是通过flink消费kafka 的ods数据,进行简 ...
 - 4.Flink实时项目之数据拆分
		
1. 摘要 我们前面采集的日志数据已经保存到 Kafka 中,作为日志数据的 ODS 层,从 kafka 的ODS 层读取的日志数据分为 3 类, 页面日志.启动日志和曝光日志.这三类数据虽然都是用户 ...
 - 6.Flink实时项目之业务数据分流
		
在上一篇文章中,我们已经获取到了业务数据的输出流,分别是dim层维度数据的输出流,及dwd层事实数据的输出流,接下来我们要做的就是把这些输出流分别再流向对应的数据介质中,dim层流向hbase中,dw ...
 - 7.Flink实时项目之独立访客开发
		
1.架构说明 在上6节当中,我们已经完成了从ods层到dwd层的转换,包括日志数据和业务数据,下面我们开始做dwm层的任务. DWM 层主要服务 DWS,因为部分需求直接从 DWD 层到DWS 层中间 ...
 - 9.Flink实时项目之订单宽表
		
1.需求分析 订单是统计分析的重要的对象,围绕订单有很多的维度统计需求,比如用户.地区.商品.品类.品牌等等.为了之后统计计算更加方便,减少大表之间的关联,所以在实时计算过程中将围绕订单的相关数据整合 ...
 - 11.Flink实时项目之支付宽表
		
支付宽表 支付宽表的目的,最主要的原因是支付表没有到订单明细,支付金额没有细分到商品上, 没有办法统计商品级的支付状况. 所以本次宽表的核心就是要把支付表的信息与订单明细关联上. 解决方案有两个 一个 ...
 - 8.Flink实时项目之CEP计算访客跳出
		
1.访客跳出明细介绍 首先要识别哪些是跳出行为,要把这些跳出的访客最后一个访问的页面识别出来.那么就要抓住几个特征: 该页面是用户近期访问的第一个页面,这个可以通过该页面是否有上一个页面(last_p ...
 
随机推荐
- 重重封锁,让你一条数据都拿不到《死磕MySQL系列 十三》
			
在开发中有遇到很简单的SQL却执行的非常慢,甚至只查询一行数据. 咔咔遇到的只有两种情况,一种是MySQL服务器CPU占用率很高,所有的SQL都执行的很慢直到超时,程序也直接502,另一种情况是行锁造 ...
 - Rainbond通过插件整合ELK/EFK,实现日志收集
			
前言 ELK 是三个开源项目的首字母缩写:Elasticsearch.Logstash 和 Kibana.但后来出现的 FileBeat 可以完全替代 Logstash的数据收集功能,也比较轻量级.本 ...
 - 2. node接口搭建--连接MongoDB数据库 (参考https://blog.csdn.net/ncepu_Chen/article/details/98725104#_337)
			
1.使用mongoose连接MongoDB数据库 npm install mongoose 2.新建文件夹config存放数据库地址 3.安装MongoDB
 - [数据结构]链表LinkList
			
目录 1.3 链表 1.3.1 头插法建立单链表 1.3.2 限制链表长度建立单链表 1.3.3 尾插法建立单链表 1.3.4 按序号查找单链表 1.3.5 按值查找单链表 1.3.6 链表的插入 1 ...
 - [python]MergeTxt按列合并同一个文件下多个txt文件
			
开发需求:应项目需要,要将记录成txt的实验数据进行按列合并(也即为不同文件上下合并),从而进行机器学习训练. 实验数据类似如此 模拟验证数据 1.txt *****1***** abcdefghij ...
 - <数据结构>XDOJ321.高铁网络
			
问题与解答 描述: 国家建设高铁网络,网络由一些连接城市的高铁线路构成.现有高铁建设情况可列为一张统计表,表中列出了每一条高铁线路直接连接的两个城市.国家的建设目标是全国每两个城市之间都可以实现高铁交 ...
 - C语言string操作
			
创建方式 字符数组:空间已定 字符指针:未分配空间 初始化 字符数组: 创建与赋值必须在同一行 指定大小:未填满部分用'\0'填充 用字符串初始化:末尾自动添加'\0' 不初始化赋值则乱值 字符指针: ...
 - 牛掰,在IDEA中,你可以安装小傅哥写的插件了!
			
作者:小傅哥 博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.承认你优秀很难 很多码农,把路走窄了 捧一个,喷一个,很多码农都不会多一点思路看问题,总是 ...
 - [ Flask ] myblog_flask问题集(RESTfull风格)
			
VUE问题 前端VUE怎么捕获所有404NOT FOUND的路由呢? [ 解决方案 ] vue-router路由守卫,参考文档:动态路由匹配 对于路由.../edit/<id>,自己能编辑 ...
 - 通过js触发onPageView和event事件获取页面信息
			
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814814715022148100/ 承接上一篇文档<js页面触发launch事件编写> pageVi ...