flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去

1. openrestry的安装

　　OpenResty = Nginx + Lua，是⼀一个增强的Nginx，可以编写lua脚本实现⾮非常灵活的逻辑

（1）安装开发库依赖

yum install -y pcre-devel openssl-devel gcc curl

（2）配置yum的依赖源

yum install yum-utils

yum-config-manager --add-repo https://openresty.org/package/centos/openresty.repo

（3）安装OpenResty

yum install openresty

安装过程中出现问题的解决办法

cd /etc/yum.repos.d

yum install wget

wget  https://openresty.org/package/centos/openresty.repo

vi openresty.repo

将https改成http(改两个地方)

yum install openresty

（4）openresty的默认安装⽬目录

/usr/local/openresty

（5）启动openresty(Nginx)

/usr/local/openresty/nginx/sbin/nginx

（6）通过浏览器器查看nginx的⻚页⾯面

2. 使用nginx+lua将日志数据写入指定文件中

需求：访问某个地址，nginx页面只显示1*1像素的空图片，然后将日志记录到指定的文件中去

（1）创建存放日志的目录并设置权限

mkdir /logs

chmod o+w /logs

为什么要设置权限呢，因为往logs的access.log文件写日志数据的用户是nobody，如下

（2）vi nginx.conf

location /log.gif{

            #伪装成gif文件

            default_type 'image/gif';

            #关闭access_log

            access_log off;

            # 使用lua将nginx接受的参数写入到日志文件中

            log_by_lua_file 'conf/log.lua';

            #返回空图片

            empty_gif;

        }

（3）在nginx的conf⽬目录下创建⼀一个log.lua⽂文件

vi /usr/local/openresty/nginx/conf/log.lua

log.lua脚本内容如下

-- 引⼊入lua所有解析json的库

local cjson = require "cjson"

-- 获取请求参数列列表

local request_args_tab = ngx.req.get_uri_args()

-- 使⽤用lua的io打开⼀一个⽂文件，如果⽂文件不不存在，就创建，a为append模式

local file = io.open("/logs/access.log", "a")

-- 定义⼀一个json对象

local log_json = {}

-- 将参数的K和V迭代出来，添加到json对象中

for k, v in pairs(request_args_tab) do

log_json[k] = v

end

-- 将json写⼊入到指定的log⽂文件，末尾追加换⾏行行

file:write(cjson.encode(log_json), "\n")

-- 将数据写⼊入

file:flush()

（4）在浏览器上请求feng05/log.gjf，能发现数据写入了/logs/access.log

上诉做法存在一个问题：如果一直往一个⽂件中写入数据，这个日志文件会过大，造成读写效率变低，现在按照小时生成文件

log.lua脚本内容修改如下所示

-- 引⼊入lua⽤用来解析json的库

local cjson = require "cjson"

-- 获取请求参数列列表

local request_args_tab = ngx.req.get_uri_args()

-- 获取当前系统时间

local time = os.date("%Y%m%d%H",unixtime)

-- 使⽤用lua的io打开⼀一个⽂文件，如果⽂文件不不存在，就创建，a为append模式

local path = "/mylog/access-" .. time .. ".log"

local file = io.open(path, "a")

-- 定义⼀一个json对象

local log_json = {}

-- 将参数的K和V迭代出来，添加到json对象中

for k, v in pairs(request_args_tab) do

log_json[k] = v

end

-- 将json写⼊入到指定的log⽂文件，末尾追加换⾏行行

file:write(cjson.encode(log_json), "\n")

-- 将数据写⼊入

file:flush()

这样就会按照时间滚动生成日志文件了

3. 使用flume将本地磁盘中的日志数据采集到的kafka中去

　　此处数据采集的架构为flume+kafka（taildir+kafkachannel），这样既能实现负载均衡又能使用高可用

flume采集数据的配置文件如下所示：nginx-kafka.conf

a1.sources = r1

a1.channels = c1

a1.sources.r1.type = TAILDIR

a1.sources.r1.positionFile = /root/taildir_position.json    //此处表示taildir采集的记录，即偏移量

a1.sources.r1.filegroups = f1

a1.sources.r1.filegroups.f1 = /log/access-.*\.log

a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel

a1.channels.c1.kafka.bootstrap.servers = feng05:9092,feng06:9092,feng07:9092

a1.channels.c1.kafka.topic = access12

a1.channels.c1.parseAsFlumeEvent = false

a1.sources.r1.channels = c1

运行flume进行采集，数据即可采集至kafka中，命令如下

/usr/apps/apache-flume-1.9.0-bin/bin/flume-ng agent -n a1 -c conf \

-f myconf/nginx-kafka.conf \

-Dflume.root.logger=INFO,console

/usr/apps/kafka_2.11-2.4.0/bin/kafka-console-consumer.sh --bootstrap-server feng05:9092 --topic access --from-beginning

flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去的更多相关文章

PHP将数据写入指定文件中
首先创建一个空的txt文件,这里我们创建了一个1.txt的空文件. 第一种方法:fwrite函数 <?php $file=fopen('1.txt','rb+'); var_dump(fwrit ...
程序一用记事本建立文件src.dat，其中存放若干字符。编写程序，从文件src.dat中读取数据，统计其中的大写字母、小写字母、数字、其它字符的个数，并将这些数据写入到文件test.dat中。
用记事本建立文件src.dat,其中存放若干字符.编写程序,从文件src.dat中读取数据,统计其中的大写字母.小写字母.数字.其它字符的个数,并将这些数据写入到文件test.dat中. #inclu ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
10.Flink实时项目之订单维度表关联
1. 维度查询在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表.但是即使通过主键的方式查询,hbase 速度 ...
1.Flink实时项目前期准备
1.日志生成项目日志生成机器:hadoop101 jar包:mock-log-0.0.1-SNAPSHOT.jar gmall_mock |----mock_common |----mock ...
5.Flink实时项目之业务数据准备
1. 流程介绍在上一篇文章中,我们已经把客户端的页面日志,启动日志,曝光日志分别发送到kafka对应的主题中.在本文中,我们将把业务数据也发送到对应的kafka主题中. 通过maxwell采集业务数 ...
3.Flink实时项目之流程分析及环境搭建
1. 流程分析前面已经将日志数据(ods_base_log)及业务数据(ods_base_db_m)发送到kafka,作为ods层,接下来要做的就是通过flink消费kafka 的ods数据,进行简 ...
4.Flink实时项目之数据拆分
1. 摘要我们前面采集的日志数据已经保存到 Kafka 中,作为日志数据的 ODS 层,从 kafka 的ODS 层读取的日志数据分为 3 类, 页面日志.启动日志和曝光日志.这三类数据虽然都是用户 ...
6.Flink实时项目之业务数据分流
在上一篇文章中,我们已经获取到了业务数据的输出流,分别是dim层维度数据的输出流,及dwd层事实数据的输出流,接下来我们要做的就是把这些输出流分别再流向对应的数据介质中,dim层流向hbase中,dw ...

随机推荐

（转载）linux chmod命令用法
chmod----改变一个或多个文件的存取模式(mode) chmod [options] mode files 只能文件属主或特权用户才能使用该功能来改变文件存取模式.mode可以是数字形式(八 ...
simulate_screencap
#!/bin/bashadb shell screencap -p /sdcard/screen.pngadb pull /sdcard/screen.png ./adb shell rm /sdca ...
六. Go并发编程--WaitGroup
一. 序言 WaitGroup是Golang应用开发过程中经常使用的并发控制技术. WaitGroup,可理解为Wait-Goroutine-Group,即等待一组goroutine结束.比如某个go ...
Loto实践干货(8)loto示波器在LED台灯调光问题维修中的应用案例
Loto实践干货(8)loto示波器在LED台灯调光问题维修中的应用案例一位客户最近觉得觉得他的LED台灯好闪, 于是拆了看看,里面的控制板是这样的: 干掉双色调光功能,只调亮度的话闪烁的状况能好转 ...
Go 跳出 for-switch 和 for-select 代码块
原文:https://segmentfault.com/a/1190000013739000 没有指定标签的 break 只会跳出 switch/select 语句,若不能使用 return 语句跳出 ...
MyBatis Plus中使用and和or
如图:show me the code 参考: https://mp.baomidou.com/guide/wrapper.html#or
k8s之mutating webhook + gin
1.知识准备 1.Webhook 是一种用于接收准入请求并对其进行处理的 HTTP 回调机制 2.Webhook 接收来自apiserver的回调,对回调资源做一些校验.注入.修改元数据等工作 3.来 ...
Spark中资源调度和任务调度
Spark比MR快的原因 1.Spark基于内存的计算 2.粗粒度资源调度 3.DAG有向无环图:可以根据宽窄依赖划分出可以并行计算的task 细粒度资源调度 MR是属于细粒度资源调度优点:每个ta ...
Mysql - date、datetime、timestamp 的区别
date.datetime 的区别顾名思义,date 日期,datetime 日期时间,所以 date 是 datetime 的日期部分 MySQL 以 YYYY-MM-DD hh:mm:ss 格式 ...
大爽Python入门教程 2-5 *拓展实践，对比与思考
大爽Python入门公开课教案点击查看教程总目录本文偏难. 推荐等第一二三四章上完后,回过来拓展阅读. 基础情景思考假设有这样一张成绩表最左边的一列是名字,起名麻烦. 这里直接用ABC...来 ...

flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去

flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去的更多相关文章

随机推荐

热门专题