1. 背景

推荐系统的推荐请求追踪日志，通过ELK收集，方便遇到问题时，可以通过唯一标识sid来复现推荐过程

最近在碰到了几个bad case，需要通过sid来查询推荐日志，但发现部分无法在kibana查询到

2. 分析

推荐日志的整个收集流程如下：

flowchart LR
线上机器日志 --> 平台Flume --> Kafka --> Logstash --> ES

因为整个流程较长，且中间的各个组件也是由不同部门来负责的，其中任一环节数据都有可能丢失，所以排查起来比较困难

2.1 版本信息

Flume: 未知

Kafka: 2.4.0

ELK: 7.17

2.2 ELK排查-日志和配置

首先联系了DB的同学，主要负责ELK，他们首先查看了日志，确认无报错之后，要求先确认Kafka的数据是否有丢失

确认Logstash配置和ES Mapping没有问题

input {

    kafka {

        add_field => {"myid"=>"hdp_lbg_zhaopin_hrgrecservice_trace_all"}

        bootstrap_servers => "xxx.xxx.xxx.xxx:9092"

        client_id => "hdp_lbg_zhaopin-hdp_lbg_zhaopin_hrgrecservice_trace_all"

        group_id => "hdp_lbg_zhaopin_hrgrecservice_trace_topic"

        auto_offset_reset => "latest"

        consumer_threads => 1

        topics => ["hdp_lbg_zhaopin_hrgrecservice_trace_all"]

        codec => json

    }

}

filter {

  if [myid] == "hdp_lbg_zhaopin_hrgrecservice_trace_all" {

    json {

    source => "message"

  }

  mutate {

    convert => { "recOuts" => "string"}

    join => {"recOuts" => ","}

    add_field => {"context" => "%{traceContext}"}

    add_field => {"trace" => "%{traces}"}

    remove_field => ["message", "event", "traces", "traceContext"]

  }

}

}

output {

  if [myid] == "hdp_lbg_zhaopin_hrgrecservice_trace_all" {

    elasticsearch {

        hosts => ["ip:port"]

        index => "hdp_lbg_zhaopin_hrgrecservice_trace_all-%{+YYYY_MM_dd}"

        user =>

        password =>

    }

    stdout { }

  }

}

2.2 Kafka排查-Kafka数据是否丢失

然后联系的大数据的同学，他们让我们把Kafka的数据写入Hive中，然后看缺失的数据是否能在Hive中查询到，这样做之后在Hive中查到了缺失的数据，确认Kafka的数据没有问题

缺失的数据是找到在机器上的一条日志，但不在Kibana中的数据即可，因为我们缺失率也是很高的，所以也很容易找到

如果缺失的条数很少，可以选取一段时间对比Hive和Kibana的数据

flowchart LR
线上机器日志 --> 平台Flume --> Kafka --> Hive

2.3 继续ELK排查-数据在哪个环节丢了

确认Kafka数据无误之后，再返回去找DB的同学查ELK问题，DB同学使用另外一个Logstash读取Kafka的数据，然后写入ES，同时开启本地输出，录制了一段时间之后，再在Logstash输出文件中寻找这段时间内缺失数据，发现都找不到，于是确认为Kafka到Logstash丢失数据

flowchart LR
线上机器日志 --> 平台Flume --> Kafka -.-> Logstash

2.4 继续-丢失的日志有何特点

虽然确定了是Kafka到Logstash丢失了数据，但还是无法确定具体原因，考虑过是不是某些日志过大，Logstash无法处理，于是看了单台机器的连续的十几条日志，发现丢失的日志大小有大有小，丢的间隔条数也是毫无规律

2.5 Kafka数据格式-一个消息有多个日志

在毫无头绪的情况下，想去看看Kafka内的数据，于是探查了几条，发现了一个奇怪的现象，Kafka的消息里面有多行日志，之间看起来像是空格拼接了起来，后来知道那是个换行符，如下：

线上机器日志符格式：

A

B

C

Kakfa消息格式：

A\nB

C

所以将探查的数据在Kibana中搜索，发现了规律，对于Kafka的每一条消息，只有第一个日志能写入Logstash，对于上面的数据，A和C能写入，而B不能

对于了别的Logstash集群的配置，发现了问题

我们的Logstash Kafka input配置中是codec => json，而其他的配的是codec => line，也就是说Logstash认为Kafka的一条消息就是一个JSON，拿过来直接转，转化的过程中应该把后面换行符拼接的不合法的部分给丢弃了，而使用codec => line的方式，Logstash会把Kafka的消息按照换行符分割成多个event

不过返回来看，为什么Kafka不是一行日志一条消息呢，在我们机器配置收集日志的Flume中，有个默认选项，“是否聚合”，选择是会将不同行的日志聚合到一起，这就是Kafka数据格式看起来很奇怪的原因，后续消费者，不管是Logstash，还是通过DDS写入Hive，还是自己写代码来消费，都要处理这个换行符

3. 总结

Flume将多行日志聚合成一条消息放入Kafka，Logstash在接收的时候需要配置codec => line再将一个消息转换为多行日志

ELK日志缺失问题排查-多行日志聚合Logstash配置问题的更多相关文章

Fluentd 使用 multiline 解析器来处理多行日志
转载自:https://mp.weixin.qq.com/s?__biz=MzU4MjQ0MTU4Ng==&mid=2247500439&idx=1&sn=45e9e0e0ef ...
写给大忙人的ELK最新版6.2.4学习笔记-Logstash和Filebeat解析(java异常堆栈下多行日志配置支持)
接前一篇CentOS 7下最新版(6.2.4)ELK+Filebeat+Log4j日志集成环境搭建完整指南,继续对ELK. logstash官方最新文档https://www.elastic.co/g ...
ELK学习笔记之Logstash和Filebeat解析对java异常堆栈下多行日志配置支持
0x00 概述 logstash官方最新文档.假设有几十台服务器,每台服务器要监控系统日志syslog.tomcat日志.nginx日志.mysql日志等等,监控OOM.内存低下进程被kill.ngi ...
ELK显示多行日志
1.默认,logstash对日志文件的选取是以单行为单位的:但像log4j这种输出日志经常会是以时间头开始的多行日志: 2.显示多行,需要配置logstash的config: input { file ...
有了链路日志增强，排查Bug小意思啦！
在工作中,相信大家最怕的一件事就是听到有人在工作群艾特你:某某功能报错啦... 然后你就得屁颠屁颠的去服务器看日志,日志量少还好点,多的话找起来太麻烦了.不太容易直接定位到关键地方. 东找找西找找,好 ...
Logstash——multiline 插件，匹配多行日志
本文内容测试数据字段属性按多行解析运行时日志把多行日志解析到字段参考资料在处理日志时,除了访问日志外,还要处理运行时日志,该日志大都用程序写的,比如 log4j.运行时日志跟访问日志最大的 ...
ELK日志系统之通用应用程序日志接入方案
前边有两篇ELK的文章分别介绍了MySQL慢日志收集和Nginx访问日志收集,那么各种不同类型应用程序的日志该如何方便的进行收集呢?且看本文我们是如何高效处理这个问题的日志规范规范的日志存放路径和 ...
Logstash——multiline 插件，匹配多行日志
本文内容测试数据字段属性按多行解析运行时日志把多行日志解析到字段参考资料在处理日志时,除了访问日志外,还要处理运行时日志,该日志大都用程序写的,比如 log4j.运行时日志跟访问日志最大的 ...
【Go语言探险】线上奇怪日志问题的排查
最近在日志中发现一些奇怪的日志,大致长这样: Error 2020-08-28 06:59:38.813+00:00 ... _msg=get immersion context, fetch tra ...
Python正则处理多行日志一例
正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...

随机推荐

kali 的 vim 中不能粘贴复制
kali 的 vim 中不能粘贴复制进入 vim 命令行模式,输入 :set mouse=c 之后可以正常粘贴复制
elasticsearch 6.2.4和elasticsearch-head环境搭建使用docker-compose方式
elasticsearch 6.2.4和elasticsearch-head测试环境搭建使用docker-compose方式一背景说明对于新手来说搭建一个elasticsearch的测试环境稍 ...
02.go-admin IDE配置配置命令启动方式讲解笔记
目录 go-admin版本视频地址一.代码地址二.在线文档三.首次配置需要初始化数据库资源信息(已初始化过数据库的,跳过此步) 配置数据库迁移五.配置启动项目,用goland IDE进行启动 ...
我的书《Unity3D动作游戏开发实战》出版了
首先感谢帮助和参与前期检阅的朋友们.本书是我经验积累的提炼,书中既有干货分享也有对基础内容的详解补充. 同时由于是第一次撰写书籍,许多地方仍有不足还请读者朋友们见谅. 在京东或当当等都可以购买到本书: ...
pyqt5 子线程如何操作主线程GUI
一.简介在使用pyqt5编写gui时遇到两个问题,会导致界面崩溃,今天就围绕这两个问题来简单说明和改进. 1.在主线程中使用while无限循环会导致界面崩溃 2.在子线程中操作主线程gui会导致界面 ...
Git：国内用命令行访问GitHub的方法
1 直接改Hosts文件(现在不太管用了) 如果你是Linux或Mac系统,那么可以通过命令sudo vim /etc/hosts打开Hosts文件,并加入以下内容: 140.82.114.25 al ...
解密Prompt系列29. LLM Agent之真实世界海量API解决方案：ToolLLM & AnyTool
很早之前我们就聊过ToolFormer,Gorilla这类API调用的Agent范式,这一章我们针对真实世界中工具调用的以下几个问题,介绍微调(ToolLLM)和prompt(AnyTool)两种方案 ...
【C# mvc5】使用mvc5 +bootstrap+EF6搭建一个权限管理系统的心得体会
使用mvc5的体会,是业务代码都可以独立分层,比如搭配多层架构,通过controller控制器传递需要渲染的列表,按钮.接受前端返回的实体模型等.总之我觉得要在前端渲染的数据可以写在controll ...
Swoole 源码分析之 Timer 定时器模块
原文首发链接:Swoole 源码分析之 Timer 定时器模块大家好,我是码农先森. 引言 Swoole 中的毫秒精度的定时器.底层基于 epoll_wait 和 setitimer 实现,数据结构 ...
数据分析---numpy模块
前戏 NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库.重在于数值计算,也是大部分Python科学计算库的基础,多用于在大型.多维数组上执行的数值运算. 快捷 ...

ELK日志缺失问题排查-多行日志聚合Logstash配置问题