Grafana Loki 学习之踩坑记

转发自：https://mp.weixin.qq.com/s/zfXNEkdDC9Vqd9lh1ptC1g

Grafana 出品的 loki 日志框架完美地与 kubernetes 的 label 理念结合，相对于 EFK 来说更加轻量级，非常适合不需要日志聚合的场景。目前新上集群考虑都采用 loki 做为基础工具，直接在 grafana 中展示，在这里记录下使用 Loki 踩过的一些坑。

1.LOKI 启动时提示 panic: invalid page type: 11:10

原因: 对应的 index table 文件已经损坏

解决: 删除相应的 index 文件即可解决

2.日志的 label 不对

原因: promtail 中的 scrape_config 存在问题.

参考: https://izsk.me/2022/05/15/Loki-log-with-wrong-labels/

3.grafana 中开启实时日志时提示 Query error

原因: 官方的解释是 Note that live tailing relies on two websocket connections: one between the browser and the Grafana server, and another between the Grafana server and the Loki server. If you run any reverse proxies, please configure them accordingly.

也就是说，如果在 web 与 grafana,grafana 与 loki 之间存在如 nginx 类的 proxy,则需要开启 websocket 特性，恰好作者的 grafana 是在 nginx 后的

解决: nginx 添加 websocket 配置, [详见] https://www.nginx.com/blog/websocket-nginx/

参考: https://github.com/grafana/grafana/blob/b5d8cb25e18fc73f37b3546246363464c9298684/docs/sources/features/datasources/loki.md

4.Loki: file size too small\nerror creating index client

解决: 删除 loki 的持久化目录下的 boltdb-shipper-active/index_18xxx 目录

参考: https://github.com/grafana/loki/issues/3219

5.protail: context deadline exceeded

原因: promtail 无法连接 loki 所致

6.promtail cpu 使用过高

原因: 由于集群中存在大量的 job 类 pod，这会对 loki 的服务发现会有很大的压力，需要调整 promtail 的配置，查看官方的 issue，后续可能会将 ds 由 promtail 转到服务端来做，promtail 需要调整的配置主要为

将 sync_period 由默认的 10s 换成 30s

target_config:

  sync_period: 30s

positions:

  filename: /run/promtail/positions.yaml

  sync_period: 30s

可以使用以下的命令获取到 pprof 文件分析性能

curl localhost:3100/debug/pprof/profile\?seconds\=20

参考: https://github.com/grafana/loki/issues/1315

7.Maximum active stream limit exceeded

原因：同下，需要调整 limit config 中的 max_streams_per_user，设置为 0 即可

8.server returned HTTP status 429 Too Many Requests

原因: limit config 中的参数: ingestion_burst_size 默认值太小，调整即可

参考: https://github.com/grafana/loki/issues/1923

9.Please verify permissions

原因: 这条其实是 warn,不影响 promtail 的正常工作，如果调整过日志的路径的话要确认 promtail 挂载的路径是否正常

10.loki: invalid schema config

原因: loki 的配置文件格式错误.

11.promtail: too many open files

原因: /var/log/pods 下面的文件数量太多，导致超过内核参数(fs.inotify.max_user_instances)设置配置.

解决

# 先查看当前机器设置的配置

cat /proc/sys/fs/inotify/max_user_instances

# 再查看promtail启动时watch的文件数

cat /run/promtail/positions.yaml | wc -l

# 如果这个值比max_user_instances要大，则会出现上面的错误，可以通过修改内核参数进行调整

sysctl -w fs.inotify.max_user_instances=1024

# 生效

sysctl -p

参考: https://github.com/grafana/loki/issues/1153

12.promtail: no such file ro directory

原因：promtail daemonset 启动时会自动挂载好几个 hostpath,如果 docker containers 的配置调整过，则需要 volume 跟 volumemount 都需要对应上。

Grafana Loki 学习之踩坑记的更多相关文章

Vue + TypeScript + Element 搭建简洁时尚的博客网站及踩坑记
前言本文讲解如何在 Vue 项目中使用 TypeScript 来搭建并开发项目,并在此过程中踩过的坑 . TypeScript 具有类型系统,且是 JavaScript 的超集,TypeScript ...
[技术博客] 敏捷软工——JavaScript踩坑记
[技术博客] 敏捷软工--JavaScript踩坑记一.一个令人影响深刻的坑 1.脚本语言的面向对象面向对象特性是现代编程语言的基本特性,JavaScript中当然集成了面向对象特性.但是Java ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark踩坑记——数据库（Hbase+Mysql）
[TOC] 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
【踩坑记】从HybridApp到ReactNative
前言随着移动互联网的兴起,Webapp开始大行其道.大概在15年下半年的时候我接触到了HybridApp.因为当时还没毕业嘛,所以并不清楚自己未来的方向,所以就投入了HybridApp的怀抱. Hy ...
Spark踩坑记——共享变量
[TOC] 前言 Spark踩坑记--初试 Spark踩坑记--数据库(Hbase+Mysql) Spark踩坑记--Spark Streaming+kafka应用及调优在前面总结的几篇spark踩 ...
Spark踩坑记——从RDD看集群调度
[TOC] 前言在Spark的使用中,性能的调优配置过程中,查阅了很多资料,之前自己总结过两篇小博文Spark踩坑记--初试和Spark踩坑记--数据库(Hbase+Mysql),第一篇概况的归纳了 ...
djangorestframework+vue-cli+axios，为axios添加token作为headers踩坑记
情况是这样的,项目用的restful规范,后端用的django+djangorestframework,前端用的vue-cli框架+webpack,前端与后端交互用的axios,然后再用户登录之后,a ...
HttpWebRequest 改为 HttpClient 踩坑记-请求头设置
HttpWebRequest 改为 HttpClient 踩坑记-请求头设置 Intro 这两天改了一个项目,原来的项目是.net framework 项目,里面处理 HTTP 请求使用的是 WebR ...

随机推荐

resultMap自定义映射（多对一）
自定义resultMap,处理复杂的表关系,实现高级结果集映射 1) id :用于完成主键值的映射 2) result :用于完成普通列的映射 3) association :一个复杂的类型关联;许多 ...
ConcurrentHashMap树化链表treeifyBin
private final void treeifyBin(Node<K,V>[] tab, int index) { Node<K,V> b; int n, sc; if ( ...
Ubuntu修改网卡名
vim /etc/udev/rules.d/70-persistent-net.rules 添加以下内容: SUBSYSTEM=="net", ACTION=="add& ...
跟我读论文丨Multi-Model Text Recognition Network
摘要:语言模型往往被用于文字识别的后处理阶段,本文将语言模型的先验信息和文字的视觉特征进行交互和增强,从而进一步提升文字识别的性能. 本文分享自华为云社区<Multi-Model Text Re ...
二分法求最长子序列长度(STL)(nlogn)
声明: 正如标题所说,只是求长度,应对题目要求,请自行判断,用错代码概不负责! 本蒟蒻的代码可能有错,有错误还请各位dalao请指出运用了upper_bound()和lower_bound()函数 ...
非root用户安装科学计算包blas、lapack和FFTW
一.安装FFTW 1.下载安装包下载地址:http://www.fftw.org/download.html 2.编译安装 tar -zxvf fftw-3.3.10.tar.gz cd fftw ...
向docker镜像中传递变量的两种方式
测试用到的python文件: #!/usr/bin/env python3 #conding: utf-8 from http.server import HTTPServer, BaseHTTPRe ...
Modbus转BACnet IP网关
BACnet是楼宇自动化和控制网络数据通信协议的缩写.它是为楼宇自动化网络开发的数据通信协议根据1999年底互联网上楼宇自动化网络的信息,全球已有数百家国际知名制造商支持BACnet,包括楼宇自 ...
vue-resource && axios
1 # axios 2 # 1.安装:npm i axios 3 # 2.使用: 4 import axios from 'axios' 5 axios.get(URL).then(response= ...
CentOS Docker安装 && docker 基础指令
1 # 直接从官网下载docker的安装命令包(docker已经很贴心将安装shell脚本帮我们准备好了) 2 curl -fsSL get.docker.com -o get-docker.sh 3 ...

Grafana Loki 学习之踩坑记

Grafana Loki 学习之踩坑记的更多相关文章

随机推荐

热门专题