0x0 需求

　　消费Kafka的日志并写入ElasticSearch供查询

0x1 依赖库

golang版Kafka客户端 https://github.com/Shopify/sarama

golang版ElasticSearch客户端 https://github.com/elastic/go-elasticsearch

0x2 实现

总共分3部分

1、Kafka消费者

// LogJson json格式

type LogJson struct {

    Tag     string    `json:"tag"`

    Level   string    `json:"level"`

    File    string    `json:"file"`

    Time    time.Time `json:"@timestamp"`

    Message string    `json:"message"`

}

type taskProcessor interface {

    AddTask(key string, val []byte)

}

// MyConsumer 可关闭的带任务处理器的消费者

type MyConsumer struct {

    processor taskProcessor

    ctx       context.Context

}

// NewMyConsumer 构造

func NewMyConsumer(p taskProcessor, ctx context.Context) *MyConsumer {

    c := &MyConsumer{

        processor: p,

        ctx:       ctx,

    }

    return c

}

// Setup 启动

func (consumer *MyConsumer) Setup(s sarama.ConsumerGroupSession) error {

    log.Printf("[main] consumer.Setup memberID=[%s]", s.MemberID())

    return nil

}

// Cleanup 当退出时

func (consumer *MyConsumer) Cleanup(s sarama.ConsumerGroupSession) error {

    log.Printf("[main] consumer.Cleanup memberID=[%s]", s.MemberID())

    return nil

}

// ConsumeClaim 消费日志

func (consumer *MyConsumer) ConsumeClaim(session sarama.ConsumerGroupSession, claim sarama.ConsumerGroupClaim) error {

    for {

        select {

        case message, ok := <-claim.Messages():

            if !ok {

                return nil

            }

            js := &LogJson{}

            if err := json.Unmarshal(message.Value, js); nil != err {

                fmt.Fprintf(os.Stderr, "[MyConsumer] ConsumeClaim json.Unmarshal err=[%s] topic=[%s] key=[%s] val=[%s]\n", err.Error(), message.Topic, message.Key, string(message.Value))

            } else {

                index := fmt.Sprintf("%s-%s", message.Topic, js.Time.Format("2006.01.02"))

                consumer.processor.AddTask(index, message.Value)

                session.MarkMessage(message, "")

            }

        case <-consumer.ctx.Done():

            return nil

        }

    }

    return nil

}

2、插入ElasticSearch的Worker

package elastic_worker

import (

    "context"

    "encoding/json"

    "fmt"

    "log"

    "runtime"

    "sync"

    "time"

    "github.com/olivere/elastic"

)

// Config 配置

type Config struct {

    MaxMessage int `xml:"max_msg"`          // 最大缓冲

    WorkerNum  int `xml:"worker_number"`    // 线程个数

    BatchSize  int `xml:"batch_size"`       // 每个批次最大条数

    TickTime   int `xml:"tick_millisecond"` // 处理频率

}

type task struct {

    key string

    val []byte

}

// Worker 消息处理器

type Worker struct {

    msgQ   chan *task

    client *elastic.Client

    wg     sync.WaitGroup

    config *Config

}

// NewWorker 构造

func NewWorker(client *elastic.Client, cfg *Config) *Worker {

    w := &Worker{

        client: client,

        config: cfg,

        msgQ:   make(chan *task, cfg.MaxMessage),

    }

    return w

}

// Run 开工

func (w *Worker) Run(ctx context.Context) {

    // 线程数

    thread := w.config.WorkerNum

    if thread <=  {

        thread = runtime.NumCPU()

    }

    // ticker

    tickTime := time.Duration(w.config.TickTime) * time.Millisecond

    if tickTime <=  {

        tickTime = time.Duration() * time.Millisecond

    }

    // 启动

    for i := ; i < thread; i++ {

        w.wg.Add()

        time.Sleep(tickTime / time.Duration(thread))

        go func(idx int) {

            // 构造一个service，server可以反复使用

            service := w.client.Bulk()

            service.Refresh("wait_for")

            defer service.Reset()

            log.Printf("[elastic_worker] worker[%d] start", idx)

            defer w.wg.Done()

            // ticker

            ticker := time.NewTicker(tickTime)

            defer ticker.Stop()

        LOOP:

            for {

                select {

                case <-ctx.Done():

                    log.Printf("[elastic_worker] worker[%d] is quiting", idx)

                    // 要把通道里的全部执行完才能退出

                    for {

                        if num := w.process(service); num >  {

                            log.Printf("[elastic_worker] worker[%d] process batch [%d] when quiting", idx, num)

                        } else {

                            break LOOP

                        }

                        time.Sleep(tickTime)

                    }

                case <-ticker.C:

                    if num := w.process(service); num >  {

                        log.Printf("[elastic_worker] worker[%d] process batch [%d] ", idx, num)

                    }

                }

            }

            log.Printf("[elastic_worker] worker[%d] stop", idx)

        }(i)

    }

}

// AddTask 添加任务，goroutine safe

func (w *Worker) AddTask(key string, val []byte) {

    t := &task{

        key: key,

        val: val,

    }

    w.msgQ <- t

}

// process 处理任务

func (w *Worker) process(service *elastic.BulkService) int {

    //service.Reset()

    // 每个批次最多w.config.BatchSize个

LOOP:

    for i := ; i < w.config.BatchSize; i++ {

        // 有任务就加到这个批次，没任务就退出

        select {

        case m := <-w.msgQ:

            req := elastic.NewBulkIndexRequest().Index(m.key).Type("doc").Doc(json.RawMessage(m.val))

            service.Add(req)

        default:

            break LOOP

        }

    }

    total := service.NumberOfActions()

    if total >  {

        if resp, err := service.Do(context.Background()); nil != err {

            panic(err)

        } else {

            if resp.Errors {

                for _, v := range resp.Failed() {

                    fmt.Println("service.Do failed", v)

                }

                panic("resp.Errors")

            }

        }

    }

    return total

}

// Close 关闭 需要外面的context关闭，和等待msgQ任务被执行完毕

func (w *Worker) Close() {

    w.wg.Wait()

    if n := len(w.msgQ); n >  {

        log.Printf("[elastic_worker] worker Close remain msg[%d]", n)

    }

}

3、main.go

package main

import (

    "context"

    "encoding/xml"

    "flag"

    "fmt"

    "io/ioutil"

    "log"

    "os"

    "os/signal"

    "runtime"

    "strings"

    "syscall"

    "time"

    "consumer"

    "elastic_worker"

    "github.com/Shopify/sarama"

    "github.com/olivere/elastic"

)

// Consumer Consumer配置

type ConsumerConfig struct {

    Topic       []string `xml:"topic"`

    Broker      string   `xml:"broker"`

    Partition   int32    `xml:"partition"`

    Replication int16    `xml:"replication"`

    Group       string   `xml:"group"`

    Version     string   `xml:"version"`

}

// Config 配置

type Config struct {

    Consumer   ConsumerConfig        `xml:"consumer"`

    ElasticURL string                `xml:"elastic_url"`

    Filters    []string              `xml:"filter"`

    Worker     elastic_worker.Config `xml:"elastic_worker"`

}

var (

    configFile = "" // 配置路径

    initTopic  = false

    listTopic  = false

    delTopic   = ""

    cfg        = &Config{}

    web        = ""

)

func init() {

    flag.StringVar(&configFile, "config", "cfg.xml", "config file ")

    flag.BoolVar(&initTopic, "init", initTopic, "create topic")

    flag.BoolVar(&listTopic, "list", listTopic, "list topic")

    flag.StringVar(&delTopic, "del", delTopic, "delete topic")

}

var (

    elasticClient *elastic.Client

)

func main() {

    runtime.GOMAXPROCS(runtime.NumCPU())

    defer time.Sleep(time.Second)

    // 获取host名字

    hostName, err := os.Hostname()

    if nil != err {

        hostName = "[beats]"

    }

    // 加载配置

    if contents, err := ioutil.ReadFile(configFile); err != nil {

        panic(err)

    } else {

        if err = xml.Unmarshal(contents, cfg); err != nil {

            panic(err)

        }

    }

    // sarama的logger

    sarama.Logger = log.New(os.Stdout, fmt.Sprintf("[%s]", hostName), log.LstdFlags)

    // 指定kafka版本，一定要支持kafka集群

    version, err := sarama.ParseKafkaVersion(cfg.Consumer.Version)

    if err != nil {

        panic(err)

    }

    config := sarama.NewConfig()

    config.Version = version

    config.Consumer.Offsets.Initial = sarama.OffsetOldest

    config.ClientID = hostName

    // 工具

    if tool(cfg, config) {

        return

    } else {

        initTopic = true

        tool(cfg, config)

    }

    // 启动elastic客户端

    urls := strings.Split(cfg.ElasticURL, ",")

    if cli, err := elastic.NewClient(elastic.SetURL(urls...)); err != nil {

        panic(err)

    } else {

        elasticClient = cli

        // ping检查

        if ret, _, err := elasticClient.Ping(urls[]).Do(context.Background()); nil != err {

            panic(err)

        } else {

            log.Printf("elasticClient.Ping %+v", ret)

        }

        defer elasticClient.Stop()

    }

    // ctx

    ctx, cancel := context.WithCancel(context.Background())

    // Worker

    worker := elastic_worker.NewWorker(elasticClient, &cfg.Worker)

    worker.Run(ctx)

    defer worker.Close()

    // kafka consumer client

    kafkaClient, err := sarama.NewConsumerGroup(strings.Split(cfg.Consumer.Broker, ","), cfg.Consumer.Group, config)

    if err != nil {

        panic(err)

    }

    consumer := consumer.NewMyConsumer(worker, ctx)

    go func() {

        for {

            select {

            case <-ctx.Done():

                return

            default:

                err := kafkaClient.Consume(ctx, cfg.Consumer.Topic, consumer)

                if err != nil {

                    log.Printf("[main] client.Consume error=[%s]", err.Error())

                    time.Sleep(time.Second)

                }

            }

        }

    }()

    // os signal

    sigterm := make(chan os.Signal, )

    signal.Notify(sigterm, syscall.SIGINT, syscall.SIGTERM)

    //time.Sleep(time.Second * 4)

    sig := <-sigterm

    log.Printf("[main] os sig=[%v]", sig)

    cancel()

    log.Printf("[main] cancel")

    if err := kafkaClient.Close(); nil != err {

        log.Printf("[main] kafkaClient close error=[%s]", err.Error())

    }

    log.Printf("[main] beats quit")

}

func tool(cfg *Config, config *sarama.Config) bool {

    if initTopic || listTopic || len(delTopic) >  {

        ca, err := sarama.NewClusterAdmin(strings.Split(cfg.Consumer.Broker, ","), config)

        if nil != err {

            panic(err)

        }

        if len(delTopic) >  { // 删除Topic

            if err := ca.DeleteTopic(delTopic); nil != err {

                panic(err)

            }

            log.Printf("delete ok topic=[%s]\n", delTopic)

        } else if initTopic { // 初始化Topic

            if detail, err := ca.ListTopics(); nil != err {

                panic(err)

            } else {

                for _, v := range cfg.Consumer.Topic {

                    if d, ok := detail[v]; ok {

                        if cfg.Consumer.Partition > d.NumPartitions {

                            if err := ca.CreatePartitions(v, cfg.Consumer.Partition, nil, false); nil != err {

                                panic(err)

                            }

                            log.Println("alter topic ok", v, cfg.Consumer.Partition)

                        }

                    } else {

                        if err := ca.CreateTopic(v, &sarama.TopicDetail{NumPartitions: cfg.Consumer.Partition, ReplicationFactor: cfg.Consumer.Replication}, false); nil != err {

                            panic(err)

                        }

                        log.Println("create topic ok", v)

                    }

                }

            }

        }

        // 显示Topic列表

        if detail, err := ca.ListTopics(); nil != err {

            log.Println("ListTopics error", err)

        } else {

            for k := range detail {

                log.Printf("[%s] %+v", k, detail[k])

            }

        }

        if err := ca.Close(); nil != err {

            panic(err)

        }

        return true

    }

    return false

}

0x3 配置文件

<?xml version="1.0" encoding="utf-8"?>

<config>

  <consumer>

    <!-- Kafka cluster -->

    <broker>127.0.0.1:</broker>

    <!-- topic 可以配多个-->

    <topic>top1</topic>

    <topic>top2</topic>

    <!-- Kafka 分组 -->

    <group>test-group</group>

    <!-- Kafka 版本 -->

    <version>2.2.</version>

    <!-- partition 个数，开consumer个数不能超过这个 -->

    <partition></partition>

    <!-- 副本因子 -->

    <replication></replication>

  </consumer>

  <elastic_url>http://127.0.0.1:9200</elastic_url>

  <elastic_worker>

    <!-- 最大缓冲 这个小点可以防止崩溃导致丢失太多-->

    <max_msg></max_msg>

    <!-- 线程个数 -->

    <worker_number></worker_number>

    <!-- 每个批次最大数量 -->

    <batch_size></batch_size>

    <!-- 处理频率（毫秒） -->

    <tick_millisecond></tick_millisecond>

  </elastic_worker>

</config>

0x4 注意

1、如果你的ElasticSearch集群的配置足够高，你可以修改配置文件里的<worker_number>1</worker_number>给Worker开多协程，否则还是单协程性能更高一些。

2、可以适当调整<batch_size>1024</batch_size>每个批次的数量来提升写入性能。

3、如果报这个错误 EsRejectedExcutionException，说明ES性能扛不住了，需要提升配置，降低写入量。

[Golang] 消费Kafka的日志提交到ElasticSearch的更多相关文章

kafka日志同步至elasticsearch和kibana展示
kafka日志同步至elasticsearch和kibana展示一 kafka consumer准备前面的章节进行了分布式job的自动计算的概念讲解以及实践.上次分布式日志说过日志写进kafka, ...
JavaWeb项目架构之Kafka分布式日志队列
架构.分布式.日志队列,标题自己都看着唬人,其实就是一个日志收集的功能,只不过中间加了一个Kafka做消息队列罢了. kafka介绍 Kafka是由Apache软件基金会开发的一个开源流处理平台,由S ...
storm消费kafka实现实时计算
大致架构 * 每个应用实例部署一个日志agent * agent实时将日志发送到kafka * storm实时计算日志 * storm计算结果保存到hbase storm消费kafka 创建实时计算项 ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
基于Flume+LOG4J+Kafka的日志采集架构方案
本文将会介绍如何使用 Flume.log4j.Kafka进行规范的日志采集. Flume 基本概念 Flume是一个完善.强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说 ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
【转】flume+kafka+zookeeper 日志收集平台的搭建
from:https://my.oschina.net/jastme/blog/600573 flume+kafka+zookeeper 日志收集平台的搭建收藏 jastme 发表于 10个月前阅 ...
ELK+kafka构建日志收集系统
ELK+kafka构建日志收集系统原文 http://lx.wxqrcode.com/index.php/post/101.html 背景: 最近线上上了ELK,但是只用了一台Redis在 ...
消费阿里云日志服务SLS
此文档只关心消费接入,不关心日志接入,只关心消费如何接入,可直接跳转到[sdk消费接入] SLS简介日志服务: 日志服务(Log Service,简称 LOG)是针对日志类数据的一站式服务,在阿里巴 ...

随机推荐

P1092 虫食算[搜索]
这个式子是是由\(A\sim A+N\)组成的,那么\(A\sim A+N\)就只能等于\(0\sim N-1\),因此我们每次对\(A\sim A+N\)的取值做一个新的排列,然后judge一下当前 ...
MyBatis mapper.xml中SQL处理小于号与大于号
这种问题在xml处理sql的程序中经常需要我们来进行特殊处理. 其实很简单,我们只需作如下替换即可避免上述的错误: < <= > >= & ' " < ...
项目Beta冲刺（团队3/7)
项目Beta冲刺(团队) --3/7 作业要求: 项目Beta冲刺(团队) 1.团队信息团队名 :男上加男成员信息 : 队员学号队员姓名个人博客地址备注 221600427 Alicesft ...
Spark RDD :Spark API--图解Spark API
面试题引出: 简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数? Stage:根据RDD之间的依赖关系的不同将Job划分成不同的Stage,遇到一个 ...
Python 类的继承__init__() takes exactly 3 arguments (1 given)
类(class),可以继承基类以便形成具有自己独特属性的类,我们在面向对象的编程中,经常用到类及其继承,可以说没有什么不是类的,今天我们就来详细探讨一下在python中,类的继承是如何做的. 我们假设 ...
jsp request对象
getParameter( ) :返回name指定参数的参数值 String[] getParameterValues(String name) :返回包含参数name的所有值的数值 getA ...
[GXOI/GZOI2019]旅行者（最短路）
题意给定一个有向图,其中一些顶点为关键点.求这些关键点两两之间最小距离. 题解考试时没怎么想写了50分暴力走了.以为是什么强连通分量的解法,结果就是个最短路.直接从关键点跑一次最短路dis[0], ...
A&G￥C015
A&G￥C015 A A+...+B Problem 正常A+B我还是会的,但是又加了个省略号就不会了/kk B Evilator 不会 C Nuske vs Phantom Thnook 以 ...
DISCO Presents Discovery Channel Code Contest 2020 Qual题解
传送门 \(A\) 咕咕 int x,y; int c[4]={0,300000,200000,100000}; int res; int main(){ cin>>x>>y; ...
linux高性能服务器编程 (七) --Linux服务器程序规范
第七章 LInux 服务器程序规范 1)linux服务器程序一般以后台进程形式运行.后台进程又称为守护进程,是没有控制终端的,所以不会受到外界的干扰.守护进程的父进程通常是init进程(PID为1的进 ...

[Golang] 消费Kafka的日志提交到ElasticSearch