应用一：mysql数据增量同步到kafka

1 准备mysql测试表

mysql> create table test_sync(id int not null auto_increment, name varchar(32), description varchar(64), create_time timestamp, update_time timestamp, primary key(id));

Query OK, 0 rows affected (0.04 sec)

mysql> insert into test_sync (name, description, create_time, update_time) values('test1', '', now(), now());

Query OK, 1 row affected (0.02 sec)

mysql> select * from test_sync;

+----+-------+-------------+---------------------+---------------------+

| id | name  | description | create_time         | update_time         |

+----+-------+-------------+---------------------+---------------------+

|  1 | test1 | 1           | 2019-03-13 10:45:49 | 2019-03-13 10:45:49 |

+----+-------+-------------+---------------------+---------------------+

1 row in set (0.00 sec)

2 准备kafka topic

# bin/kafka-topics.sh --zookeeper $zk:2181/kafka -create --topic test_sync --partitions 2 --replication-factor 2

WARNING: Due to limitations in metric names, topics with a period ('.') or underscore ('_') could collide. To avoid issues it is best to use either, but not both.

Created topic "test_sync".

# bin/kafka-topics.sh --zookeeper $zk:2181/kafka -describe --topic test_sync

Topic:test_sync PartitionCount:2        ReplicationFactor:2     Configs:

        Topic: test_sync        Partition: 0    Leader: 112     Replicas: 112,111       Isr: 112,111

        Topic: test_sync        Partition: 1    Leader: 110     Replicas: 110,112       Isr: 110,112

3 准备logstash conf

input {

  jdbc {

  jdbc_driver_library => "/path/to/mysql-connector-java-5.1.36-bin.jar"

  jdbc_driver_class => "com.mysql.jdbc.Driver"

  jdbc_connection_string => "jdbc:mysql://localhost:3306/database"

  jdbc_user => "DBUSERNAME"

  jdbc_password => "DBPASSWORD"
  jdbc_paging_enabled => "true"
  jdbc_page_size => "10000"
  jdbc_default_timezone => "UTC"

  statement => "select * from TABLE where id > :sql_last_value"

  tracking_column => id
  tracking_column_type => "numeric"

  use_column_value => true
  record_last_run => true
  clean_run => false
  #I have scheduled this to run in every second

  schedule => "* * * * * * Asia/Shanghai"

  }

}

output {
kafka {
bootstrap_servers => "192.168.0.1:9092,192.168.0.2:9092"
topic_id => "test_sync"
codec => json
}
stdout {codec => json}
}

注意

1）必须要设置时区，注意解析后的时间是UTC（会比Asia/Shanghai的时间晚8小时），如果希望解析后的时间和mysql中的时间保持一致，需要设置jdbc_default_timezone => "UTC"；

2）最好设置分页；

3）增量有两种方式，

一种是根据id，适用于数据创建之后不会修改的情形，对应 tracking_column_type => "numeric"；
一种是根据update_time，适用于每次创建或修改之后都会修改update_time的情形，对应 tracking_column_type => "timestamp"；

第二种示例

  statement => "select * from table where update_time > :sql_last_value;"

  tracking_column => "update_time"

  tracking_column_type => "timestamp"

增量进度位于last_run_metadata_path，默认路径$HOME/.logstash_jdbc_last_run，如果一台机器上启动多个logstash需要每个单独配置

通过schedule控制多久执行一次增量同步；

4 启动logstash

$ logstash -f $conf

观察日志是否正常，日志中会显示执行的sql以及发送的消息；

[2019-03-13T22:43:00,312][INFO ][logstash.inputs.jdbc ] (0.000253s) SELECT version()
[2019-03-13T22:43:00,314][INFO ][logstash.inputs.jdbc ] (0.000564s) select * from test_sync where update_time > '2019-03-13 14:07:41';
{"update_time":"2019-03-13T06:42:40.000Z","id":1,"create_time":"2019-03-13T06:07:41.000Z","@version":"1","@timestamp":"2019-03-13T14:43:00.507Z","name":"test1","description":"2"}

进一步测试mysql修改和新增的情形，一切正常；

5 kafka确认

# $KAFKA_HOME/bin/kafka-console-consumer.sh --bootstrap-server 192.168.0.1:9092 --topic test_sync --from-beginning

6 可能的问题

报错can't dup Fixnum

[2019-03-13T22:19:46,790][ERROR][logstash.pipeline ] Pipeline aborted due to error {:pipeline_id=>"main", :exception=>#<TypeError: can't dup Fixnum>, :backtrace=>["org/jruby/RubyKernel.java:1882:in `dup'", "uri:classloader:/META-INF/jruby.home/lib/ruby/stdlib/date/format.rb:838:in `_parse'", "uri:classloader:/META-INF/jruby.home/lib/ruby/stdlib/date.rb:1830:in `parse'"...

这有可能是因为tracking_column之前按照numeric运行，后来改成timestamp，检查last_run_metadata_path，默认路径$HOME/.logstash_jdbc_last_run，如果是因为以上原因，删除即可

参考：

https://www.elastic.co/guide/en/logstash/current/plugins-inputs-jdbc.html

https://www.elastic.co/guide/en/logstash/current/plugins-outputs-kafka.html

https://stackoverflow.com/questions/31446405/incremental-mysql-reading-using-logstash

【原创】大数据基础之Logstash（2）应用之mysql-kafka的更多相关文章

【原创】大数据基础之Logstash（4）高可用
logstash高可用体现为不丢数据(前提为服务器短时间内不可用后可恢复比如重启服务器或重启进程),具体有两个方面: 进程重启(服务器重启) 事件消息处理失败在logstash中对应的解决方案为: ...
【原创】大数据基础之Logstash（3）应用之http（in和out）
一个logstash很容易通过http打断成两个logstash实现跨服务器或者跨平台间数据同步,比如原来的流程是 logstash: nginx log -> kafka 打断成两个是 log ...
【原创】大数据基础之Logstash（1）简介、安装、使用
Logstash 6.6.2 官方:https://www.elastic.co/products/logstash 一简介 Centralize, Transform & Stash Yo ...
【原创】大数据基础之Logstash（5）监控
有两种方式来监控logstash: api ui(xpack) When you run Logstash, it automatically captures runtime metrics tha ...
【原创】大数据基础之Logstash（3）应用之file解析（grok/ruby/kv）
从nginx日志中进行url解析 /v1/test?param2=v2&param3=v3&time=2019-03-18%2017%3A34%3A14->{'param1':' ...
【原创】大数据基础之Logstash（6）mongo input
logstash input插件之mongodb是第三方的,配置如下: input { mongodb { uri => 'mongodb://mongo_server:27017/db' pl ...
【原创】大数据基础之Gobblin（2）持久化kafka到hdfs
gobblin 0.10 想要持久化kafka到hdfs有很多种方式,比如flume.logstash.gobblin,其中flume和logstash是流式的,gobblin是批处理式的,gobbl ...
【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...

随机推荐

在CentOS7上安装Zabbix3.0
#!/bin/bash # # .配置无人值守的安装,定义安装过程中需要用到的一些信息 # mysql_root_pw=root_pw mysql_zabbix_pw=zabbix_pw DBPass ...
[Android] Android RecycleView和ListView 自定义Adapter封装类
在网上查看了很多对应 Android RecycleView和ListView 自定义Adapter封装类的文章,主要存在几个问题: 一).网上代码一大抄,复制来复制去,大部分都运行不起来,或者格 ...
设置 img 在 div 中水平居中和垂直居中
Ø 前言写 html + css 时,img 标签的垂直与水平居中,应该是很常见的设计.实现的方式很多,但是容易遗忘,下面分别整理了几种实现方式. 1. css 代码 <style ty ...
九、文件IO——案例构建标准库
例子如下: mystdio.h #ifndef __MYSTDIO_H__ #define __MYSTDIO_H__ #include <sys/types.h> #define MYE ...
Unet网络
近期利用遥感影像进行路网提取,利用Unet网络进行图像分割介绍如下: U-net网络非常简单,前半部分作用是特征提取,后半部分是上采样.在一些文献中也把这样的结构叫做编码器-解码器结构.由于此网络整 ...
cuda、cuDNN的相关内容
1.nvidia与cuda需要满足关系: https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html/ 2.cuda与cudn ...
Java SE之正则表达式一：概述
正则表达式概念定义:符合一定规则的表达式作用:用于专门操作字符串特点:用于一些特定的符号表示代码的操作,这样就简化了长篇的程序代码好处:可以简化对字符串的复杂操作弊端:符号定义越多,正则越 ...
嵌入式4412开发板学习知识-Linux系统基础知识
1. 什么是Linux系统编程 Linux系统编程分为三个部分:系统调用.C库和C编译器. 系统调用系统编程的基础是系统调用,也结束于系统调用.在带有操作系统的嵌入式开发中,需要从操作系统申请一些服务 ...
mybatis 动态sql 插入报错
1. 值为null必须制定jdbcType 单条执行的话,可以考虑把值为null的字段去掉 2. 值的类型无法解析比如oracle.sql.TIMESTAMP类型,需转为java.sql.TIMES ...
nginx 开启静态 gzip 配合 Vue 构建
在站点配置添加如下代码: location ~* \.(css|js)$ { gzip_static on; } 这是 nginx 的静态 gzip功能,会自动查找对应扩展名的文件,如果存在 gzip ...

【原创】大数据基础之Logstash（2）应用之mysql-kafka