1. logstash核心配置文件pipelines.yml

     #注:此处的 - 必须顶格写必须!!!
    - pipeline.id: invitation
    #下面路径配置的是你同步数据是的字段映射关系
    path.config: /opt/apps/logstash/config/invitation/invitation.conf
  2. 同步数据时的字段映射关系配置文件invitation.conf。注:路径一定跟你pipelines.yml配置文件中的一样

     input {
    
     jdbc {
    #驱动jar包的位置
    jdbc_driver_library => "/opt/apps/logstash/lib/mysql-connector-java-8.0.13.jar"
    #驱动类名
    jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
    #MySQL的链接
    jdbc_connection_string => "jdbc:mysql://192.168.0.234:3306/community?characterEncoding=utf8&useSSL=false&serverTimezone=UTC&rewriteBatchedStatements=true"
    #数据库用户名
    jdbc_user => "mostchh"
    #数据库密码
    jdbc_password => "1qaz2wsx3edc"
    #数据库重连尝试次数
    connection_retry_attempts => "3"
    #超时时间
    jdbc_validation_timeout => "3600"
    #开启分页查询(默认false不开启)
    jdbc_paging_enabled => "true"
    #单次分页查询条数(默认100000,若字段较多且更新频率较高,建议调低此值)
    jdbc_page_size => "500"
    #时区
    #jdbc_default_timezone =>"Asia/Shanghai"
    #如果sql较复杂,建议配通过statement_filepath配置sql文件的存放路径;
    statement_filepath => "/opt/apps/logstash/sql/invitation/invitation.sql"
    #需要记录查询结果某字段的值时,此字段为true
    use_column_value => true
    #是否设置字段为小写,默认是true
    lowercase_column_names => false
    #需要记录的递增字段,用于增量同步,下次只同步比该值大的数据
    tracking_column => "modifiedTime"
    #递增的字段类型
    tracking_column_type => "timestamp"
    #记录上一次运行记录
    record_last_run => true
    #上一次同步的递增字段存放文件路径
    last_run_metadata_path => "/opt/apps/logstash/station/invitation.txt"
    #是否清除last_run_metadata_path的记录,需要增量同步时此字段必须为false
    clean_run => false
    #自动同步数据的cron表达式,下面是一秒执行一次
    schedule => "*/1 * * * * *"
    #对应你pipelines配置文件的ID
    type => "invitation" } }
    #数据处理的过滤器
    filter {
    aggregate {
    task_id => "%{cardId}"
    code => "
    map['cardId'] = event.get('cardId')
    map['title'] = event.get('title')
    map['content'] = event.get('content')
    map['issueUserId'] = event.get('issueUserId')
    map['issueUserName'] = event.get('issueUserName')
    map['issueUserIcon'] = event.get('issueUserIcon')
    map['issueTime'] = event.get('issueTime')
    map['revealStatus'] = event.get('revealStatus')
    map['commentNum'] = event.get('commentNum')
    map['isMeLike'] = event.get('isMeLike')
    map['giveLikeNum'] = event.get('giveLikeNum')
    map['isDelete'] = event.get('isDelete')
    map['issueStatus'] = event.get('issueStatus')
    map['cardStatus'] = event.get('cardStatus')
    map['giveLikeUsers'] ||=[]
    #数据一对多的处理
    if (event.get('userId') != nil)
    if !(map['giveLikeUsers'].include? event.get('userId'))
    map['giveLikeUsers'] << event.get('userId')
    end
    end
    map['file_list'] ||=[]
    map['fileList'] ||=[]
    #数据一对多的处理
    if (event.get('fileId') != nil)
    if !(map['file_list'].include? event.get('fileId'))
    map['file_list'] << event.get('fileId')
    map['fileList'] << {
    'fileId' => event.get('fileId'),
    'fileName' => event.get('fileName'),
    'fileUrl' => event.get('fileUrl')
    }
    end
    end
    event.cancel()
    " push_previous_map_as_event => true
    timeout => 5
    }
    mutate {
    }
    mutate {
    #过滤不需要的字段
    remove_field => ["@timestamp","@version"]
    }
    } output {
    elasticsearch {
    document_id => "%{cardId}"
    document_type => "_doc"
    index => "bbs_card_management"
    hosts => ["http://192.168.0.178:9200"]
    }
    stdout{
    codec => rubydebug
    }
    }
  3. 同步数据的SQL配置文件invitation.sql,具体的SQL就根据你的业务来定了,我这里用的视图所以SQL比较简单。注:路径一定跟你invitation.conf配置文件中的一样

     SELECT
    *
    FROM
    invitation
    WHERE
    modifiedTime >= :sql_last_value
    AND modifiedTime < NOW()

    此处的:sql_last_value 取得就是你递增字段存放地址中的值

  4. 递增字段存放文件invitation.txt。注:路径一定跟你invitation.conf配置文件中的一样

     --- 2021-08-30 15:22:08.000000000 +00:00

    配置的存放类型是时间类型,存储格式就是这样的。

以上就是logstash的所有配置了,只需要运行即可实现一秒同步一次数据,当然具体多久同步根据你具体的需求来定。

关于MySQL导入数据到elasticsearch的小工具logstash的更多相关文章

  1. 安装配置elasticsearch、安装elasticsearch-analysis-ik插件、mysql导入数据到elasticsearch、安装yii2-elasticsearch及使用

    一.安装elasticsearch 获取elasticsearch的rpm:wget https://download.elastic.co/elasticsearch/release/org/ela ...

  2. 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟

    使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 ...

  3. 教程 | 使用Sqoop从MySQL导入数据到Hive和HBase

    基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 S ...

  4. mysql导入数据到oracle中

    mysql导入数据到oracle中. 建立Oracle表: CREATE TABLE "GG_USER" ( "USERID" BYTE) NOT NULL, ...

  5. mysql导入数据load data infile用法

    mysql导入数据load data infile用法 基本语法: load data [low_priority] [local] infile 'file_name txt' [replace | ...

  6. elasticsearch -- Logstash实现mysql同步数据到elasticsearch

    配置 安装插件由于这里是从mysql同步数据到elasticsearch,所以需要安装jdbc的入插件和elasticsearch的出插件:logstash-input-jdbc.logstash-o ...

  7. 使用sqoop从mysql导入数据到hive

      目录 前言 一.使用的导入命令 二.遇到的问题及解决 1. 用文本字段进行分区的问题 2. Hadoop历史服务器Hadoop JobHistory没开启的问题 3. 连接元数据存储数据库报错 4 ...

  8. MYSQL导入数据出现The MySQL server is running with the --secure-file-priv

    MYSQL导入数据出现The MySQL server is running with the --secure-file-priv option so it cannot execute this ...

  9. MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误

    MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误 创建表的语句 CREAT ...

随机推荐

  1. 网页设计单位 px,em,rem,vm,vh,%

    px(pixels) 像素 (px) 是一种绝对单位,因为无论其他相关的设置怎么变化,像素指定的值是不会变化的. px就是设备或者图片最小的一个点,比如常常听到的电脑像素是1024x768的,表示的是 ...

  2. java中的迭代器的含义

    可迭代是Java集合框架下的所有集合类的一种共性,也就是把集合中的所有元素遍历一遍.迭代的过程需要依赖一个迭代器对象,那么什么是迭代器呢? 迭代器(Iterator)模式,又叫做游标模式,它的含义是, ...

  3. ANTLR 简介

    <ANTLR 4权威指南>由机械工业出版社出版,有兴趣的读者推荐购买阅读. 本专题大多内容来源于我读<ANTLR 4权威指南>的随手笔记以及个人实践,仅供参考学习,请勿用于任何 ...

  4. Mongodb集群调研

    目录 一.高可用集群的解决方案 二.MongoDB的高可用集群配置 三.Mongo集群实现高可用方式详解 四.Sharding分片技术 一.高可用集群的解决方案 高可用性即HA(High Availa ...

  5. Nginx 架构基础

    1 Nginx请求处理流程 2 Nginx进程结构 3 Nginx进程管理:信号 3.1 Master进程 监控worker进程 CHLD 管理worker进程 接收信号 TERM,INT QUIT ...

  6. 安装Google BBR加速

    目录 一.简介 二.安装 三.设置BBR 一.简介 Google BBR 是一款免费开源的TCP拥塞控制传输控制协议, 可以使Linux服务器显著提高吞吐量和减少TCP连接的延迟. 二.安装 1.yu ...

  7. Linux Ubuntu18.04 安装配置 clash

    我最近一段时间在搭建用于构建 Docker 镜像的开发测试环境,这个环境是一台运行于 Windows 笔记本上的虚拟机,其操作系统为 Ubuntu 18.04 .构建场景中经常要去 Github 获取 ...

  8. Wireshark(二):应用Wireshark观察基本网络协议

    原文出处: EMC中文支持论坛 TCP: TCP/IP通过三次握手建立一个连接.这一过程中的三种报文是:SYN,SYN/ACK,ACK. 第一步是找到PC发送到网络服务器的第一个SYN报文,这标识了T ...

  9. [BUUCTF]REVERSE——[2019红帽杯]easyRE

    [2019红帽杯]easyRE 附件 步骤: ida载入,没有main函数,就先检索了程序里的字符串 发现了base64加密的特征字符串,双击you found me跟进,找到了调用它的函数,函数很长 ...

  10. 设置项目的日程排定方式(Project)

    <Project2016 企业项目管理实践>张会斌 董方好 编著 [项目]>[属性]>[项目信息]>[日程排定方法]>选取: 默认项是[项目开始日期]. 这两位是干 ...