关于MySQL导入数据到elasticsearch的小工具logstash
logstash核心配置文件pipelines.yml
#注:此处的 - 必须顶格写必须!!!
- pipeline.id: invitation
#下面路径配置的是你同步数据是的字段映射关系
path.config: /opt/apps/logstash/config/invitation/invitation.conf
同步数据时的字段映射关系配置文件invitation.conf。注:路径一定跟你pipelines.yml配置文件中的一样
input { jdbc {
#驱动jar包的位置
jdbc_driver_library => "/opt/apps/logstash/lib/mysql-connector-java-8.0.13.jar"
#驱动类名
jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
#MySQL的链接
jdbc_connection_string => "jdbc:mysql://192.168.0.234:3306/community?characterEncoding=utf8&useSSL=false&serverTimezone=UTC&rewriteBatchedStatements=true"
#数据库用户名
jdbc_user => "mostchh"
#数据库密码
jdbc_password => "1qaz2wsx3edc"
#数据库重连尝试次数
connection_retry_attempts => "3"
#超时时间
jdbc_validation_timeout => "3600"
#开启分页查询(默认false不开启)
jdbc_paging_enabled => "true"
#单次分页查询条数(默认100000,若字段较多且更新频率较高,建议调低此值)
jdbc_page_size => "500"
#时区
#jdbc_default_timezone =>"Asia/Shanghai"
#如果sql较复杂,建议配通过statement_filepath配置sql文件的存放路径;
statement_filepath => "/opt/apps/logstash/sql/invitation/invitation.sql"
#需要记录查询结果某字段的值时,此字段为true
use_column_value => true
#是否设置字段为小写,默认是true
lowercase_column_names => false
#需要记录的递增字段,用于增量同步,下次只同步比该值大的数据
tracking_column => "modifiedTime"
#递增的字段类型
tracking_column_type => "timestamp"
#记录上一次运行记录
record_last_run => true
#上一次同步的递增字段存放文件路径
last_run_metadata_path => "/opt/apps/logstash/station/invitation.txt"
#是否清除last_run_metadata_path的记录,需要增量同步时此字段必须为false
clean_run => false
#自动同步数据的cron表达式,下面是一秒执行一次
schedule => "*/1 * * * * *"
#对应你pipelines配置文件的ID
type => "invitation" } }
#数据处理的过滤器
filter {
aggregate {
task_id => "%{cardId}"
code => "
map['cardId'] = event.get('cardId')
map['title'] = event.get('title')
map['content'] = event.get('content')
map['issueUserId'] = event.get('issueUserId')
map['issueUserName'] = event.get('issueUserName')
map['issueUserIcon'] = event.get('issueUserIcon')
map['issueTime'] = event.get('issueTime')
map['revealStatus'] = event.get('revealStatus')
map['commentNum'] = event.get('commentNum')
map['isMeLike'] = event.get('isMeLike')
map['giveLikeNum'] = event.get('giveLikeNum')
map['isDelete'] = event.get('isDelete')
map['issueStatus'] = event.get('issueStatus')
map['cardStatus'] = event.get('cardStatus')
map['giveLikeUsers'] ||=[]
#数据一对多的处理
if (event.get('userId') != nil)
if !(map['giveLikeUsers'].include? event.get('userId'))
map['giveLikeUsers'] << event.get('userId')
end
end
map['file_list'] ||=[]
map['fileList'] ||=[]
#数据一对多的处理
if (event.get('fileId') != nil)
if !(map['file_list'].include? event.get('fileId'))
map['file_list'] << event.get('fileId')
map['fileList'] << {
'fileId' => event.get('fileId'),
'fileName' => event.get('fileName'),
'fileUrl' => event.get('fileUrl')
}
end
end
event.cancel()
" push_previous_map_as_event => true
timeout => 5
}
mutate {
}
mutate {
#过滤不需要的字段
remove_field => ["@timestamp","@version"]
}
} output {
elasticsearch {
document_id => "%{cardId}"
document_type => "_doc"
index => "bbs_card_management"
hosts => ["http://192.168.0.178:9200"]
}
stdout{
codec => rubydebug
}
}
同步数据的SQL配置文件invitation.sql,具体的SQL就根据你的业务来定了,我这里用的视图所以SQL比较简单。注:路径一定跟你invitation.conf配置文件中的一样
SELECT
*
FROM
invitation
WHERE
modifiedTime >= :sql_last_value
AND modifiedTime < NOW()
此处的:sql_last_value 取得就是你递增字段存放地址中的值
递增字段存放文件invitation.txt。注:路径一定跟你invitation.conf配置文件中的一样
--- 2021-08-30 15:22:08.000000000 +00:00
配置的存放类型是时间类型,存储格式就是这样的。
以上就是logstash的所有配置了,只需要运行即可实现一秒同步一次数据,当然具体多久同步根据你具体的需求来定。
关于MySQL导入数据到elasticsearch的小工具logstash的更多相关文章
- 安装配置elasticsearch、安装elasticsearch-analysis-ik插件、mysql导入数据到elasticsearch、安装yii2-elasticsearch及使用
一.安装elasticsearch 获取elasticsearch的rpm:wget https://download.elastic.co/elasticsearch/release/org/ela ...
- 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 ...
- 教程 | 使用Sqoop从MySQL导入数据到Hive和HBase
基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 S ...
- mysql导入数据到oracle中
mysql导入数据到oracle中. 建立Oracle表: CREATE TABLE "GG_USER" ( "USERID" BYTE) NOT NULL, ...
- mysql导入数据load data infile用法
mysql导入数据load data infile用法 基本语法: load data [low_priority] [local] infile 'file_name txt' [replace | ...
- elasticsearch -- Logstash实现mysql同步数据到elasticsearch
配置 安装插件由于这里是从mysql同步数据到elasticsearch,所以需要安装jdbc的入插件和elasticsearch的出插件:logstash-input-jdbc.logstash-o ...
- 使用sqoop从mysql导入数据到hive
目录 前言 一.使用的导入命令 二.遇到的问题及解决 1. 用文本字段进行分区的问题 2. Hadoop历史服务器Hadoop JobHistory没开启的问题 3. 连接元数据存储数据库报错 4 ...
- MYSQL导入数据出现The MySQL server is running with the --secure-file-priv
MYSQL导入数据出现The MySQL server is running with the --secure-file-priv option so it cannot execute this ...
- MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误
MySQL导入数据遇到Error Number: 1467 Failed to read auto-increment value from storage engine错误 创建表的语句 CREAT ...
随机推荐
- jQuery - 的几种删除方法,还有他们的区别
1.empty() 清空节点,它能清空元素中的所有后代节点,不能删除自己本身这个节点 2.remove() 该节点与该节点所包含的所有后代节点将同时被删除,提供传递一个筛选的表达式,删除指定合集中的元 ...
- MyBatis通过注解实现映射中的嵌套语句和嵌套结果
案例描述:查看订单或购物车订单信息的同时查询出该订单中所有书籍的信息. 一.嵌套语句 @Select("select* from shopcart where shopcartid = #{ ...
- VectorCAST - 通过确保测试的完整性控制产品质量
软件测试面临的问题有一句格言是这样说的,"如果没有事先做好准备,就意味着做好了 失败的准备."如果把这个隐喻应用在软件测试方面,就可以这样说"没有测试到,就意味着测试失败 ...
- 项目开发中,真的有必要定义VO,BO,PO,DO,DTO这些吗?
存在即是合理的,业务复杂,人员协同性要求高的场景下,这些规范性的东西不按着来虽然不会出错,程序照样跑,但是遵守规范会让程序更具扩展性和可读性,都是前辈血淋淋的宝贵经验,为什么不用? 随着现在后端编程标 ...
- shell脚本 Linux系统巡检
一.简介 源码地址 日期:2018/4/12 介绍:非常详细的Linux系统巡检脚本,截图为一部分输出 效果图: 二.使用 适用:centos6+ 语言:中文 注意:无 下载 wget https:/ ...
- C# 扫描识别图片中的文字(.NET Framework)
环境配置 本文以C#及VB.NET代码为例,介绍如何扫描并读取图片中的文字. 本次程序环境如下: Visual Studio版本要求不低于2017 图片扫描工具:Spire.OCR for .NET ...
- CentOS7学习笔记(四) 常用命令记录
查看命令的帮助信息 man 命令查看帮助信息 在想要获取帮助信息的命令前面加上man即可,例如查看ls命令的帮助信息 [root@localhost ~]# man ls help 命令查看帮助信息 ...
- [BUUCTF]PWN——[ZJCTF 2019]EasyHeap
[ZJCTF 2019]EasyHeap 附件 步骤: 例行检查,64位程序 试运行一下看看程序大概执行的情况,经典的堆块的菜单 64位ida载入,首先检索字符串,发现了读出flag的函数 看一下每个 ...
- 记一次AWD
有幸bjx师傅又让我参加了一次awd,算是第二次体验awd,又感觉学习到了很多东西. 第一次打这种模式的时候,我几乎什么都没有做,就给师傅们下载文件,上传文件了.(太菜了) 昨晚分的组,发现没有人是p ...
- Spring 容器的启动过程 流程图 自己看源码的梳理 如有错错误 请指正