背景:

A部门想将mysql中多张表join成一个sql查询语句,然后将结果同步到es中供搜索使用

环境信息:

源端mysql在阿里云上,有公网ip

目标端es在华为云上,三节点

操作步骤与目的:

配置MySQL供canal访问

1.由于阿里云的rds一般都配置了白名单,因此需要将后续canal所在的ecs的公网ip填入rds的白名单之中

注意外网对应阿里云的经典网络.在专有网络中设置并没有效果

2.确认已开启binlog并是row格式,一般不需要再做修改

安装canal-server端,用于获取mysql的binlog日志

1.在华为云上开通一台ecs,注意要与阿里云的公网ip相通,且与华为云es相通

2.ecs开启后,进行canal-server的安装.其原理是模拟成为mysql的slave备机,从而拿到binlog日志,可供后续使用

2.1.先安装java环境

yum install java-1.8.0-openjdk

2.2.安装canal-server,建议使用官方镜像,这里使用的是1,1.5版本,注意并不是最新版本

docker pull canal/canal-server:v1.1.5
docker run --name canal115 -p 11111:11111 --link mysql5736:mysql5736 -id canal/canal-server:v1.1.5

如果docker服务异常,则建议初始化docker服务

/bin/systemctl start docker.service
systemctl status docker.service
cp /lib/systemd/system/docker.service /etc/systemd/system/docker.service
systemctl daemon-reload
systemctl start docker

如果docker拉取速度感人,可以修改其配置源

1 mkdir -p /etc/docker
2 vi /etc/docker/daemon.json
3 {
4 "registry-mirrors": ["https://yxzrazem.mirror.aliyuncs.com"]
5 }
6 sudo systemctl daemon-reload
7 sudo systemctl restart docker

2.3.进入docker并配置canal-server

 1 docker exec -it canal115 /bin/bash
2 cd canal-server/conf/example/
3 vi instance.properties // 修改涉及到的配置 xx调整为对应数据
4
5 # 修改成mysql对应的账号密码,需要保证网络连通,账号密码正确
6 canal.instance.master.address=10.208.xx.xx:3306
7 canal.instance.dbUsername=xx
8 canal.instance.dbPassword=xx
9 # 需要同步的表名称,一般是schema名.*
10 canal.instance.filter.regex=xx.*
11 # 不需要同步的表名称,不需改动
12 canal.instance.filter.black.regex=mysql\\.slave_.*

2.4 开启canal-server服务

1 docker restart  canal115
2
3 docker exec -it canal115 /bin/bash
4 tail -100f /home/admin/canal-server/logs/example/example.log // 查看日志

出现the next step is binlog dump说明配置正常.

安装canal-adapter,用于数据同步到es

1.下载canal-adapter

wget https://github.com/alibaba/canal/releases/download/canal-1.1.5/canal.adapter-1.1.5.tar.gz

2.解压安装

mkdir adapter-1.1.5
mv canal.adapter-1.1.5.tar.gz adapter-1.1.5
cd adapter-1.1.5
tar zxvf canal.adapter-1.1.5.tar.gz

3.配置application.yml 用于保存源端与目标端基本信息

adapter-1.1.5/conf/application.yml  // 修改涉及到的配置 xx调整为对应数据

    # canal tcp consumer 这里配置canal-server所在的docker的ip
canal.tcp.server.host: 172.30.x.x:11111 #配置源端信息
srcDataSources:
defaultDS:
url: jdbc:mysql://10.208.xx.xx:3306/xx?useUnicode=true
username: xx
password: xx #配置目标端信息
canalAdapters:
- instance: example #无需改动
groups:
- groupId: g1 #无需改动
outerAdapters:
- name: logger
- name: es7 #按目标端es版本设置,有es6和es7
hosts: http://10.208.128.3:9200 #源端的内网访问地址,任一即可
properties:
mode: rest #无需改动
cluster.name: xx #集群名称
security.auth: xx:xx #集群用户名密码

4.设置yml文件,用于保存需要同步的sql语句,注意sql语句有限制

详见:https://github.com/alibaba/canal/wiki/Sync-ES

觉得太长的话,概括如下:

1.只能用左连接left join

2.总表数不能超过3个,也就是可以left join 2张表

3.on条件的字段,必须至少有一个出现在select语句中

如果是全量.则可以在源端生成视图进行同步

但是增量不支持视图,因为关联不上.只能用left join语句

vi /soft/adapter-1.1.5/conf/es7/xx.yml 
dataSourceKey: defaultDS
destination: example
groupId: g1
esMapping:
_index: index_xx #对应es的索引名称
_id: _id
sql: "select _id,col2,col3 from xx" #sql语句
commitBatch: 3000

5.在es生成好索引

#删除索引
delete /index_xx
#建索引语句,对col3进行分词处理
PUT /index_xx
{
"settings": {
"analysis": {
"filter": {
"my_synonym": {
"type": "dynamic_synonym"
}
},
"analyzer": {
"ik_synonym": {
"filter": [
"my_synonym"
],
"type": "custom",
"tokenizer": "ik_smart"
}
}
}
},
"mappings" : {
"properties" : {
"col2" : {
"type" : "text"
},
"col3" : {
"type": "text",
"analyzer": "ik_smart",
"search_analyzer": "ik_synonym"
}
}
}
}
}

6.启动服务开始同步

启动adapter
/soft/adapter-1.1.5/bin/startup.sh
查看日志
tail -100f /soft/adapter-1.1.5/logs/adapter/adapter.log
停止进程
/soft/adapter-1.1.5/bin/stop.sh
查看adapter配置情况
more /soft/adapter-1.1.5/conf/application.yml
查看同步表(视图)配置情况
more /soft/adapter-1.1.5/conf/es7/xx.yml
全量同步
curl http://10.208.128.229:8081/etl/es7/xx.yml -X POST

会遇到的一些报错

1.日志提示

java.lang.ClassCastException: com.alibaba.druid.pool.DruidDataSource cannot be cast to com.alibaba.druid.pool.DruidDataSource

替换jar包

下载v1.1.5-alpha-2 版本下的client-adapter.es7x-1.1.5-SNAPSHOT-jar-with-dependencies.jar 替换原client-adapter.es7x-1.1.5-jar-with-dependencies.jar

通过Canal将云上MySQL数据同步到华为云ES(CSS)中的更多相关文章

  1. canal整合springboot实现mysql数据实时同步到redis

    业务场景: 项目里需要频繁的查询mysql导致mysql的压力太大,此时考虑从内存型数据库redis里查询,但是管理平台里会较为频繁的修改增加mysql里的数据 问题来了: 如何才能保证mysql的数 ...

  2. 几篇关于MySQL数据同步到Elasticsearch的文章---第一篇:Debezium实现Mysql到Elasticsearch高效实时同步

    文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484358&idx=1&sn=3a78347 ...

  3. 几篇关于MySQL数据同步到Elasticsearch的文章---第四篇:使用go-mysql-elasticsearch同步mysql数据库信息到ElasticSearch

    文章转载自: https://www.cnblogs.com/dalaoyang/p/11018541.html 1.go-mysql-elasticsearch简介 go-mysql-elastic ...

  4. AppleWatch___学习笔记(三)iPhone和Apple Watch上的数据同步

    WatchKit App类似于之前iOS 8上新推出的App Extension(应用扩展),比如Today Extension(今天扩展)和Share Extension(分享扩展).只要你对iOS ...

  5. Mysql数据同步Elasticsearch方案总结

    Mysql数据同步Elasticsearch方案总结 https://my.oschina.net/u/4000872/blog/2252620

  6. 性能达到原生 MySQL 七倍,华为云 Taurus 技术解读【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  7. 硬核评测:企业上云的极速存储挑战,华为云全新极速IO云硬盘性能评测

    来源:至顶网 作者:董培欣 借助华为云全新一代极速IO云硬盘开启邀测的时机,至顶网评测实验室展开了一次华为云极速IO云硬盘与超高IO云硬盘的性能对比测试活动,并且尝试通过相关测试成绩,对云硬盘的应用能 ...

  8. github下载速度慢甚至多次失败,通过码云的导入功能导入github项目到码云上,然后再从码云下载

    github下载速度慢甚至多次失败,通过码云的导入功能导入github项目到码云上,然后再从码云下载 参考 https://blog.csdn.net/kcx64/article/details/83 ...

  9. 几篇关于MySQL数据同步到Elasticsearch的文章---第二篇:canal 实现Mysql到Elasticsearch实时增量同步

    文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484377&idx=1&sn=199bc88 ...

  10. Kettle ETL 来进行mysql 数据同步——试验环境搭建(表中无索引,无约束,无外键连接的情况)

    今天试验了如何在Kettle的图形界面(Spoon)下面来整合来mysql 数据库中位于不同数据库中的数据表中的数据. 试验用的数据表是customers: 第三方的数据集下载地址是:http://w ...

随机推荐

  1. iptables规则查询

    iptables规则查询 之前在iptables的概念中已经提到过,在实际操作iptables的过程中,是以"表"作为操作入口的,如果你经常操作关系型数据库,那么当你听到" ...

  2. 一键部署haproxy脚本

    HAPROXY_VERSION=2.6.6 HAPROXY_FILE=haproxy-${HAPROXY_VERSION}.tar.gz #HAPROXY_FILE=haproxy-2.2.12.ta ...

  3. cordon节点,drain驱逐节点,delete 节点

    目录 一.系统环境 二.前言 三.cordon节点 3.1 cordon节点概览 3.2 cordon节点 3.3 uncordon节点 四.drain节点 4.1 drain节点概览 4.2 dra ...

  4. 畅联云平台(www.24hlink.cn)支持的用传列表

    无锡蓝天 沈阳君丰 无锡富贝 海康威视 海湾 苏州思迪 法安通 北大青鸟 金盾 依爱 威隆 1)几乎集齐了市场上常见的用户信息传输装置的类型,如果没接入的,我们也能接入哦. 2)欢迎咨询我们关于用传的 ...

  5. python(27)反射机制

    1. 什么是反射? 它的核心本质其实就是基于字符串的事件驱动,通过字符串的形式去操作对象的属性或者方法 2. 反射的优点 一个概念被提出来,就是要明白它的优点有哪些,这样我们才能知道为什么要使用反射. ...

  6. vue 过滤器时间格式化

    1.导入了一个moment.js插件,里面封装了格式化时间的方法 ①:插件的链接:https://cdnjs.cloudflare.com/ajax/libs/moment.js/2.22.2/mom ...

  7. Stream流使用

    Stream流的使用 转换为流的操作 map转换为stream流 Map map = new HashMap(); Set<Map.Entry<String,Integer>> ...

  8. 软件开发-客观综合(GO)

    1 对从go源码和汇编源码生成可执行程序的过程,下面描述错误的是() ​A. 使用go tool compile可以将go源码编译成目标文件 B. 使用go tool asm可以将go源码编译成汇编代 ...

  9. 专业的C头文件设计和重构指南

    头文件设计要点: 1. 头文件注释 2. guard define 3. 尽量不要在头文件中暴露数据结构 4. 要自包含,保证头文件独立编译和功能正确 5. 函数声明前加XXX_API利于拓展 6.  ...

  10. 简单的WebAssembly应用搭建

    1      WebAssembly简介 WebAssembly是一种新兴的Web技术,网上的资料并不是很多,简单的可以理解为让C/C++程序运行在浏览器上,官网上用四个词来描述该技术:高效.安全.开 ...