背景:

A部门想将mysql中多张表join成一个sql查询语句,然后将结果同步到es中供搜索使用

环境信息:

源端mysql在阿里云上,有公网ip

目标端es在华为云上,三节点

操作步骤与目的:

配置MySQL供canal访问

1.由于阿里云的rds一般都配置了白名单,因此需要将后续canal所在的ecs的公网ip填入rds的白名单之中

注意外网对应阿里云的经典网络.在专有网络中设置并没有效果

2.确认已开启binlog并是row格式,一般不需要再做修改

安装canal-server端,用于获取mysql的binlog日志

1.在华为云上开通一台ecs,注意要与阿里云的公网ip相通,且与华为云es相通

2.ecs开启后,进行canal-server的安装.其原理是模拟成为mysql的slave备机,从而拿到binlog日志,可供后续使用

2.1.先安装java环境

yum install java-1.8.0-openjdk

2.2.安装canal-server,建议使用官方镜像,这里使用的是1,1.5版本,注意并不是最新版本

docker pull canal/canal-server:v1.1.5
docker run --name canal115 -p 11111:11111 --link mysql5736:mysql5736 -id canal/canal-server:v1.1.5

如果docker服务异常,则建议初始化docker服务

/bin/systemctl start docker.service
systemctl status docker.service
cp /lib/systemd/system/docker.service /etc/systemd/system/docker.service
systemctl daemon-reload
systemctl start docker

如果docker拉取速度感人,可以修改其配置源

1 mkdir -p /etc/docker
2 vi /etc/docker/daemon.json
3 {
4 "registry-mirrors": ["https://yxzrazem.mirror.aliyuncs.com"]
5 }
6 sudo systemctl daemon-reload
7 sudo systemctl restart docker

2.3.进入docker并配置canal-server

 1 docker exec -it canal115 /bin/bash
2 cd canal-server/conf/example/
3 vi instance.properties // 修改涉及到的配置 xx调整为对应数据
4
5 # 修改成mysql对应的账号密码,需要保证网络连通,账号密码正确
6 canal.instance.master.address=10.208.xx.xx:3306
7 canal.instance.dbUsername=xx
8 canal.instance.dbPassword=xx
9 # 需要同步的表名称,一般是schema名.*
10 canal.instance.filter.regex=xx.*
11 # 不需要同步的表名称,不需改动
12 canal.instance.filter.black.regex=mysql\\.slave_.*

2.4 开启canal-server服务

1 docker restart  canal115
2
3 docker exec -it canal115 /bin/bash
4 tail -100f /home/admin/canal-server/logs/example/example.log // 查看日志

出现the next step is binlog dump说明配置正常.

安装canal-adapter,用于数据同步到es

1.下载canal-adapter

wget https://github.com/alibaba/canal/releases/download/canal-1.1.5/canal.adapter-1.1.5.tar.gz

2.解压安装

mkdir adapter-1.1.5
mv canal.adapter-1.1.5.tar.gz adapter-1.1.5
cd adapter-1.1.5
tar zxvf canal.adapter-1.1.5.tar.gz

3.配置application.yml 用于保存源端与目标端基本信息

adapter-1.1.5/conf/application.yml  // 修改涉及到的配置 xx调整为对应数据

    # canal tcp consumer 这里配置canal-server所在的docker的ip
canal.tcp.server.host: 172.30.x.x:11111 #配置源端信息
srcDataSources:
defaultDS:
url: jdbc:mysql://10.208.xx.xx:3306/xx?useUnicode=true
username: xx
password: xx #配置目标端信息
canalAdapters:
- instance: example #无需改动
groups:
- groupId: g1 #无需改动
outerAdapters:
- name: logger
- name: es7 #按目标端es版本设置,有es6和es7
hosts: http://10.208.128.3:9200 #源端的内网访问地址,任一即可
properties:
mode: rest #无需改动
cluster.name: xx #集群名称
security.auth: xx:xx #集群用户名密码

4.设置yml文件,用于保存需要同步的sql语句,注意sql语句有限制

详见:https://github.com/alibaba/canal/wiki/Sync-ES

觉得太长的话,概括如下:

1.只能用左连接left join

2.总表数不能超过3个,也就是可以left join 2张表

3.on条件的字段,必须至少有一个出现在select语句中

如果是全量.则可以在源端生成视图进行同步

但是增量不支持视图,因为关联不上.只能用left join语句

vi /soft/adapter-1.1.5/conf/es7/xx.yml 
dataSourceKey: defaultDS
destination: example
groupId: g1
esMapping:
_index: index_xx #对应es的索引名称
_id: _id
sql: "select _id,col2,col3 from xx" #sql语句
commitBatch: 3000

5.在es生成好索引

#删除索引
delete /index_xx
#建索引语句,对col3进行分词处理
PUT /index_xx
{
"settings": {
"analysis": {
"filter": {
"my_synonym": {
"type": "dynamic_synonym"
}
},
"analyzer": {
"ik_synonym": {
"filter": [
"my_synonym"
],
"type": "custom",
"tokenizer": "ik_smart"
}
}
}
},
"mappings" : {
"properties" : {
"col2" : {
"type" : "text"
},
"col3" : {
"type": "text",
"analyzer": "ik_smart",
"search_analyzer": "ik_synonym"
}
}
}
}
}

6.启动服务开始同步

启动adapter
/soft/adapter-1.1.5/bin/startup.sh
查看日志
tail -100f /soft/adapter-1.1.5/logs/adapter/adapter.log
停止进程
/soft/adapter-1.1.5/bin/stop.sh
查看adapter配置情况
more /soft/adapter-1.1.5/conf/application.yml
查看同步表(视图)配置情况
more /soft/adapter-1.1.5/conf/es7/xx.yml
全量同步
curl http://10.208.128.229:8081/etl/es7/xx.yml -X POST

会遇到的一些报错

1.日志提示

java.lang.ClassCastException: com.alibaba.druid.pool.DruidDataSource cannot be cast to com.alibaba.druid.pool.DruidDataSource

替换jar包

下载v1.1.5-alpha-2 版本下的client-adapter.es7x-1.1.5-SNAPSHOT-jar-with-dependencies.jar 替换原client-adapter.es7x-1.1.5-jar-with-dependencies.jar

通过Canal将云上MySQL数据同步到华为云ES(CSS)中的更多相关文章

  1. canal整合springboot实现mysql数据实时同步到redis

    业务场景: 项目里需要频繁的查询mysql导致mysql的压力太大,此时考虑从内存型数据库redis里查询,但是管理平台里会较为频繁的修改增加mysql里的数据 问题来了: 如何才能保证mysql的数 ...

  2. 几篇关于MySQL数据同步到Elasticsearch的文章---第一篇:Debezium实现Mysql到Elasticsearch高效实时同步

    文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484358&idx=1&sn=3a78347 ...

  3. 几篇关于MySQL数据同步到Elasticsearch的文章---第四篇:使用go-mysql-elasticsearch同步mysql数据库信息到ElasticSearch

    文章转载自: https://www.cnblogs.com/dalaoyang/p/11018541.html 1.go-mysql-elasticsearch简介 go-mysql-elastic ...

  4. AppleWatch___学习笔记(三)iPhone和Apple Watch上的数据同步

    WatchKit App类似于之前iOS 8上新推出的App Extension(应用扩展),比如Today Extension(今天扩展)和Share Extension(分享扩展).只要你对iOS ...

  5. Mysql数据同步Elasticsearch方案总结

    Mysql数据同步Elasticsearch方案总结 https://my.oschina.net/u/4000872/blog/2252620

  6. 性能达到原生 MySQL 七倍,华为云 Taurus 技术解读【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  7. 硬核评测:企业上云的极速存储挑战,华为云全新极速IO云硬盘性能评测

    来源:至顶网 作者:董培欣 借助华为云全新一代极速IO云硬盘开启邀测的时机,至顶网评测实验室展开了一次华为云极速IO云硬盘与超高IO云硬盘的性能对比测试活动,并且尝试通过相关测试成绩,对云硬盘的应用能 ...

  8. github下载速度慢甚至多次失败,通过码云的导入功能导入github项目到码云上,然后再从码云下载

    github下载速度慢甚至多次失败,通过码云的导入功能导入github项目到码云上,然后再从码云下载 参考 https://blog.csdn.net/kcx64/article/details/83 ...

  9. 几篇关于MySQL数据同步到Elasticsearch的文章---第二篇:canal 实现Mysql到Elasticsearch实时增量同步

    文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484377&idx=1&sn=199bc88 ...

  10. Kettle ETL 来进行mysql 数据同步——试验环境搭建(表中无索引,无约束,无外键连接的情况)

    今天试验了如何在Kettle的图形界面(Spoon)下面来整合来mysql 数据库中位于不同数据库中的数据表中的数据. 试验用的数据表是customers: 第三方的数据集下载地址是:http://w ...

随机推荐

  1. Unity——滚动的小球

    Unity--滚动的小球 工程理解 本游戏为通过键盘上的W.A.S.D键控制小球的运动轨迹来对固定位置上的小方块进行碰撞,以此来进行加分计数的. 其中主要对象为小球和自转的小方块:在小球上,我们添加刚 ...

  2. Java多线程-ThreadPool线程池(三)

    开完一趟车完整的过程是启动.行驶和停车,但老司机都知道,真正费油的不是行驶,而是长时间的怠速.频繁地踩刹车等动作.因为在速度切换的过程中,发送机要多做一些工作,当然就要多费一些油. 而一个Java线程 ...

  3. maven-入门到入土

    详情见代码重工:连接http://heavy_code_industry.gitee.io/code_heavy_industry/pro002-maven/

  4. 安装nvm 和 yarn

    安装nvm curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh | bash 执行上面的命令 如果出现问题 ...

  5. 野火 STM32MP157 开发板内核和设备树的编译烧写

    一.环境 编译环境:Ubuntu 版本:18.4.6 交叉编译工具:arm-linux-gnueabihf-gcc 版本:7.4.1 开发板:STM32MP157 pro 烧写方式:STM32Cube ...

  6. CSS选择器大全48式

    00.CSS选择器 CSS的选择器分类如下图,其中最最常用的就是基础选择器中的三种:元素选择器.类选择器.id选择器.伪类选择器就是元素的不同行为.状态,或逻辑.然后不同的选择器组合,基于不同的组合关 ...

  7. Java-数组工具类Arrays

    java.util.Arrays是一个与数组相关的工具类,里面提供了大量静态方法,用来实现数组常见的操作. toSting方法 public static String toString(数组):将参 ...

  8. 大趋智能打印机java api

    对接飞鹅和易联云后 ,网上几乎没资料对大趋智能打印机java api分享,故此分享一波. 官方文档地址 SnParam.java package com.shanheyongmu.openapi.pa ...

  9. 2020最新Java面试题及答案(带完整目录).pdf

    一.JVM 二.Java集合 三.Java多线程并发 四.Java基础 五.Spring原理 六.微服务 七.Netty与RPC 八.网络 九.日志 十.RabbitMQ 十一.MongoDB 十二. ...

  10. 【消息队列面试】15-17:高性能和高吞吐、pull和push、各种MQ的区别

    十五.kafka高性能.高吞吐的原因 1.应用 日志收集(高频率.数据量大) 2.如何保证 (1)磁盘的顺序读写-pagecache关联 rabbitmq基于内存读写,而kafka基于磁盘读写,但却拥 ...