Tom 商店-基于 Canal 实时同步数据库数据至 ES 介绍

推荐阅读：https://github.com/alibaba/canal

1. Canal

canal 主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费。

早期阿里巴巴因为杭州和美国双机房部署，存在跨机房同步的业务需求，实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始，业务逐步尝试数据库日志解析获取增量变更进行同步，由此衍生出了大量的数据库增量订阅和消费业务。

MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events，可以通过 show binlog events 进行查看)
MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)
MySQL slave 重放 relay log 中事件，将数据变更反映它自己的数据

在 Tom 项目实际应用中，在订单售后模块，使用 canal 主要是为了实现将 MySQL 数据库中数据的更新实时同步至 ElasticSearch，使用 canal 的 kafka 模式实现。

canal 会将 MySQL binlog 更新信息投递至 kafka 中，而订单同步服务则需要自行实现轮询监听 kafka 将信息进行解析然后同步更新至 ElasticSearch。其中订单同步服务实现 kafka 信息消费可以参考示例 MQ数据消费。

当同步服务解析消费到 kafka 的消息后，可以根据消息的 topic、操作的类型（insert，update, delete）和操作的表（如订单表、售后表等）来对数据进行筛选、拆分和转化，最后更新到 ES 中。

spring 集成了 elasticsearch，可以很方便的通过操作 ElasticsearchRepository 对象的基础 CRUD API 来操作。