MySQL 数据同步到 MongoDB

new_xiang · · 1227 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

今年春节假期比较闲，整理了下我的开源项目 go-mysql-mongodb。

这个工具用来将 MySQL 数据同步到 MongoDB。开发挺久了，但是一直都没有怎么维护。前几天突然收到了一个用户的邮件，咨询使用中遇到的问题，我意识到这个工具还是有人用的，我趁着假期维护一下，也希望未来可以帮助更多人。

起源

这个项目还要追溯到 2017 年，当时我的工作主要是调研各种大数据平台，需要将 MySQL 的数据同步到 Elasticsearch、MongoDB 等数据库中。

tungsten-replicator

我谷歌搜了一些解决方案，一开始使用的是 tungsten-replicator，用来将 MySQL 数据同步到 MongoDB。这个工具功能强大，用于多种异构数据库之间的数据同步。例如，下面是 tungsten-replicator 将 MySQL/Oracle 数据同步到异构数据库的拓扑架构图：

Topologies: Heterogeneous Operation

工作流程：

在 Master 和 Slave 的服务器上分别部署一个 Replicator 服务。
Master Replicator 从 Master DB 中拉取 binlog/CDC 数据，并转化成一种通用的 THL 格式的数据。
Master Replicator 将 THL 数据传输到 Slave Replicator。
Slave Replicator 根据 Slave DB 的类型，将 THL 数据转化成 SQL 同步到 Slave DB。

这个工具比较成熟，可以看下他们的使用文档，总共 300 多页，各种场景都有说明。但是在使用的过程中主要有这些问题：

架构太重了。可以从上面的例子看出来，需要在 Master 和 Slave 服务器上各部署一个，而且需要保存 THL 数据，会占用大量的磁盘。
部署和配置比较复杂。它支持的功能非常丰富，但是它强大的功能也就需要复杂的配置来支持。但是实际上我们只需要使用其中一小部分的功能。
开发语言（不算这个工具的问题）。这个工具是用 Java 开发的，而我当时的组主要使用 Python、Golang 开发，如果有新的需求、或者有 bug 需要修复，维护上会比较困难。

go-mysql-elasticsearch

后来有需求将 MySQL 数据同步到 Elasticsearch，我找到了另外一个工具 go-mysql-elasticsearch，试用了一下，发现这个工具比较轻量，配置、部署都比较简单。这个工具的工作流程如下：

使用 mysqldump 导出 MySQL 的全量数据。
将全量数据导入 Elasticsearch 中。
从全量数据的 binlog postion 位置开始拉取 MySQL 的 binlog 数据。
将 binlog 转化为 Elasticsearch 格式的数据，并以 RESTful API 的形式同步到 Elasticsearch。

可以看出来，这个工具比较轻量，对于一个 MySQL 实例的同步只需要部署一个服务；另外它是使用 Golang 语言开发的，我比较熟悉，在使用过程中遇到新的需求，我也可以自己实现了。

go-mysql-mongodb

成功将 go-mysql-elasticsearch 应用到准生产环境之后，我就萌生了替换掉 tungsten-replicator 的想法。

MongoDB 和 Elasticsearch 比较类似，都属于 NoSQL，存储的数据都是文档型。于是我复用了 go-mysql-elasticsearch 中的大部分逻辑，只需要将代码中 Elasticsearch 客户端的代码修改为 MongoDB 的基本上就可以运行了。这样就形成了 go-mysql-mongodb 这个项目。

go-mysql-mongodb 功能

由于 go-mysql-mongodb 主要参考了 go-mysql-elasticsearch，功能基本上一样。

配置数据源

必须要设置同步 MySQL 的哪些表到 MongoDB 中，示例配置：

[[source]]
schema = "test"
tables = ["t1", t2]

[[source]]
schema = "test_1"
tables = ["t3", t4]

同时也支持一些简单的表达式，例如：

[[source]]
schema = "test"
tables = ["test_river_[0-9]{4}"]

这样就选取了 test 库中类似 test_river_0001、test_river_0002这样的表。

转化规则

支持将 MySQL 中的表同步到 MongoDB 中指定的 collection 中，也支持对表中的字段名称做转化，例如：

[[rule]]
schema = "test"
table = "t1"
database = "t"
collection = "t"

    [rule.field]
    mysql = "title"
    mongodb = "my_title"

这个配置会将 MySQL 中的表 test.t1 同步到 MongoDB 中的 collection t.t 中，另外也会把该表中的 title 字段重命名为 my_title。

过滤字段

支持只同步表中指定的字段，例如：

[[rule]]
schema = "test"
table = "tfilter"
database = "test"
collection = "tfilter"

# Only sync following columns
filter = ["id", "name"]

该配置只会同步表 test.tfilter 中的 id 和 name 两列的数据。

还有更多功能参考项目的 README。

go-mysql-mongodb 现状

目前这个项目还在开发中，基本功能应该没啥问题，但是需要增加更多的测试来保证。

另外也需要关注 go-mysql-elasticsearch 的变更，及时把一些修复带到 go-mysql-mongodb。

希望这个小工具可以帮助到你。如果在使用过程中遇到问题可以提 issue，也可以直接发邮件联系我 wx347249478 at gmail.com。

有疑问加站长微信联系（非本文作者）

本文来自：简书

感谢作者：new_xiang

查看原文：MySQL 数据同步到 MongoDB

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

1227 次点击

加入收藏微博

收入我的专栏

上一篇：聊聊dubbo-go-proxy的hostFilter

下一篇：Go 协程调度的个人理解

mysql

mongodb

代码

字段

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

MySQL 数据同步到 MongoDB

起源

tungsten-replicator

go-mysql-elasticsearch

go-mysql-mongodb

go-mysql-mongodb 功能

配置数据源

转化规则

过滤字段

go-mysql-mongodb 现状

用户登录

今日阅读排行

一周阅读排行

关注我

起源

tungsten-replicator

go-mysql-elasticsearch

go-mysql-mongodb

go-mysql-mongodb 功能

配置数据源

转化规则

过滤字段

go-mysql-mongodb 现状

MySQL 数据同步到 MongoDB

起源

tungsten-replicator

go-mysql-elasticsearch

go-mysql-mongodb

go-mysql-mongodb 功能

配置数据源

转化规则

过滤字段

go-mysql-mongodb 现状

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

起源

tungsten-replicator

go-mysql-elasticsearch

go-mysql-mongodb

go-mysql-mongodb 功能

配置数据源

转化规则

过滤字段

go-mysql-mongodb 现状

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏