使用EMR-Kafka Connect进行数据迁移

声明：本文转载自https://my.oschina.net/yunqi/blog/3081028，转载目的在于传递更多信息，仅供学习交流之用。如有侵权行为，请联系我，我会及时删除。

1.背景

流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。

Kafka Connect是一种可扩展的、可靠的，用于在Kafka和其他系统之间快速地进行流式数据传输的工具。例如可以使用Kafka Connect获取数据库的binglog数据，将数据库的数据迁入Kafka集群，以同步数据库的数据，或者对接下游的流式处理系统。同时，Kafka Connect提供的REST API接口可以方便的进行Kafka Connect的创建和管理。
Kafka Connect分为standalone和distributed两种运行模式。standalone模式下，所有的worker都在一个进程中运行；相比之下，distributed模式更具扩展性和容错性，是最常用的方式，也是生产环境推荐使用的模式。

本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移，使用distributed模式。

2.环境准备

创建两个EMR集群，集群类型为Kafka。EMR Kafka Connect安装在task节点上，进行数据迁移的目的Kafka集群需要创建task节点。集群创建好后，task节点上EMR Kafka Connect服务会默认启动，端口号为8083。

注意要保证两个集群的网路互通，详细的创建流程见创建集群。

3.数据迁移

3.1准备工作

EMR Kafka Connect的配置文件路径为/etc/ecm/kafka-conf/connect-distributed.properties。

在源Kafka集群创建需要同步的topic，例如

另外，Kafka Connect会将offsets, configs和任务状态保存在topic中，topic名对应配置文件中的offset.storage.topic、config.storage.topic 和status.storage.topic三个配置项。默认的，Kafka Connect会自动的使用默认的partition和replication factor创建这三个topic。

3.2创建Kafka Connect

在目的Kafka集群的task节点(例如emr-worker-3节点)，使用curl命令通过json数据创建一个Kafka Connect。

json数据中，name字段代表创建的connect的名称，此处为connect-test；config字段需要根据实际情况进行配置，其中的变量说明如下表

3.3查看Kafka Connect

查看所有的Kafka Connect

查看创建的connect-test的状态

查看task的信息

3.4数据同步

在源Kafka集群创建需要同步的数据。

3.5查看同步结果

在目的Kafka集群消费同步的数据。

可以看到，在源Kafka集群发送的100000条数据已经迁移到了目的Kafka集群。

4.小结

本文介绍并演示了使用EMR kafka Connect在Kafka集群间进行数据迁移的方法，关于Kafka Connect更详细的使用请参考Kafka官网资料和REST API使用。

本文作者：云魄

原文链接

本文为云栖社区原创内容，未经允许不得转载。

本文发表于2019年07月30日 11:00
(c)注：本文转载自https://my.oschina.net/yunqi/blog/3081028，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权行为，请联系我们，我们会及时删除.

阅读 3317 讨论 0 喜欢 0

抢先体验
扫码体验趣味小程序文字表情生成器

抢先体验

扫码体验
趣味小程序
文字表情生成器

闪念胶囊
万稳万当，不如一默。任何一句话，你不说出来便是那句话的主人，你说了出来，便是那句话的奴隶。 18:22 2025年04月20日查看详情
你要过得好哇，这样我才能恨你啊，你要是过得不好，我都不知道该恨你还是拥抱你啊。 17:21 2021年04月19日查看详情
直抵黄龙府，与诸君痛饮尔。 18:17 2021年03月28日查看详情
那时陪伴我的人啊，你们如今在何方。 16:28 2021年03月19日查看详情
不出意外的话，我们再也不会见了，祝你前程似锦。 18:05 2021年03月17日查看详情

闪念胶囊

万稳万当，不如一默。任何一句话，你不说出来便是那句话的主人，你说了出来，便是那句话的奴隶。

18:22 2025年04月20日查看详情

你要过得好哇，这样我才能恨你啊，你要是过得不好，我都不知道该恨你还是拥抱你啊。

17:21 2021年04月19日查看详情

直抵黄龙府，与诸君痛饮尔。

18:17 2021年03月28日查看详情

那时陪伴我的人啊，你们如今在何方。

16:28 2021年03月19日查看详情

不出意外的话，我们再也不会见了，祝你前程似锦。

18:05 2021年03月17日查看详情

快捷链接
网站地图
提交友链

快捷链接

提交友链

Contact
Y2lvbkBjaGluYWNpb24uY24=

Contact

使用EMR-Kafka Connect进行数据迁移

1.背景

2.环境准备

3.数据迁移

4.小结

Y2lvbkBjaGluYWNpb24uY24=