数据集成模块 - 架构设计文档 | Solo DSP文档编号DSP-ARCH-DI-001版本号v1.0.0发布日期2026-05-27架构师DSP架构团队密级内部公开状态✅ 已发布 | 最后更新: 2026-05-27文档摘要本文档详细阐述了DSP数据集成模块的架构设计涵盖系统分层架构、核心组件设计、业务流程编排、双引擎DataX/Kettle集成方案、调度系统设计、监控告警机制及API接口规范。本模块采用企业级架构设计理念支持向导式零代码配置与专业级Kettle深度集成双轨能力满足从简单数据同步到复杂ETL转换的全场景数据集成需求。核心亮点分层架构设计 | 双引擎支持 | 零代码配置 | 可视化编排1. 架构概览指标数值任务创建模式2 种执行引擎2 个数据源支持50可视化配置100%DSP数据集成模块采用分层架构设计提供向导式零代码配置与企业级Kettle深度集成双轨能力支持从简单数据同步到复杂ETL转换的全场景数据集成需求。核心设计理念 -双引擎架构DataX负责高性能数据同步Kettle负责复杂数据转换各取所长 -双模式创建平台创建支持元数据自动触发、外部导入两种任务创建模式覆盖全场景 -零代码配置向导式界面业务人员无需编程即可完成复杂ETL配置 -企业级集成完整的Kettle资源库管理、可视化编辑、远程执行能力2. 系统架构设计2.1 总体架构设计架构图说明下图展示了数据集成模块的完整技术架构包含数据源层、引擎层、管理层和目标层的全景视图以及各层之间的数据流转关系。架构层次说明层次名称核心功能技术组件数据源层多源异构数据接入支持20种数据源MySQL / Oracle / PostgreSQL / Hive / ClickHouse / MongoDB / Redis / Kafka / 文件系统 / Elasticsearch / API数据集成引擎层数据同步与转换DataX引擎 Kettle集成Reader/Writer插件、通道控制、资源库管理、任务导入、变量管理、可视化编辑器任务管理与调度任务生命周期管理配置、映射、策略、调度、监控、告警Quartz DAG引擎元数据采集数据血缘追踪自动采集、历史记录、血缘关系与元数据管理模块深度集成数据质量检查数据质量保障前置校验、清洗规则、质量报告完整性/一致性校验目标数据层数据存储与消费数据仓库、数据湖、实时数仓、OLAP、消息队列、对象存储、搜索引擎、API服务层架构设计说明 -数据源层支持20种异构数据源包括关系型数据库、NoSQL、大数据存储、消息队列和文件系统 -数据集成引擎层采用双引擎架构DataX负责向导式ETL任务Kettle负责复杂转换和外部任务集成 -任务管理与调度提供完整的任务生命周期管理包括配置、映射、策略、调度、监控和告警 -元数据采集与元数据管理模块深度集成自动采集数据血缘和变更历史紫色连线表示元数据同步 -数据质量集成数据质量检查能力支持前置校验和清洗规则 -目标数据层支持多种数据目标实现数据仓库、数据湖、实时数仓的统一集成2.2 核心组件清单组件名称所属层级功能描述技术实现任务管理服务服务层负责任务的创建、查询、更新、删除等生命周期管理Spring Boot MyBatis调度编排服务服务层处理任务的定时调度、依赖触发、事件触发等调度逻辑Quartz DAG引擎资源库服务服务层管理Kettle资源库连接、任务导入导出、版本控制Kettle Java API监控告警服务服务层任务执行监控、日志收集、异常告警、数据质量检查Prometheus AlertManager元数据服务服务层数据源元数据采集、数据血缘追踪、影响分析Apache Atlas APIDataX引擎引擎层高性能数据同步引擎支持批量数据读写Alibaba DataXKettle引擎引擎层复杂数据转换引擎支持ETL流程编排Pentaho KettleSQL引擎引擎层支持SQL数据转换、存储过程调用Calcite 原生JDBC3. 业务流程设计数据集成模块提供两种主要的任务创建模式平台创建任务、外部任务导入。其中平台创建模式支持通过元数据采集自动触发任务创建。3.1 业务流程总览业务流程说明新建任务用户进入数据集成模块选择创建新任务任务类型选择支持两种模式平台创建向导式和外部任务导入Kettle资源库平台创建流程选择源数据源/表 → 选择目标数据源/表 → 选择同步模式 → 配置映射 → 设置并发 → 保存任务外部任务流程创建资源库 → 设置变量 → 配置调度任务同步模式判断全量同步直接映射字段或增量同步设置增量字段初始值任务调度支持定时调度、手动触发、依赖任务触发三种执行方式执行结果记录执行日志成功或失败都会更新元数据采集历史3.2 任务创建入口 - 统一门户模式说明面向用户平台创建向导模式向导式配置 · 零代码ETL业务人员外部导入专业模式Kettle资源库 · 专业ETL技术人员子流程平台创建支持元数据采集自动触发Metadata Driven Pipeline3.3 平台创建流程 - 五步向导式配置步骤名称关键操作1 选择数据源源数据源/表选择、连接测试验证、数据预览确认2 选择目标目标数据源/表选择、自动创建表结构、前置清理策略3⚡ 同步模式全量/增量选择、增量字段配置、初始值设定4 字段映射自动字段匹配、自定义转换规则、数据类型映射5⚙️ 高级配置并发通道数(1-32)、批量大小(100-10000)、容错率(0-100%)、速率限制全量同步模式清空目标表或创建新表可配置保留/清空策略批量读取源数据默认1000条/批可调应用字段映射和转换规则支持函数转换批量写入目标表支持事务控制增量同步模式读取上次同步位置checkpoint持久化机制按增量字段筛选变更数据支持多字段支持时间戳/自增ID/CDC多种增量识别模式支持增量数据合并策略追加/更新/合并高级配置选项并发通道数1-32通道并行根据数据源调整批量大小100-10000条/批影响性能与内存容错率0-100%错误容忍脏数据处理策略速率限制支持QPS/TPS限速保护数据源任务保存与调度配置✓ 保存任务到仓库支持版本管理✓ 配置调度策略Cron表达式/固定间隔/依赖触发✓ 设置告警规则邮件/企业微信/短信/Webhook✓ 配置重试策略失败重试次数/间隔✓ 设置超时控制任务执行超时时间✓ 数据质量检查完整性/一致性校验✓ 并发控制通道数/批量大小配置✓ 容错处理错误记录/跳过策略✓ 发布上线一键发布/灰度发布3.4 Kettle外部导入 - 企业级ETL集成步骤名称关键操作1 资源库连接数据库/文件资源库、安全认证配置2 浏览与导入树形目录浏览、选择ktr/kjb文件3 变量配置环境变量设置、参数动态替换4✏️ 可视化编辑在线编辑任务、实时预览数据5▶️ 执行Carte远程、集群部署支持的资源库类型数据库资源库MySQL/Oracle/SQLServer/PostgreSQL文件资源库本地文件系统/网络共享/S3对象存储Pentaho Server企业级资源库支持版本控制与权限核心功能特性任务导入自动解析ktr/kjb提取数据源与转换逻辑变量管理支持命名参数、环境变量、运行时参数版本控制记录修改历史支持版本对比与回滚执行模式本地执行直接在DSP服务器上运行Kettle任务Carte远程通过Carte服务分布式执行支持负载均衡集群模式Master-Slave架构支持任务分片并行3.5 任务调度与执行监控 - 全生命周期管理阶段组件说明调度触发方式定时调度 / 手动触发 / 依赖触发Cron表达式 / 固定间隔 / 前置任务完成任务调度器Quartz调度引擎DAG依赖解析、分布式调度协调任务执行引擎DataX引擎 / Kettle引擎并发控制、资源隔离、熔断保护执行结果处理成功 / 失败日志记录、告警通知、重试机制监控告警中心邮件 / 企业微信 / 短信 / Webhook多级告警策略日志记录与数据血缘执行日志 / 数据血缘 / 影响分析全链路记录、追踪、溯源4. Kettle 深度集成设计企业级Kettle集成能力矩阵能力说明️ 资源库管理支持文件库/数据库库连接浏览目录结构版本控制 任务导入从资源库导入ktr/kjb文件自动解析转换提取配置 可视化编辑在线编辑Kettle任务实时预览数据流步骤调试▶️ 远程执行通过Carte服务远程执行支持集群部署负载均衡4.1 资源库管理系统资源库管理是Kettle集成的核心能力支持连接外部Kettle资源库实现任务的集中管理和版本控制。功能说明多资源库支持支持数据库资源库、文件资源库、企业级资源库Pentaho Server等多种类型安全连接支持用户名/密码认证、SSL加密连接、连接池管理保障资源库访问安全目录浏览树形结构展示资源库中的任务和转换支持文件夹创建、重命名、移动任务导入一键导入资源库中的Kettle任务kjb和转换ktr自动解析依赖关系双向同步支持从资源库导入到DSP也支持将DSP编辑的任务导出到资源库版本管理记录任务修改历史支持版本对比、回滚到指定版本资源库连接配置配置项说明示例值资源库名称资源库在DSP中的显示名称生产环境Kettle库资源库类型数据库资源库 / 文件资源库 / Pentaho Server数据库资源库数据库连接资源库所在数据库的连接信息MySQL:3306/kettle_repo认证方式资源库访问认证配置用户名/密码描述资源库用途说明生产环境ETL任务集中管理4.2 可视化任务编辑器DSP提供基于Web的Kettle任务可视化编辑器无需安装Kettle客户端即可在线编辑任务。画布编辑拖拽式组件添加输入、输出、转换、脚本等组件连线配置数据流支持多选、复制、粘贴、撤销/重做画布缩放、网格对齐、自动布局属性配置组件属性面板动态渲染数据库连接选择器字段映射可视化配置变量和参数管理智能辅助组件搜索和快速添加自动完成和语法高亮配置验证和错误提示模板库和最佳实践推荐预览调试单步执行和断点调试数据预览和抽样检查执行日志实时查看性能分析和优化建议4.3 远程执行与集群部署支持通过Carte服务进行远程任务执行实现分布式ETL处理和负载均衡。Carte服务架构Master节点任务分发与调度Slave节点任务执行引擎负载均衡智能任务分发故障转移自动切换备用节点安全与监控HTTPS加密通信访问令牌认证执行日志集中收集资源使用监控告警5. DataX 引擎设计DataX是阿里巴巴开源的异构数据源离线同步工具DSP集成DataX作为高性能数据同步引擎。5.1 核心架构架构组件Reader 读取MySQL Reader / Oracle Reader / HDFS Reader / …Framework 核心通道Channel- 数据缓冲 / 调度器Scheduler- 并发控制Writer 写入MySQL Writer / Oracle Writer / HDFS Writer / …5.2 性能优化策略优化维度策略并发控制支持多通道并行读写、通道数可配置1-32、自动负载均衡、背压机制防止OOM批量处理批量读取提升IO效率、批量写入减少网络往返、批量大小可配置、支持事务批量提交6. 调度系统设计6.1 调度触发方式触发方式说明适用场景配置示例Cron表达式基于Unix Cron的定时调度周期性数据同步0 0 2 * * ?每天凌晨2点固定间隔按指定时间间隔触发准实时数据同步每5分钟执行一次依赖触发前置任务完成后触发工作流编排任务A完成后执行任务B事件触发监听特定事件触发事件驱动场景文件到达触发手动触发用户手动执行临时数据同步点击执行按钮6.2 DAG依赖编排支持复杂的工作流编排通过DAG有向无环图定义任务之间的依赖关系。编排特性说明串行执行任务按依赖顺序依次执行前一个任务成功后才执行下一个并行执行无依赖关系的任务并行执行提升整体执行效率分支合并支持条件分支和结果合并实现复杂业务逻辑7. 监控告警设计7.1 监控指标体系指标类型具体指标性能指标读取/写入速率条/秒、吞吐量MB/秒、延迟时间、资源使用率质量指标数据完整性、数据一致性、错误记录数、脏数据比例时效指标任务执行时长、调度延迟、超时告警、SLA达成率7.2 告警规则配置告警类型触发条件告警级别通知方式任务失败任务执行返回非零状态 紧急邮件短信企业微信执行超时执行时间超过阈值 警告邮件企业微信数据异常错误率超过阈值 警告邮件企业微信性能下降吞吐量低于基线 提示邮件8. API接口设计8.1 任务管理API方法路径说明POST/api/integration/tasks创建数据集成任务GET/api/integration/tasks/{taskId}获取任务详情PUT/api/integration/tasks/{taskId}更新任务配置DELETE/api/integration/tasks/{taskId}删除任务POST/api/integration/tasks/{taskId}/execute手动执行任务8.2 资源库管理API方法路径说明POST/api/integration/repositories创建Kettle资源库连接GET/api/integration/repositories/{repoId}/browse浏览资源库目录POST/api/integration/repositories/{repoId}/import从资源库导入任务8.3 监控查询API方法路径说明GET/api/integration/tasks/{taskId}/logs获取任务执行日志GET/api/integration/tasks/{taskId}/metrics获取任务执行指标GET/api/integration/dashboard获取监控大盘数据 © 2025 Solo DSP - 数据集成模块架构设计文档