数据集成
02 — 数据集成(数据库 EL)
文档版本:2026-06-11 · v3.0
适用读者:数据开发、平台运维、测试、实施
前端入口:左侧菜单 → 数据工厂 → 数据集成
前端路由:/workshop1(列表)、/workshop1/workbench/:id(工作台)、/workshop1/sync-config/:id(同步配置)
API 技术参考:api-reference/02-db-ingestion/README.md
源码依据:前端web/frontend/src/pages/workshop1/;后端web/backend/apps/datasource/、web/backend/apps/extract/
模块概述
数据库 EL(Extract & Load)模块用于连接企业内部关系型数据库,通过 dlt 将源表数据抽取到 MinIO/Iceberg 的 ODS Raw 层(对应 Iceberg bronze 命名空间,路径 db{id}_{db}_{schema})。
该模块是"DB EL 通道"的配置与管理入口,负责数据源的注册、源表选择、同步语义配置和 Dev 环境测试。配置完成后,数据通过 Dagster 调度的 dlt 管道实际写入 Iceberg。
核心流程
- 创建数据源 — 注册数据库连接信息,测试连通性
- 扫描表结构 — 从源库反射所有表结构并缓存到本地
- 选择源表并配置同步语义 — 勾选需要同步的表,配置全量/增量、游标字段、分区策略
- 触发 Dev 测试 — 在 dev 环境验证 EL 管道能否正常运行
- 查看任务运维和处理失败 — 通过任务运维页面追踪执行状态
flowchart LR
A[创建数据源] --> B[扫描表结构]
B --> C[选择源表]
C --> D[配置同步语义]
D --> E[保存并生成 EL YAML]
E --> F[Dev 测试]
F --> G{通过?}
G -->|是| H[发布到 Prod]
G -->|否| I[排查并修改配置]
I --> D
页面速查
| 页面 | 路由 | 功能 | 进入方式 |
|---|---|---|---|
| 数据源列表 | /workshop1 |
查看、新建、编辑、删除数据源 | 菜单 → 数据工厂 → 数据集成 |
| 数据源工作台 | /workshop1/workbench/:id |
扫描表结构、勾选源表、列配置、同步语义配置、Dev 测试 | 列表 → 点击「管理」或卡片 |
| 同步配置 | /workshop1/sync-config/:id |
表格形式管理所有源表的同步配置 | 列表 → 点击「同步配置」 |
子文档导航
| 子文档 | 解决的问题 | 适用角色 |
|---|---|---|
| 数据源管理 | 创建、编辑、删除数据源,连接测试 | 数据开发、运维 |
| Schema 扫描 | 扫描和刷新源库表结构 | 数据开发 |
| 源表同步配置 | 选择表、配置列、增量、分区和写入模式 | 数据开发 |
| Dev 测试与日志 | 触发同步测试、查看任务运维、定位失败 | 数据开发、运维 |
| 故障排查 | 常见错误和处理方式 | 实施、运维 |
截图索引
| 截图 | 文件名 |
|---|---|
| 数据源列表页 | images/02-datasource-list.png |
| 新建数据源弹窗 | images/02-create-modal.png |
| 数据源工作台 | images/02-workbench.png |
权限标识
本模块使用 datasource 权限前缀,具体权限点通过 Authorized 组件控制:
| 权限 action | 控制的操作 |
|---|---|
create |
新建数据源、编辑数据源 |
read |
进入工作台、扫描表结构 |
auth |
同步配置页面、触发 Dev 测试、保存同步策略 |
log |
查看运行日志 |
delete |
删除数据源 |