安捷智数——数据集成与治理平台产品文档 首页

数据集成

发布于 2026年7月3日

02 — 数据集成(数据库 EL)

文档版本:2026-06-11 · v3.0
适用读者:数据开发、平台运维、测试、实施
前端入口:左侧菜单 → 数据工厂 → 数据集成
前端路由/workshop1(列表)、/workshop1/workbench/:id(工作台)、/workshop1/sync-config/:id(同步配置)
API 技术参考api-reference/02-db-ingestion/README.md
源码依据:前端 web/frontend/src/pages/workshop1/;后端 web/backend/apps/datasource/web/backend/apps/extract/

模块概述

数据库 EL(Extract & Load)模块用于连接企业内部关系型数据库,通过 dlt 将源表数据抽取到 MinIO/Iceberg 的 ODS Raw 层(对应 Iceberg bronze 命名空间,路径 db{id}_{db}_{schema})。

该模块是"DB EL 通道"的配置与管理入口,负责数据源的注册、源表选择、同步语义配置和 Dev 环境测试。配置完成后,数据通过 Dagster 调度的 dlt 管道实际写入 Iceberg。

核心流程

  1. 创建数据源 — 注册数据库连接信息,测试连通性
  2. 扫描表结构 — 从源库反射所有表结构并缓存到本地
  3. 选择源表并配置同步语义 — 勾选需要同步的表,配置全量/增量、游标字段、分区策略
  4. 触发 Dev 测试 — 在 dev 环境验证 EL 管道能否正常运行
  5. 查看任务运维和处理失败 — 通过任务运维页面追踪执行状态
flowchart LR
    A[创建数据源] --> B[扫描表结构]
    B --> C[选择源表]
    C --> D[配置同步语义]
    D --> E[保存并生成 EL YAML]
    E --> F[Dev 测试]
    F --> G{通过?}
    G -->|是| H[发布到 Prod]
    G -->|否| I[排查并修改配置]
    I --> D

页面速查

页面 路由 功能 进入方式
数据源列表 /workshop1 查看、新建、编辑、删除数据源 菜单 → 数据工厂 → 数据集成
数据源工作台 /workshop1/workbench/:id 扫描表结构、勾选源表、列配置、同步语义配置、Dev 测试 列表 → 点击「管理」或卡片
同步配置 /workshop1/sync-config/:id 表格形式管理所有源表的同步配置 列表 → 点击「同步配置」

子文档导航

子文档 解决的问题 适用角色
数据源管理 创建、编辑、删除数据源,连接测试 数据开发、运维
Schema 扫描 扫描和刷新源库表结构 数据开发
源表同步配置 选择表、配置列、增量、分区和写入模式 数据开发
Dev 测试与日志 触发同步测试、查看任务运维、定位失败 数据开发、运维
故障排查 常见错误和处理方式 实施、运维

截图索引

截图 文件名
数据源列表页 images/02-datasource-list.png
新建数据源弹窗 images/02-create-modal.png
数据源工作台 images/02-workbench.png

权限标识

本模块使用 datasource 权限前缀,具体权限点通过 Authorized 组件控制:

权限 action 控制的操作
create 新建数据源、编辑数据源
read 进入工作台、扫描表结构
auth 同步配置页面、触发 Dev 测试、保存同步策略
log 查看运行日志
delete 删除数据源