安捷数据工厂 — 产品介绍
目录
- 产品定位与技术概览
- 系统架构
- 技术栈与组件说明
- 数据分层与存储策略
- 模块一:数据接入(增量采集与入库)
- 模块二:治理与标准(清洗标准化层)
- 模块三:加工与准备(宽表与集市加工层)
- 模块四:服务与开放(数据服务层)
- AI 引擎技术细节
- 数据管理层
- 安全架构与权限模型
- 调度引擎与运维监控
- 部署方案与环境要求
- 性能基线与容量规划
- 集成与兼容性矩阵
- 实施交付路径
1. 产品定位与技术概览
安捷数据工厂是一套私有化部署的企业级数据集成与治理平台。平台通过 Web 管理界面将底层的增量数据采集引擎、声明式 SQL 转换引擎、全链路任务编排引擎等核心引擎的复杂性完全封装,IT 人员通过页面配置和 SQL 即可驱动完整的数据管道,无需编写任何脚本或维护底层配置代码。
核心技术理念:
| 理念 |
技术实现 |
| 湖仓分离架构 |
ODS 原始层数据写入私有化对象存储(数据湖),DW/DM 加工层数据物理存储于列式计算引擎本地(数据仓库),两套系统通过 External Catalog 协同读取,原始层保留全历史追溯能力,加工层获得亚秒级查询性能 |
| 列式引擎存算一体 |
DW/DM 层计算与存储均在同一列式引擎内完成,数据物理存储于引擎本地列式文件,无中间传输损耗;列式存储 + 向量化并行执行是亿级数据亚秒响应的底层保障 |
| ELT 范式 |
先原样加载(EL),再在仓库内做转换(T),避免中间环节数据丢失 |
| 声明式管道 |
用户定义"目标状态"(SQL),系统自动生成执行计划和依赖编排 |
| AI 原生嵌入 |
AI 能力深入数据管道各环节,非外挂式对话框 |
2. 系统架构
2.1 整体架构图
┌─────────────────────────────────────────────────────────────────┐
│ Web 管理层 │
│ 元数据管理 · 配置中心 · SQL 编辑器 · 监控面板 │
└───────┬──────────────┬──────────────┬──────────────┬────────────┘
│ │ │ │
▼ ▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ 增量采集 │ │ SQL 转换 │ │ 列式计算 │ │ AI 大语言 │
│ 引擎 │ │ 引擎 │ │ 引擎 │ │ 模型引擎 │
└────┬─────┘ └────┬─────┘ └──┬───┬───┘ └──────────┘
│ │ │ │
▼ ▼ │ │
┌──────────┐ ┌──────────┐ │ │
│ 开放归档格式 │──▶│列式存储计算│◄────┘ │
│(分布式对象存储)│ │引擎本地表 │ │
└──────────┘ └──────────┘ │
▼
┌──────────────┐
│ API / JDBC │
│ (BI 直连出口) │
└──────────────┘
┌────────────────────────────────────────────────────────────────┐
│ 全链路任务编排引擎(调度编排层) │
│ 依赖管理 · 定时触发 · 失败重试 · 全链路可观测 │
└────────────────────────────────────────────────────────────────┘
2.2 数据流路径
源数据库 (MSSQL/PostgreSQL/MySQL)
│
│ 增量数据采集引擎(基于时间游标,只拉取变更数据)
▼
ODS 贴源层(私有化分布式对象存储 / 开放归档格式,Append-only)
│
│ 声明式 SQL 转换引擎 + 列式存储 MPP 计算引擎执行清洗
▼
DW 标准层(列式存储主键合并表)── 按主键自动合并去重,字段标准化,按业务域划分
│
│ 声明式 SQL 转换引擎宽表加工与聚合
▼
DM 应用层(列式存储本地物理表)── 主题宽表 + 聚合指标表,直接对接 BI/API
│
├──▶ API 服务(RESTful 接口)
├──▶ JDBC/ODBC 直连(BI 工具)
└──▶ 数据订阅(下游系统)
3. 底层技术架构说明
| 核心引擎 |
在数据管道中的定位 |
技术优势 |
| Web 管理平台 |
Web 管理后台、REST API、元数据配置中心 |
成熟的 MVC 框架,自动生成管理界面,ORM 工具链完善,开发效率高 |
| 关系型元数据库 |
高可靠平台元数据存储(连接配置、同步规则、权限策略等) |
JSONB 支持灵活配置存储,高并发读写稳定可靠 |
| 增量数据采集引擎 |
数据摄取层,负责从源库增量抽取数据写入开放数据归档层 |
原生支持开放数据归档格式写入、增量游标采集、表结构自动推断,轻量高效 |
| 私有化分布式对象存储 |
S3 协议兼容的内网对象存储,承载全量原始数据文件和归档元数据 |
单机千兆 I/O 性能,S3 API 兼容性好,数据完整存储在企业内网 |
| 列式存储 MPP 内存计算引擎 |
核心计算与存储引擎,同时承担清洗去重、宽表加工、聚合计算和数据服务 |
主键列式表支持 upsert 写入自动合并;向量化并行执行引擎,亿级数据亚秒响应 |
| 声明式 SQL 转换引擎 |
数据转换层,以声明式 SQL 驱动各层加工模型 |
自动解析 SQL 间依赖关系,版本化模型管理,一键回滚 |
| 全链路任务编排引擎 |
工作流调度层,管理从数据采集到数据服务的全链路任务依赖 |
可视化 DAG 依赖图,全链路可观测 |
3.1 核心引擎交互关系
Web 管理平台配置 ──自动生成──▶ 数据采集任务配置 ──▶ 全链路任务编排引擎调度执行
Web 管理平台配置 ──自动生成──▶ SQL 转换模型 ──▶ 全链路任务编排引擎调度执行
Web 管理平台元数据 ◄──实时读取── 列式存储 MPP 内存计算引擎 查询结果(数据预览、血缘解析)
Web 管理平台 AI 引擎 ──调用──▶ 大语言模型接口(SQL 生成、字段识别、规则推荐)
用户在 Web 界面完成的所有配置操作,后端自动翻译为 增量数据采集引擎 配置文件和 声明式 SQL 转换引擎 SQL 模型文件,再由 全链路任务编排引擎 按依赖顺序编排执行。用户全程无需接触底层代码。
4. 数据分层与存储策略
4.1 三层数据架构
| 层级 |
名称 |
生产车间 |
存储形态 |
写入策略 |
数据特征 |
| ODS |
贴源层(原材料仓) |
第一车间 |
私有化分布式对象存储(开放归档格式,Append-only) |
追加写入,禁止修改 |
无损镜像源系统数据,保持原貌,永久保留,支持 Time Travel 历史回溯 |
| DW |
标准层(半成品仓) |
第二车间 |
列式存储主键合并表 |
按主键自动合并写入 |
标准化、清洗去重后的高质量数据,按业务域划分(采购域、销售域等) |
| DM |
应用层(成品仓) |
第三车间 |
列式存储本地物理表 |
全量刷新 / 增量追加 |
面向分析消费的主题宽表(多表关联加工)和聚合指标表(预聚合),直接对接 BI 工具和 API |
4.2 分区与索引策略
| 层级 |
分区键 |
分区粒度 |
索引/加速机制 |
| ODS 贴源层 |
create_time |
按天 |
对象存储按目录分区,按时间范围过滤,不读取多余文件 |
| DW 标准层 |
create_time |
按天 |
主键排序索引,写入时自动合并去重,无需额外去重 SQL |
| DM 应用层 |
按业务需求配置 |
按天/按月 |
前缀排序索引 + Bitmap 位图索引 + 物化视图预聚合 |
4.3 存储策略要点
- ODS 贴源层:以追加只写(Append-only)方式写入私有化分布式对象存储,历史版本永久保留,支持按任意时间点回溯(Time Travel),用于数据审计和问题溯源
- DW 标准层:写入列式存储主键合并表,同一主键自动保留最新版本,实现无额外代码的去重合并;同时完成字段命名标准化和类型统一
- DM 应用层:使用列式存储本地物理表,列式存储天然适合聚合分析,配合向量化并行计算引擎保障亿级数据的查询性能;DM 层含主题宽表(业务逻辑加工)和聚合指标表(面向 BI 消费)两类物理表
5. 模块一:数据接入(增量采集与入库)
5.1 技术实现
| 能力 |
实现方式 |
| 增量采集 |
增量数据采集引擎以 update_time 字段为游标,每次只拉取增量变更数据 |
| 数据写入 |
采集引擎以追加方式写入开放数据归档层,不做任何修改,完整保留原始数据全貌 |
| 字段裁剪 |
Web 端勾选需同步的字段(列级裁剪),仅抽取必要列,减少传输和存储开销 |
| Schema 推断 |
采集引擎自动推断源表结构并在归档层建立对应的存储结构 |
| 连接安全 |
支持 SSH Tunnel 跳板机连接,数据库凭据加密存储 |
5.2 支持的数据源
| 数据源类型 |
增量方式 |
备注 |
| SQL Server |
update_time 游标 |
支持 SSH Tunnel |
| PostgreSQL |
update_time 游标 |
支持 SSL 连接 |
| MySQL |
update_time 游标 |
支持 SSL 连接 |
| Oracle |
update_time 游标 |
需 Oracle Instant Client |
| Excel / CSV |
全量覆盖 |
手动上传,适用于维度表补充数据 |
| OpenAPI |
按接口约定 |
适用于 SaaS 平台数据回传 |
5.3 行业预置模板
系统内置主流业务系统的同步模板,开箱即用:
| 系统 |
预置表数 |
覆盖模块 |
| 金蝶 K3/Cloud/星空 |
50+ |
销售订单、采购、库存、财务、往来账款 |
| 用友 U8/YonSuite/畅捷通 |
45+ |
订单、库存、成本、会员、门店发货 |
| 聚水潭 |
35+ |
多仓库存、电商订单、采购、批次管理 |
| 旺店通 |
35+ |
门店零售、进销存、商品管理、收银流水 |
| 钉钉 / 企微 / 飞书 |
55+ |
OA 审批、SCRM、运营表单 |
| 淘宝 / 京东 / 抖音 |
30+ |
订单、商品、售后、评价、推广 |
模板预定义了表名、字段映射、主键、增量字段、分区字段,使用模板配置一个数据源接入最快 10 分钟完成。
5.4 同步调度策略
| 策略 |
说明 |
| 定时调度 |
Cron 表达式配置,支持分钟/小时/天/周/月粒度 |
| 手动触发 |
Web 端一键执行,适用于首次全量同步或故障修复 |
| 失败重试 |
最多 3 次自动重试,采用指数退避(30s → 2min → 8min) |
| 依赖触发 |
上游同步完成后自动触发下游 staging 任务(全链路任务编排引擎依赖链) |
5.5 连接管理
| 能力 |
技术细节 |
| SSH 跳板机连接 |
支持通过 SSH 跳板机安全连接内网数据库,数据库凭据加密存储 |
| 连接状态实时监控 |
实时监控各数据源连接状态,连接中断时主动告警 |
| 一键测试诊断 |
Web 端一键测试数据源连通性,自动诊断并展示连接失败原因 |
6. 模块二:治理与标准(清洗标准化层)
本模块对应数据分层中 ODS→DW 的转换过程,核心目标是将贴源层(ODS)的"脏数据"清洗为标准化、可信赖的标准数据(DW),由第二车间产出。
6.1 标准映射工作台
技术流程:
ODS 贴源层(原材料仓 / 分布式对象存储开放归档格式)
│
│ AI 扫描字段 → 自动匹配行业标准命名
│ 例:FBillNo → order_no,FDate → order_date
▼
声明式 SQL 转换引擎自动生成清洗逻辑(字段重命名 + 类型转换 + 空值处理)
│
│ 写入 列式存储主键合并表
▼
DW 标准层(半成品仓 / 按主键去重 + 标准化 + 按业务域划分)
| 能力 |
技术细节 |
| AI 字段映射 |
大语言模型结合字段名、数据采样内容、表注释进行语义理解匹配,自动输出标准英文命名和中文别名 |
| 命名标准化 |
强制下划线命名(snake_case),数据类型统一(日期 →DATETIME,金额 → DECIMAL(18,4)) |
| 转换规则 |
支持去空格、大小写转换、日期格式统一、空值替换、枚举映射等列级转换 |
| 数据预览 |
配置转换规则后可实时预览转换后的目标数据,所见即所得,确认正确后再发布 |
| 口径差异识别 |
AI 自动对比多系统同语义字段(如"销售额"在 ERP、POS、电商的不同含义),标注差异点 |
| 模型物化 |
目标表为 列式存储主键合并表,按主键自动合并去重 |
6.2 质量管理工作台
| 能力 |
技术细节 |
| 质量探查 |
自动统计每个字段的空值率、重复率、唯一值数、最大/最小值、值域分布直方图 |
| AI 规则推荐 |
基于字段数据特征自动推荐规则类型:非空(NOT NULL)、唯一(UNIQUE)、范围(BETWEEN)、枚举(IN)、正则(REGEX)、波动率(日环比偏差阈值) |
| 规则试运行 |
配置规则后先执行 dry-run,返回违规记录样本和拦截比例 |
| 强度策略 |
阻断模式:规则不通过则阻止 staging 模型发布;告警模式:仅发送告警通知,不阻断管道 |
| 行业基线对比 |
将质量指标(如空值率)与行业基准值对比,给出偏差百分比 |
6.3 安全定级工作台
| 能力 |
技术细节 |
| 敏感字段识别 |
AI 基于字段名语义 + 数据采样(正则匹配手机号/身份证/银行卡号模式)双重判定,输出置信度评分 |
| 四级分级 |
L1 公开、L2 内部、L3 敏感(脱敏展示)、L4 高敏(不可见或强掩码) |
| 脱敏策略 |
中间遮盖(138****5678)、前缀保留(310***)、SHA-256 哈希、置空 |
| 样本数据预览 |
配置脱敏策略后自动展示脱敏效果样本,确认无误后应用到全量数据 |
| 数据库层生效 |
脱敏规则通过 列式存储 MPP 计算引擎 视图 + 行级安全策略(RLS)在数据库层强制执行,BI 直连也无法绕过 |
6.4 发布与版本管理
| 能力 |
技术细节 |
| 三重发布前检查 |
① 标准检查(命名规范通过率)② 质量检查(监控规则通过率)③ 安全检查(敏感字段脱敏覆盖率) |
| 版本控制 |
每次发布自动生成版本号,SQL 转换模型版本化管理,支持一键回滚 |
| 血缘影响分析 |
发布前自动解析 SQL 依赖树,评估变更对下游 intermediate/marts/API/BI 报表的影响范围 |
| 手动重跑 |
支持按时间范围补数(backfill),全链路任务编排引擎日志实时可查 |
7. 模块三:加工与准备(宽表与集市加工层)
本模块对应数据分层中 DW→DM 的转换过程,将标准层(DW)的数据经过多表关联和业务逻辑加工,产出面向业务消费的主题宽表和聚合指标表(DM),由第三车间产出。
7.1 SQL 智能编辑器
| 能力 |
技术细节 |
| AI SQL 生成 |
用户输入自然语言需求(如"关联订单表和会员表,按门店维度汇总客单价"),AI 基于 列式计算引擎中的实际表结构(列名、类型、注释、采样数据)生成可直接执行的 SQL |
| 上下文感知 |
AI 引擎实时读取 列式计算引擎数据字典(information_schema),感知当前数据库的全部表结构和列元数据 |
| 智能补全 |
编辑器内实时灰字补全(类似 IDE Copilot 体验),支持表名、列名、SQL 关键字、函数名补全 |
| 错误诊断与修复 |
SQL 执行报错后,AI 自动分析错误信息 + SQL 文本 + 表结构,生成修复代码,通过 Diff 视图展示修改内容 |
| 参数化查询 |
支持 ${param_name} 语法定义动态参数,右侧面板自动渲染参数输入控件,方便调试 |
| 实时预览 |
执行 SQL 后即时展示结果集(默认 LIMIT 100),支持导出为 CSV |
7.2 宽表与模型构建
| 配置项 |
可选值 |
说明 |
| 创建方式 |
单表 / 多表 SQL |
单表:直接从 DW 标准层读取,适合字段补充和简单转换;多表:通过 SQL JOIN 构建跨业务域宽表 |
| 物化方式 |
物理表 / 视图 |
物理表适用于高频查询场景;视图适用于实时性要求高的轻量查询 |
| 表模型类型 |
Aggregate / Duplicate / Primary Key |
列式计算引擎三种存储模型按场景选择:聚合表(预聚合指标)、明细表(保留完整明细行)、主键表(支持实时更新合并) |
| 分区策略 |
按天 / 按月 / 自定义 |
基于时间字段自动分区 |
| 刷新策略 |
全量刷新 / 增量追加 / 增量 Upsert |
SQL 转换模型自动生成对应的物化逻辑 |
| 调度频率 |
Cron 表达式 |
通过全链路任务编排引擎定时调度执行 |
7.3 全链路血缘视图
| 能力 |
技术细节 |
| 自动血缘解析 |
实时解析 SQL 转换模型的 SQL 语法树(AST),自动提取字段级的上下游依赖关系 |
| 可视化展示 |
交互式 DAG 图展示完整数据链路:源数据库 → ODS 贴源层 → DW 标准层 → DM 应用层 → API/BI |
| 断链检测 |
上游表结构变更(如删列、改类型)时,自动扫描影响的下游模型并告警 |
| 反向追溯 |
点击 DM 层任意字段,30 秒内追溯到源系统原始表和原始字段 |
| 影响分析 |
修改任意模型前,自动列出所有直接/间接依赖的下游模型和 API 接口 |
8. 模块四:服务与开放(数据服务层)
8.1 API 服务
| 能力 |
技术细节 |
| API 封装 |
将 DM 层数据表封装为 RESTful API,支持 GET 参数化查询(分页、过滤、排序) |
| 自动文档生成 |
AI 根据表结构和字段注释自动生成 OpenAPI 3.0 规范文档 |
| API 目录管理 |
提供 API 目录浏览和授权管理能力,按需向不同调用方开放接口 |
| 访问控制 |
基于 Token 认证,API 粒度的权限管理 |
| 异常调用监控 |
AI 监控异常 API 调用行为,如短时间高频请求自动告警 |
8.2 BI 工具直连
| 能力 |
技术细节 |
| 连接协议 |
列式计算引擎兼容 MySQL 通信协议,BI 工具通过标准 JDBC/ODBC MySQL 驱动即可连接 |
| 虚拟账号 |
系统为每个用户/应用生成独立的数据库受限账号,杜绝共享管理员账号 |
| 连接串生成 |
Web 端一键生成 JDBC URL,格式:jdbc:mysql://<host>:9030/<db> |
| 权限同步 |
虚拟账号的表级、行级、列级权限与 Web 端配置实时同步 |
| 支持的 BI 工具 |
FastBI、安捷智用 AI 数据平台、FineBI、帆软 Report、Tableau、Power BI、Superset、Grafana 等 |
8.3 审计日志
所有数据消费行为(API 调用、BI 查询、数据导出)均记录完整审计日志:
| 审计维度 |
记录内容 |
| 操作人 |
用户 ID、用户名、来源 IP |
| 操作时间 |
精确到毫秒的时间戳 |
| 操作类型 |
查询 / 导出 / API 调用 / 配置变更 |
| 操作内容 |
执行的 SQL 文本 / API 请求参数 |
| 数据范围 |
涉及的表名、返回行数 |
| 异常检测 |
短时间大量查询、非工作时间访问、异常数据量导出 → 自动告警 |
9. AI 引擎技术细节
9.1 AI 能力全景
AI 贯穿数据管道四个阶段,共 11 项原生 AI 能力:
| 阶段 |
AI 能力 |
输入 |
输出 |
技术原理 |
| 接入 |
表结构扫描 |
源库 metadata |
字段类型、主键、索引识别结果 |
元数据结构抽取 + 大语言模型语义理解标注 |
| 接入 |
增量字段识别 |
表结构 + 数据采样 |
推荐增量字段和同步策略 |
时间戳/自增列模式匹配 |
| 接入 |
行业模板匹配 |
表名 + 字段集 |
匹配的预置模板 |
模糊匹配 + 语义相似度 |
| 治理 |
标准映射 |
ODS 字段名 + 采样数据 |
标准英文命名 + 中文别名 |
大语言模型 + 行业术语知识库检索增强 |
| 治理 |
质量规则推荐 |
字段数据分布统计 |
推荐规则类型和阈值 |
统计特征分析 + 大语言模型规则生成 |
| 治理 |
敏感字段识别 |
字段名 + 数据采样 |
敏感级别 + 置信度 |
正则模式匹配 + 大语言模型语义判定双重验证 |
| 加工 |
自然语言→SQL |
自然语言 + 表结构上下文 |
可执行的 列式存储 MPP 计算引擎 SQL |
大语言模型 + 数据库结构知识库检索增强 + SQL 方言适配 |
| 加工 |
智能补全 |
当前光标位置上下文 |
补全建议 |
大语言模型流式推理 |
| 加工 |
错误诊断修复 |
报错信息 + SQL + 表结构 |
修复后的 SQL + Diff |
大语言模型错误定位与代码修复 |
| 服务 |
API 文档生成 |
表结构 + 字段注释 |
OpenAPI 3.0 文档 |
大语言模型模板化生成 |
| 服务 |
异常调用监控 |
调用日志时序数据 |
异常告警 |
统计基线检测 + 大语言模型异常研判 |
9.2 AI 上下文感知机制
与通用 AI 对话工具的核心区别在于数据库上下文注入:
用户输入:"按门店汇总本月销售额和退货率"
│
▼
┌─────────────────────────┐
│ 上下文组装(知识库检索增强) │
│ ① 当前库所有表结构 │
│ ② 字段中文别名和注释
│ ③ 表间关联关系 │
│ ④ 历史 SQL 模式 │
│ ⑤ 列式计算引擎 SQL 方言语法 │
└───────────┬─────────────┘
▼
大语言模型生成 SQL
│
▼
列式计算引擎直接执行
│
┌──────┴──────┐
│ 成功 │ 报错
▼ ▼
返回结果 AI 自动诊断修复 → 重新执行
10. 数据管理层
数据管理层提供对各层数据表的统一浏览与查询入口,方便 IT 人员和数据分析师日常核查数据。
| 能力 |
技术细节 |
| 数据展示 |
支持查看 ODS 贴源层、DW 标准层、DM 应用层的所有数据表,按层级组织展示 |
| 数据查看 |
通过编写 SQL 语句查询指定条件的数据,支持过滤、排序、导出 |
11. 安全架构与权限模型
11.1 安全设计原则
核心原则:应用层与数据库层双重生效。即使用户通过 BI 工具或 SQL 客户端直连数据库,权限控制依然有效。
11.2 多层权限体系
┌────────────────────────────────────────────────┐
│ 应用层权限(Web 管理平台) │
│ 用户管理 · 角色管理 · 功能菜单权限 │
├────────────────────────────────────────────────┤
│ 列级安全 + 动态脱敏 │
│ 结合 L1-L4 密级,敏感列自动脱敏或隐藏 │
│ 脱敏在数据库层执行,直连查询也只能看到掩码 │
├────────────────────────────────────────────────┤
│ 虚拟账号层 │
│ 应用服务账号:仅授权特定表,JDBC 连接串加密交付 │
├────────────────────────────────────────────────┤
│ 全链路审计 │
│ 操作审计 · 查询审计 · 导出审计 · 异常行为告警 │
└────────────────────────────────────────────────┘
11.3 权限实现机制
| 权限类型 |
实现方式 |
生效范围 |
| 表级权限 |
列式计算引擎 GRANT/REVOKE 权限语句 |
Web + 直连 |
| 列级脱敏 |
列式计算引擎视图层对敏感列应用内置脱敏函数 |
Web + 直连 |
| 功能菜单权限 |
Web 管理平台 RBAC 角色权限控制 |
仅 Web |
| 操作审计 |
Web 管理平台中间件 + 列式计算引擎内置审计日志双重记录 |
Web + 直连 |
12. 调度引擎与运维监控
12.1 全链路任务编排引擎 调度编排
全链路任务编排引擎管理完整的数据管道依赖链:
增量采集任务(源数据库 → ODS 贴源层)
└──▶ 清洗标准化转换(ODS 贴源层 → DW 标准层)
└──▶ 宽表及聚合加工(DW 标准层 → DM 应用层)
| 调度能力 |
说明 |
| 依赖管理 |
基于 DAG 的任务依赖,上游完成后自动触发下游 |
| 定时调度 |
支持 Cron 表达式、固定间隔、事件触发 |
| 失败重试 |
可配置重试次数和退避策略 |
| 分区感知 |
支持按日期分区增量执行(仅处理新分区数据) |
| 回填(Backfill) |
支持指定时间范围的历史数据重新处理 |
12.2 运维监控面板
| 监控维度 |
指标 |
| 任务状态 |
各层任务的成功/失败/运行中/等待状态 |
| 执行耗时 |
每个任务的单次执行耗时和历史趋势 |
| 数据质量 |
各表行数趋势、空值率、质量规则通过率 |
| 错误日志 |
任务失败的详细错误信息和堆栈追踪 |
| 告警通知 |
支持邮件 / 企微 / 钉钉 / 飞书 webhook 告警 |
13. 部署方案与环境要求
13.1 部署方式
Docker 容器化部署,全部组件以容器形式运行在单机 Linux 服务器上,通过 Docker Compose 一键编排:
services:
web-platform # Web 管理后台
metadata-db # 平台关系型元数据库
column-engine-fe # 列式计算引擎协调节点(FE)
column-engine-be # 列式计算引擎计算存储节点(BE)
object-storage # 私有化分布式对象存储
catalog-service # 开放数据归档格式 REST Catalog
task-scheduler-ui # 任务编排引擎 Web 监控面板
task-scheduler-daemon # 任务编排引擎调度守护进程
13.2 硬件要求
| 项目 |
最低配置 |
推荐配置 |
说明 |
| CPU |
8 核 |
16 核 |
列式向量化并行计算引擎可充分利用多核性能,核数越多并发查询能力越强 |
| 内存 |
32 GB |
64 GB |
列式计算引擎后端节点建议独占 24 GB 以上内存,剩余分配给其他组件 |
| 存储 |
500 GB SSD |
1 TB+ SSD |
归档层数据 + 列式存储本地表 + 系统日志 |
| 网络 |
千兆内网 |
千兆内网 |
与源数据库之间需保障网络稳定 |
| 操作系统 |
CentOS 7+ / Ubuntu 20.04+ |
— |
支持各类国产 Linux 发行版 |
13.3 网络要求
| 方向 |
端口 |
说明 |
| 源数据库 → 本机 |
1433 (MSSQL) / 5432 (PG) / 3306 (MySQL) |
数据采集引擎入站 |
| 本机 → 用户浏览器 |
8000(Web 管理平台)/ 3000(任务编排监控面板) |
Web 管理界面 |
| 本机 → BI 工具 |
9030 (列式计算引擎 MySQL 兼容端口) |
BI 工具 JDBC 直连 |
| 本机 → AI API |
443 (HTTPS) |
大语言模型 API 调用(支持配置为企业内网私有化部署的模型,不必访问外网) |
13.4 数据安全与合规
- 全本地部署:所有数据存储在客户内网服务器,不出外网
- AI 模型可选:支持对接客户自建的私有化大模型,亦可使用云端 API(仅上传元数据和 SQL,不上传业务数据)
- 加密存储:数据库连接凭据 AES-256 加密存储
- 传输加密:Web 端 HTTPS,数据库连接支持 SSL/TLS
14. 性能基线与容量规划
14.1 数据规模支撑
| 数据级别 |
行数规模 |
典型场景 |
| 超大流水表 |
千万行~亿级以上 |
出入库流水、财务凭证明细、生产报工 |
| 中等主表 |
百万~千万行 |
销售订单、采购订单、客户记录 |
| 小主表 / 维度表 |
十万行以下 |
物料主数据、供应商、客户档案 |
14.2 容量规划参考
| 企业数据量级 |
推荐同步表数 |
推荐存储容量 |
推荐内存 |
| 25 张表 / 日增 5 万行 |
全量接入 |
500 GB |
32 GB |
| 40 张表 / 日增 10 万行 |
全量接入 |
1 TB |
64 GB |
| 60 张表 / 日增 30 万行 |
分批接入 |
2 TB |
128 GB |