安捷智数——数据集成与治理平台

发布于 2026年4月20日

安捷数据工厂 — 产品介绍

产品定位与技术概览
系统架构
技术栈与组件说明
数据分层与存储策略
模块一：数据接入（增量采集与入库）
模块二：治理与标准（清洗标准化层）
模块三：加工与准备（宽表与集市加工层）
模块四：服务与开放（数据服务层）
AI 引擎技术细节
数据管理层
安全架构与权限模型
调度引擎与运维监控
部署方案与环境要求
性能基线与容量规划
集成与兼容性矩阵
实施交付路径

1. 产品定位与技术概览

安捷数据工厂是一套私有化部署的企业级数据集成与治理平台。平台通过 Web 管理界面将底层的增量数据采集引擎、声明式 SQL 转换引擎、全链路任务编排引擎等核心引擎的复杂性完全封装，IT 人员通过页面配置和 SQL 即可驱动完整的数据管道，无需编写任何脚本或维护底层配置代码。

核心技术理念：

理念	技术实现
湖仓分离架构	ODS 原始层数据写入私有化对象存储（数据湖），DW/DM 加工层数据物理存储于列式计算引擎本地（数据仓库），两套系统通过 External Catalog 协同读取，原始层保留全历史追溯能力，加工层获得亚秒级查询性能
列式引擎存算一体	DW/DM 层计算与存储均在同一列式引擎内完成，数据物理存储于引擎本地列式文件，无中间传输损耗；列式存储 + 向量化并行执行是亿级数据亚秒响应的底层保障
ELT 范式	先原样加载（EL），再在仓库内做转换（T），避免中间环节数据丢失
声明式管道	用户定义"目标状态"（SQL），系统自动生成执行计划和依赖编排
AI 原生嵌入	AI 能力深入数据管道各环节，非外挂式对话框

2. 系统架构

2.1 整体架构图

 ┌─────────────────────────────────────────────────────────────────┐
 │                      Web 管理层                        │
 │         元数据管理 · 配置中心 · SQL 编辑器 · 监控面板            │
 └───────┬──────────────┬──────────────┬──────────────┬────────────┘
         │              │              │              │
         ▼              ▼              ▼              ▼
 ┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────┐
 │  增量采集  │   │ SQL 转换  │   │  列式计算  │   │ AI 大语言  │
 │  引擎      │   │  引擎     │   │  引擎      │   │  模型引擎  │
 └────┬─────┘   └────┬─────┘   └──┬───┬───┘   └──────────┘
      │              │            │   │
      ▼              ▼            │   │
 ┌──────────┐   ┌──────────┐     │   │
 │ 开放归档格式 │──▶│列式存储计算│◄────┘   │
 │(分布式对象存储)│   │引擎本地表  │         │
 └──────────┘   └──────────┘         │
                                      ▼
                               ┌──────────────┐
                               │ API / JDBC   │
                               │ (BI 直连出口) │
                               └──────────────┘

 ┌────────────────────────────────────────────────────────────────┐
 │                     全链路任务编排引擎（调度编排层）                        │
 │       依赖管理 · 定时触发 · 失败重试 · 全链路可观测              │
 └────────────────────────────────────────────────────────────────┘

2.2 数据流路径

源数据库 (MSSQL/PostgreSQL/MySQL)
  │
  │  增量数据采集引擎（基于时间游标，只拉取变更数据）
  ▼
ODS 贴源层（私有化分布式对象存储 / 开放归档格式，Append-only）
  │
  │  声明式 SQL 转换引擎 + 列式存储 MPP 计算引擎执行清洗
  ▼
DW 标准层（列式存储主键合并表）── 按主键自动合并去重，字段标准化，按业务域划分
  │
  │  声明式 SQL 转换引擎宽表加工与聚合
  ▼
DM 应用层（列式存储本地物理表）── 主题宽表 + 聚合指标表，直接对接 BI/API
  │
  ├──▶ API 服务（RESTful 接口）
  ├──▶ JDBC/ODBC 直连（BI 工具）
  └──▶ 数据订阅（下游系统）

3. 底层技术架构说明

核心引擎	在数据管道中的定位	技术优势
Web 管理平台	Web 管理后台、REST API、元数据配置中心	成熟的 MVC 框架，自动生成管理界面，ORM 工具链完善，开发效率高
关系型元数据库	高可靠平台元数据存储（连接配置、同步规则、权限策略等）	JSONB 支持灵活配置存储，高并发读写稳定可靠
增量数据采集引擎	数据摄取层，负责从源库增量抽取数据写入开放数据归档层	原生支持开放数据归档格式写入、增量游标采集、表结构自动推断，轻量高效
私有化分布式对象存储	S3 协议兼容的内网对象存储，承载全量原始数据文件和归档元数据	单机千兆 I/O 性能，S3 API 兼容性好，数据完整存储在企业内网
列式存储 MPP 内存计算引擎	核心计算与存储引擎，同时承担清洗去重、宽表加工、聚合计算和数据服务	主键列式表支持 upsert 写入自动合并；向量化并行执行引擎，亿级数据亚秒响应
声明式 SQL 转换引擎	数据转换层，以声明式 SQL 驱动各层加工模型	自动解析 SQL 间依赖关系，版本化模型管理，一键回滚
全链路任务编排引擎	工作流调度层，管理从数据采集到数据服务的全链路任务依赖	可视化 DAG 依赖图，全链路可观测

3.1 核心引擎交互关系

Web 管理平台配置 ──自动生成──▶ 数据采集任务配置 ──▶ 全链路任务编排引擎调度执行
Web 管理平台配置 ──自动生成──▶ SQL 转换模型     ──▶ 全链路任务编排引擎调度执行
Web 管理平台元数据 ◄──实时读取── 列式存储 MPP 内存计算引擎 查询结果（数据预览、血缘解析）
Web 管理平台 AI 引擎 ──调用──▶ 大语言模型接口（SQL 生成、字段识别、规则推荐）

用户在 Web 界面完成的所有配置操作，后端自动翻译为增量数据采集引擎配置文件和声明式 SQL 转换引擎 SQL 模型文件，再由全链路任务编排引擎按依赖顺序编排执行。用户全程无需接触底层代码。

4. 数据分层与存储策略

4.1 三层数据架构

层级	名称	生产车间	存储形态	写入策略	数据特征
ODS	贴源层（原材料仓）	第一车间	私有化分布式对象存储（开放归档格式，Append-only）	追加写入，禁止修改	无损镜像源系统数据，保持原貌，永久保留，支持 Time Travel 历史回溯
DW	标准层（半成品仓）	第二车间	列式存储主键合并表	按主键自动合并写入	标准化、清洗去重后的高质量数据，按业务域划分（采购域、销售域等）
DM	应用层（成品仓）	第三车间	列式存储本地物理表	全量刷新 / 增量追加	面向分析消费的主题宽表（多表关联加工）和聚合指标表（预聚合），直接对接 BI 工具和 API

4.2 分区与索引策略

层级	分区键	分区粒度	索引/加速机制
ODS 贴源层	`create_time`	按天	对象存储按目录分区，按时间范围过滤，不读取多余文件
DW 标准层	`create_time`	按天	主键排序索引，写入时自动合并去重，无需额外去重 SQL
DM 应用层	按业务需求配置	按天/按月	前缀排序索引 + Bitmap 位图索引 + 物化视图预聚合

4.3 存储策略要点

ODS 贴源层：以追加只写（Append-only）方式写入私有化分布式对象存储，历史版本永久保留，支持按任意时间点回溯（Time Travel），用于数据审计和问题溯源
DW 标准层：写入列式存储主键合并表，同一主键自动保留最新版本，实现无额外代码的去重合并；同时完成字段命名标准化和类型统一
DM 应用层：使用列式存储本地物理表，列式存储天然适合聚合分析，配合向量化并行计算引擎保障亿级数据的查询性能；DM 层含主题宽表（业务逻辑加工）和聚合指标表（面向 BI 消费）两类物理表

5. 模块一：数据接入（增量采集与入库）

5.1 技术实现

能力	实现方式
增量采集	增量数据采集引擎以 `update_time` 字段为游标，每次只拉取增量变更数据
数据写入	采集引擎以追加方式写入开放数据归档层，不做任何修改，完整保留原始数据全貌
字段裁剪	Web 端勾选需同步的字段（列级裁剪），仅抽取必要列，减少传输和存储开销
Schema 推断	采集引擎自动推断源表结构并在归档层建立对应的存储结构
连接安全	支持 SSH Tunnel 跳板机连接，数据库凭据加密存储

5.2 支持的数据源

数据源类型	增量方式	备注
SQL Server	update_time 游标	支持 SSH Tunnel
PostgreSQL	update_time 游标	支持 SSL 连接
MySQL	update_time 游标	支持 SSL 连接
Oracle	update_time 游标	需 Oracle Instant Client
Excel / CSV	全量覆盖	手动上传，适用于维度表补充数据
OpenAPI	按接口约定	适用于 SaaS 平台数据回传

5.3 行业预置模板

系统内置主流业务系统的同步模板，开箱即用：

系统	预置表数	覆盖模块
金蝶 K3/Cloud/星空	50+	销售订单、采购、库存、财务、往来账款
用友 U8/YonSuite/畅捷通	45+	订单、库存、成本、会员、门店发货
聚水潭	35+	多仓库存、电商订单、采购、批次管理
旺店通	35+	门店零售、进销存、商品管理、收银流水
钉钉 / 企微 / 飞书	55+	OA 审批、SCRM、运营表单
淘宝 / 京东 / 抖音	30+	订单、商品、售后、评价、推广

模板预定义了表名、字段映射、主键、增量字段、分区字段，使用模板配置一个数据源接入最快 10 分钟完成。

5.4 同步调度策略

策略	说明
定时调度	Cron 表达式配置，支持分钟/小时/天/周/月粒度
手动触发	Web 端一键执行，适用于首次全量同步或故障修复
失败重试	最多 3 次自动重试，采用指数退避（30s → 2min → 8min）
依赖触发	上游同步完成后自动触发下游 staging 任务（全链路任务编排引擎依赖链）

5.5 连接管理

能力	技术细节
SSH 跳板机连接	支持通过 SSH 跳板机安全连接内网数据库，数据库凭据加密存储
连接状态实时监控	实时监控各数据源连接状态，连接中断时主动告警
一键测试诊断	Web 端一键测试数据源连通性，自动诊断并展示连接失败原因

6. 模块二：治理与标准（清洗标准化层）

本模块对应数据分层中 ODS→DW 的转换过程，核心目标是将贴源层（ODS）的"脏数据"清洗为标准化、可信赖的标准数据（DW），由第二车间产出。

6.1 标准映射工作台

技术流程：

ODS 贴源层（原材料仓 / 分布式对象存储开放归档格式）
  │
  │  AI 扫描字段 → 自动匹配行业标准命名
  │  例：FBillNo → order_no，FDate → order_date
  ▼
声明式 SQL 转换引擎自动生成清洗逻辑（字段重命名 + 类型转换 + 空值处理）
  │
  │  写入 列式存储主键合并表
  ▼
DW 标准层（半成品仓 / 按主键去重 + 标准化 + 按业务域划分）

能力	技术细节
AI 字段映射	大语言模型结合字段名、数据采样内容、表注释进行语义理解匹配，自动输出标准英文命名和中文别名
命名标准化	强制下划线命名（snake_case），数据类型统一（日期 →`DATETIME`，金额 → `DECIMAL(18,4)`）
转换规则	支持去空格、大小写转换、日期格式统一、空值替换、枚举映射等列级转换
数据预览	配置转换规则后可实时预览转换后的目标数据，所见即所得，确认正确后再发布
口径差异识别	AI 自动对比多系统同语义字段（如"销售额"在 ERP、POS、电商的不同含义），标注差异点
模型物化	目标表为列式存储主键合并表，按主键自动合并去重

6.2 质量管理工作台

能力	技术细节
质量探查	自动统计每个字段的空值率、重复率、唯一值数、最大/最小值、值域分布直方图
AI 规则推荐	基于字段数据特征自动推荐规则类型：非空（NOT NULL）、唯一（UNIQUE）、范围（BETWEEN）、枚举（IN）、正则（REGEX）、波动率（日环比偏差阈值）
规则试运行	配置规则后先执行 dry-run，返回违规记录样本和拦截比例
强度策略	阻断模式：规则不通过则阻止 staging 模型发布；告警模式：仅发送告警通知，不阻断管道
行业基线对比	将质量指标（如空值率）与行业基准值对比，给出偏差百分比

6.3 安全定级工作台

能力	技术细节
敏感字段识别	AI 基于字段名语义 + 数据采样（正则匹配手机号/身份证/银行卡号模式）双重判定，输出置信度评分
四级分级	L1 公开、L2 内部、L3 敏感（脱敏展示）、L4 高敏（不可见或强掩码）
脱敏策略	中间遮盖（`138**5678`）、前缀保留（`310*`）、SHA-256 哈希、置空
样本数据预览	配置脱敏策略后自动展示脱敏效果样本，确认无误后应用到全量数据
数据库层生效	脱敏规则通过列式存储 MPP 计算引擎视图 + 行级安全策略（RLS）在数据库层强制执行，BI 直连也无法绕过

6.4 发布与版本管理

能力	技术细节
三重发布前检查	① 标准检查（命名规范通过率）② 质量检查（监控规则通过率）③ 安全检查（敏感字段脱敏覆盖率）
版本控制	每次发布自动生成版本号，SQL 转换模型版本化管理，支持一键回滚
血缘影响分析	发布前自动解析 SQL 依赖树，评估变更对下游 intermediate/marts/API/BI 报表的影响范围
手动重跑	支持按时间范围补数（backfill），全链路任务编排引擎日志实时可查

7. 模块三：加工与准备（宽表与集市加工层）

本模块对应数据分层中 DW→DM 的转换过程，将标准层（DW）的数据经过多表关联和业务逻辑加工，产出面向业务消费的主题宽表和聚合指标表（DM），由第三车间产出。

7.1 SQL 智能编辑器

能力	技术细节
AI SQL 生成	用户输入自然语言需求（如"关联订单表和会员表，按门店维度汇总客单价"），AI 基于列式计算引擎中的实际表结构（列名、类型、注释、采样数据）生成可直接执行的 SQL
上下文感知	AI 引擎实时读取列式计算引擎数据字典（`information_schema`），感知当前数据库的全部表结构和列元数据
智能补全	编辑器内实时灰字补全（类似 IDE Copilot 体验），支持表名、列名、SQL 关键字、函数名补全
错误诊断与修复	SQL 执行报错后，AI 自动分析错误信息 + SQL 文本 + 表结构，生成修复代码，通过 Diff 视图展示修改内容
参数化查询	支持 `${param_name}` 语法定义动态参数，右侧面板自动渲染参数输入控件，方便调试
实时预览	执行 SQL 后即时展示结果集（默认 LIMIT 100），支持导出为 CSV

7.2 宽表与模型构建

配置项	可选值	说明
创建方式	单表 / 多表 SQL	单表：直接从 DW 标准层读取，适合字段补充和简单转换；多表：通过 SQL JOIN 构建跨业务域宽表
物化方式	物理表 / 视图	物理表适用于高频查询场景；视图适用于实时性要求高的轻量查询
表模型类型	Aggregate / Duplicate / Primary Key	列式计算引擎三种存储模型按场景选择：聚合表（预聚合指标）、明细表（保留完整明细行）、主键表（支持实时更新合并）
分区策略	按天 / 按月 / 自定义	基于时间字段自动分区
刷新策略	全量刷新 / 增量追加 / 增量 Upsert	SQL 转换模型自动生成对应的物化逻辑
调度频率	Cron 表达式	通过全链路任务编排引擎定时调度执行

7.3 全链路血缘视图

能力	技术细节
自动血缘解析	实时解析 SQL 转换模型的 SQL 语法树（AST），自动提取字段级的上下游依赖关系
可视化展示	交互式 DAG 图展示完整数据链路：源数据库 → ODS 贴源层 → DW 标准层 → DM 应用层 → API/BI
断链检测	上游表结构变更（如删列、改类型）时，自动扫描影响的下游模型并告警
反向追溯	点击 DM 层任意字段，30 秒内追溯到源系统原始表和原始字段
影响分析	修改任意模型前，自动列出所有直接/间接依赖的下游模型和 API 接口

8. 模块四：服务与开放（数据服务层）

8.1 API 服务

能力	技术细节
API 封装	将 DM 层数据表封装为 RESTful API，支持 GET 参数化查询（分页、过滤、排序）
自动文档生成	AI 根据表结构和字段注释自动生成 OpenAPI 3.0 规范文档
API 目录管理	提供 API 目录浏览和授权管理能力，按需向不同调用方开放接口
访问控制	基于 Token 认证，API 粒度的权限管理
异常调用监控	AI 监控异常 API 调用行为，如短时间高频请求自动告警

8.2 BI 工具直连

能力	技术细节
连接协议	列式计算引擎兼容 MySQL 通信协议，BI 工具通过标准 JDBC/ODBC MySQL 驱动即可连接
虚拟账号	系统为每个用户/应用生成独立的数据库受限账号，杜绝共享管理员账号
连接串生成	Web 端一键生成 JDBC URL，格式：`jdbc:mysql://<host>:9030/<db>`
权限同步	虚拟账号的表级、行级、列级权限与 Web 端配置实时同步
支持的 BI 工具	FastBI、安捷智用 AI 数据平台、FineBI、帆软 Report、Tableau、Power BI、Superset、Grafana 等

8.3 审计日志

所有数据消费行为（API 调用、BI 查询、数据导出）均记录完整审计日志：

审计维度	记录内容
操作人	用户 ID、用户名、来源 IP
操作时间	精确到毫秒的时间戳
操作类型	查询 / 导出 / API 调用 / 配置变更
操作内容	执行的 SQL 文本 / API 请求参数
数据范围	涉及的表名、返回行数
异常检测	短时间大量查询、非工作时间访问、异常数据量导出 → 自动告警

9. AI 引擎技术细节

9.1 AI 能力全景

AI 贯穿数据管道四个阶段，共 11 项原生 AI 能力：

阶段	AI 能力	输入	输出	技术原理
接入	表结构扫描	源库 metadata	字段类型、主键、索引识别结果	元数据结构抽取 + 大语言模型语义理解标注
接入	增量字段识别	表结构 + 数据采样	推荐增量字段和同步策略	时间戳/自增列模式匹配
接入	行业模板匹配	表名 + 字段集	匹配的预置模板	模糊匹配 + 语义相似度
治理	标准映射	ODS 字段名 + 采样数据	标准英文命名 + 中文别名	大语言模型 + 行业术语知识库检索增强
治理	质量规则推荐	字段数据分布统计	推荐规则类型和阈值	统计特征分析 + 大语言模型规则生成
治理	敏感字段识别	字段名 + 数据采样	敏感级别 + 置信度	正则模式匹配 + 大语言模型语义判定双重验证
加工	自然语言→SQL	自然语言 + 表结构上下文	可执行的列式存储 MPP 计算引擎 SQL	大语言模型 + 数据库结构知识库检索增强 + SQL 方言适配
加工	智能补全	当前光标位置上下文	补全建议	大语言模型流式推理
加工	错误诊断修复	报错信息 + SQL + 表结构	修复后的 SQL + Diff	大语言模型错误定位与代码修复
服务	API 文档生成	表结构 + 字段注释	OpenAPI 3.0 文档	大语言模型模板化生成
服务	异常调用监控	调用日志时序数据	异常告警	统计基线检测 + 大语言模型异常研判

9.2 AI 上下文感知机制

与通用 AI 对话工具的核心区别在于数据库上下文注入：

用户输入："按门店汇总本月销售额和退货率"
        │
        ▼
  ┌─────────────────────────┐
  │   上下文组装（知识库检索增强）       │
  │  ① 当前库所有表结构      │
  │  ② 字段中文别名和注释    
  │  ③ 表间关联关系          │
  │  ④ 历史 SQL 模式         │
  │  ⑤ 列式计算引擎 SQL 方言语法    │
  └───────────┬─────────────┘
              ▼
       大语言模型生成 SQL
              │
              ▼
    列式计算引擎直接执行
              │
       ┌──────┴──────┐
       │ 成功        │ 报错
       ▼             ▼
    返回结果    AI 自动诊断修复 → 重新执行

10. 数据管理层

数据管理层提供对各层数据表的统一浏览与查询入口，方便 IT 人员和数据分析师日常核查数据。

能力	技术细节
数据展示	支持查看 ODS 贴源层、DW 标准层、DM 应用层的所有数据表，按层级组织展示
数据查看	通过编写 SQL 语句查询指定条件的数据，支持过滤、排序、导出

11. 安全架构与权限模型

11.1 安全设计原则

核心原则：应用层与数据库层双重生效。即使用户通过 BI 工具或 SQL 客户端直连数据库，权限控制依然有效。

11.2 多层权限体系

┌────────────────────────────────────────────────┐
│                 应用层权限（Web 管理平台）              │
│  用户管理 · 角色管理 · 功能菜单权限              │
├────────────────────────────────────────────────┤
│              列级安全 + 动态脱敏                   │
│  结合 L1-L4 密级，敏感列自动脱敏或隐藏            │
│  脱敏在数据库层执行，直连查询也只能看到掩码        │
├────────────────────────────────────────────────┤
│              虚拟账号层                           │
│  应用服务账号：仅授权特定表，JDBC 连接串加密交付   │
├────────────────────────────────────────────────┤
│              全链路审计                           │
│  操作审计 · 查询审计 · 导出审计 · 异常行为告警     │
└────────────────────────────────────────────────┘

11.3 权限实现机制

权限类型	实现方式	生效范围
表级权限	列式计算引擎 GRANT/REVOKE 权限语句	Web + 直连
列级脱敏	列式计算引擎视图层对敏感列应用内置脱敏函数	Web + 直连
功能菜单权限	Web 管理平台 RBAC 角色权限控制	仅 Web
操作审计	Web 管理平台中间件 + 列式计算引擎内置审计日志双重记录	Web + 直连

12. 调度引擎与运维监控

12.1 全链路任务编排引擎调度编排

全链路任务编排引擎管理完整的数据管道依赖链：

增量采集任务（源数据库 → ODS 贴源层）
  └──▶ 清洗标准化转换（ODS 贴源层 → DW 标准层）
         └──▶ 宽表及聚合加工（DW 标准层 → DM 应用层）

调度能力	说明
依赖管理	基于 DAG 的任务依赖，上游完成后自动触发下游
定时调度	支持 Cron 表达式、固定间隔、事件触发
失败重试	可配置重试次数和退避策略
分区感知	支持按日期分区增量执行（仅处理新分区数据）
回填（Backfill）	支持指定时间范围的历史数据重新处理

12.2 运维监控面板

监控维度	指标
任务状态	各层任务的成功/失败/运行中/等待状态
执行耗时	每个任务的单次执行耗时和历史趋势
数据质量	各表行数趋势、空值率、质量规则通过率
错误日志	任务失败的详细错误信息和堆栈追踪
告警通知	支持邮件 / 企微 / 钉钉 / 飞书 webhook 告警

13. 部署方案与环境要求

13.1 部署方式

Docker 容器化部署，全部组件以容器形式运行在单机 Linux 服务器上，通过 Docker Compose 一键编排：

services:
  web-platform        # Web 管理后台
  metadata-db         # 平台关系型元数据库
  column-engine-fe   # 列式计算引擎协调节点（FE）
  column-engine-be   # 列式计算引擎计算存储节点（BE）
  object-storage     # 私有化分布式对象存储
  catalog-service    # 开放数据归档格式 REST Catalog
  task-scheduler-ui   # 任务编排引擎 Web 监控面板
  task-scheduler-daemon # 任务编排引擎调度守护进程

13.2 硬件要求

项目	最低配置	推荐配置	说明
CPU	8 核	16 核	列式向量化并行计算引擎可充分利用多核性能，核数越多并发查询能力越强
内存	32 GB	64 GB	列式计算引擎后端节点建议独占 24 GB 以上内存，剩余分配给其他组件
存储	500 GB SSD	1 TB+ SSD	归档层数据 + 列式存储本地表 + 系统日志
网络	千兆内网	千兆内网	与源数据库之间需保障网络稳定
操作系统	CentOS 7+ / Ubuntu 20.04+	—	支持各类国产 Linux 发行版

13.3 网络要求

方向	端口	说明
源数据库 → 本机	1433 (MSSQL) / 5432 (PG) / 3306 (MySQL)	数据采集引擎入站
本机 → 用户浏览器	8000（Web 管理平台）/ 3000（任务编排监控面板）	Web 管理界面
本机 → BI 工具	9030 (列式计算引擎 MySQL 兼容端口)	BI 工具 JDBC 直连
本机 → AI API	443 (HTTPS)	大语言模型 API 调用（支持配置为企业内网私有化部署的模型，不必访问外网）

13.4 数据安全与合规

全本地部署：所有数据存储在客户内网服务器，不出外网
AI 模型可选：支持对接客户自建的私有化大模型，亦可使用云端 API（仅上传元数据和 SQL，不上传业务数据）
加密存储：数据库连接凭据 AES-256 加密存储
传输加密：Web 端 HTTPS，数据库连接支持 SSL/TLS

14. 性能基线与容量规划

14.1 数据规模支撑

数据级别	行数规模	典型场景
超大流水表	千万行～亿级以上	出入库流水、财务凭证明细、生产报工
中等主表	百万～千万行	销售订单、采购订单、客户记录
小主表 / 维度表	十万行以下	物料主数据、供应商、客户档案

14.2 容量规划参考

企业数据量级	推荐同步表数	推荐存储容量	推荐内存
25 张表 / 日增 5 万行	全量接入	500 GB	32 GB
40 张表 / 日增 10 万行	全量接入	1 TB	64 GB
60 张表 / 日增 30 万行	分批接入	2 TB	128 GB

数据集成与治理平台