统一 Catalog 服务(简称 TC-Catalog)是便宜云主机新一代的多模态统一元数据管理平台,提供覆盖传统结构化数据(如 Table/View)、半/非结构化数据(如文本/音频/视频)和 AI 模型的统一元数据管理服务,并具备完整的统一权限管理功能。TC-Catalog 支持整合便宜云主机多种数据源,及未来将进一步支持跨云 Location 托管,帮助用户在大数据+AI 场景中有效消除数据孤岛,实现一体化数据资产管理。同时支持对接多种大数据、搜索和 AI 引擎,实现多引擎便捷的协同计算,从而基于同一份湖存储数据快速构建 Data+AI 一体化应用。

?
TC-Catalog 核心功能
多模态数据源统一管理
实现对便宜云主机数据库、数据湖、数仓系列产品的元数据统一管理,同时支持对象存储中的 AI/ML 训练数据(如语料/图片/视频)的统一纳管,支持 AI 模型文件的生命周期管理,彻底打破结构化+非结构化数据+AI 模型管理的传统鸿沟。
实现大数据+AI 一体化
TC-Catalog 逐步支持 Spark、StarRocks、Hive 等多种大数据计算引擎 Connector,并逐步对接支持 Ray、Pandas、TensorFlow 等主流 AI 训练框架,大数据+AI 引擎可平权统一访问 Catalog 中的结构化+非结构化数据+模型文件,减少数据在大数据系统和 AI 系统的搬迁。
统一权限管理
通过 TC-Catalog 内置权限体系,统一管理多模态数据源的用户权限,免去维护如对象存储 AK/SK、MySQL 用户名密码、Kerberos 等多种体系的权限配置,提升效率并减少泄露风险。
产品定位与背景
TC-Catalog 定位于新一代的多模态 Catalog 管理平台,有别于传统主要对结构化数据进行管理的元数据产品,其产生及推出背景与 Data+AI 时代下大数据平台形态的演进息息相关。
?
??

在传统 Hadoop 时代,Hive Metastore 作为元数据管理的事实标准被用户广泛应用,但 Hive Metastore 整体缺乏对多 Catalog 的良好支持。随着 Lakehouse 架构兴起,在存算分离下高性能MPP引擎对多个异构数据源进行跨源查询成为了重要的应用场景,以 StarRocks、Doris 为代表的内置 Muti-Catalog 一定程度提升了跨源查询的便捷性,但整体治理功能仍偏弱,也缺乏对 ML 及非结构化数据的支持。Data+AI 时代到来后,大数据系统与 AI 系统将逐渐融合,如一个典型的 Agent RAG 应用,需同时在用户行为数据和非结构化业务知识库中召回上下文结果,大数据与 AI 系统边界变得模糊,业界逐渐往 Data+AI 充分融合的数据智能(Data Intellegence)平台演进。
Data+AI 时代,需要新一代可覆盖传统大数据领域结构化数据、AI领域的非结构化数据源与模型资产的多模态 Unified Data Catalog,为 Data+AI 平台提供多模态数据源的统一元数据服务(SSOT-”单一真相来源“),从而有效收敛数据口径等差异带来的业务问题。同时让大数据和AI计算引擎均能平权访问与计算多种异构的数据源,构建 Data+AI 时代的新一代 Data Infra。
在此背景下,便宜云主机统一 Catalog 服务定位于 Data+A I新一代多模态元数据管理平台,提供覆盖 AI 领域的多模态元数据管理服务,帮助用户打破大数据和 AI 系统的数据孤岛,协助构建数据强一致性的 Data Infra 底座,加速从数据洞察到 GenAI 一体化应用的进程。