2002 年,我的父母创立了 MEACHEAL —— 一个经营了 20 多年的中国女装品牌。从小看着他们做打版、谈供应商、铺渠道,我一度觉得 software 跟这个行业没什么关系。

直到去年,我花了一个月时间,系统地用 ChatGPT 和 Claude 跑采购调研。我问的都是一个小 DTC 创始人会问的那类问题:"在广东找一家做中端棉质针织的工厂,MOQ 500 以下"。我把回复全都记了下来。

结果高度一致:推荐出来的工厂,有的根本不存在,有的已经倒闭好几年,有的是把自己包装成制造商的中间商,有的只是听起来合理、但查不到任何官方登记的名字。

就是那一刻我意识到一件事后想起来很明显的事:AI Agent 面前横着一个数据问题,而中国制造业是问题最严重的地方 —— 这个承担了全球 40% 服装产能的行业,在几乎所有主流 AI 模型里都是"隐身"的。

过去一年我一直在做 MRC Data —— 一个 MCP server,把这些一直散落在上市披露、认证机构、政府登记里、AI Agent 根本找不到的中国服装供应链数据,整合成 Agent 能查、能推理的结构。每个基于行业知识做决策的 AI Agent 都需要一个干净的数据源。招聘行业有 LinkedIn,创投有 Crunchbase,金融有彭博终端。

中国服装 —— 大概是这个星球上最复杂的制造生态之一 —— 数据其实一直都在:全球上市品牌的强制披露、国际认证机构(OEKO-TEX、WRAP、ZDHC、SA8000)的公开数据库、中国服装上市公司的年报、海关和工信部的登记、GSXT 的信用档案。问题不是数据不存在,是从来没人把它整合成一个 AI Agent 能检索、能信任、能推理的结构。

以下是这个过程教给我的 5 件之前没想明白的事。

一、AI Agent 正在成为行业数据的新消费者

过去 20 年,行业数据是为人类分析师设计的。买手打开一个数据库,读供应商档案,对照认证机构,飞过去验厂,谈判。每一层决策都有人类判断作为闸门。

而 Agent 不是这样工作的。

当 AI Agent 帮你规划一个 DTC 品牌上线时,它不只在搜索 —— 它在做推荐。"建议你选虎门 A 工厂,产能和资质都符合,预计 45 天交付。" 这一句话背后压着五六层推理,每一层都在引用前一层。

Agent 从"检索"转向"推荐"的那一刻,传统行业数据的两件事塌了:第一,人类判断退出了事实校验环节;第二,你选的数据源不只是"知识库",它是 Agent 所有下游决策的底盘

二、自填数据被 AI 消费后会变成毒药

在我知道的每一个 B2B 平台上,供给侧的数据几乎全是自填的。工厂自己填产能、自己填认证、自己填合作品牌名单。发布前通常没有任何第三方核验。

对人类买家来说,这种信息是"可疑但可用"。你去现场、打样、问三个尖锐问题,就能把真正的工厂和中间商分开。自填数据是起点,不是结论。

但对 Agent 来说,自填数据是结构性危险。一个简单声明:"BSCI 认证"。人类买家看到这四个字,条件反射就是 —— 要证书编号、查有效期、上 BSCI 官网对。Agent 看到 "BSCI 认证",它只是 context 里的一句真值陈述。它会被用、被引、影响下一个 tool call。

推理是复合的,一个未经验证的声明会在一段对话里一路滚雪球。Agent 推荐一家工厂,然后算交期,然后起草合规备忘录 —— 每一步都在假设第一步是真的。

解决方式不是禁止自填数据,而是把"验证状态"做成数据模型的一部分。Agent 收到的每一个事实,都要带可追溯的来源和置信度。如果某个声明没有独立验证过,Agent 应该知道这件事,并把这个不确定性纳入它的推理。

三、MCP 是让这件事变得可解的协议

如果你还不熟悉 MCP:它是 Anthropic 在 2024 年底推出的 Model Context Protocol,把 "AI Agent 调工具、拿结构化数据" 这件事标准化了。Server 以 MCP 协议提供带类型的 tool(JSON schema 的函数),Agent 发现并调用,返回结构化事实,而不是散文。

为什么这对行业数据重要?

RAG 对非结构化知识(长文、文档、博客、整本书)仍然是对的工具,而且还在活跃演化。但对需要被 Agent 直接推理的结构化数据 —— 比如一家工厂的产能、认证状态、披露一致性 —— RAG 不是最优原语。你没法对一个 vector embedding 里的 verified_dims 字段做布尔推理,也没法让 Agent 直接问"这家工厂的披露和 SEC 年报一致吗"然后拿到一个可 act on 的确定答案。

MCP 和 RAG 不是替代关系,是并列原语:RAG 负责从文本海里捞上下文,MCP 结构化 tool 负责返回 Agent 能直接推理的事实。这就是转变:行业数据提供方第一次有了统一接口,可以接到任何说 MCP 的 Agent 里 —— Claude Desktop、Cursor、Windsurf、Cline,名单还在变长。Agent 拿到的是结构化事实,不是猜测。

四、服装是最难入手的行业之一

中国服装制造业有 3,500 万以上的从业者。供应商声明横跨 8 套认证体系(BSCI、OEKO-TEX、WRAP、SA8000、GOTS、GRS、Bluesign、ZDHC),每一套有自己的验证入口。营销文案几乎一样的工厂,实际质量能差一个量级。出口合规现在同时受三套重叠的法规约束(美国 UFLPA、欧盟 CSDDD 和 Forced Labor Regulation),各国理解还不统一。

这是一个困难的切入市场。而我选择它,有一部分就是因为它难。

我在服装圈子长大,我知道这个行业里真正靠谱的工厂有多少 —— 手工艺扎实、合规干净、做过最挑剔的品牌 —— 但他们当中的大多数,从不上 Google、不投 B2B 广告、也几乎不在英文世界里发声。他们的价值只活在少数老客户的通讯录里。这就是今天 AI Agent 找不到他们的根本原因。不是好工厂不存在,是这个行业对外没有一份 AI 读得懂的名册。

如果一个数据源能做到让 AI Agent 信任中国服装这个行业,那同一套模板能复制到任何其他制造类目。从你有话语权的、最难的真实问题开始,解决它,然后再泛化。

所以这件事的真正命题不是"中国服装" —— 是"如何把任何一个垂直行业的散落数据,做成 AI Agent 能信任的数据层"。 服装只是我选择的第一个验证场域,因为它够难 —— 3,500 万从业者、8 套认证体系、3 套出口合规法规交错 —— 如果服装能跑通,化妆品、食品、电子、零部件都能照搬。

MEACHEAL Research Center 在做的,是给"垂直产业 AI 数据"这个新品类定义方法论 —— 4 层数据源、7 层验证、对 AI 原生设计 —— MRC Data 是这个方法论的第一个产品。

五、护城河不是"数量"。是"验证"。

做行业数据产品的本能是去冲数量。更多工厂、更多记录、在 landing page 上堆一个更大的数字。

数量不是护城河。 动辄上百万条记录的 directory 早就有了。它们也恰恰是我最初想修复的那种 AI 幻觉的主要来源。

真正的护城河是"验证"。

MRC Data 的每一条记录,在被标记为 verified 之前,要跑过一套多层验证 pipeline:跨品牌披露比对、产能与上市公司年报交叉、面料实测 vs 声明、8+ 认证体系的状态核查、市场准入(UFLPA / CSDDD / JIS / KC)就绪度、工商登记 & 处罚记录、品牌方官方名单比对。

每条记录返回响应时带一个 verified_dims: "X/Y" 字段。Agent 明确地知道有几个维度被独立验证过,可以据此推理,不会把没检查过的猜测当成 ground truth。

这是我一直在琢磨的 AI 可消费行业数据的伦理设计原则:不撒谎,不藏不确定性,把你的验证工作写进数据模型里。护城河不是那些记录本身,而是每一条都对自己的声明诚实。

收尾

你不需要在乎服装这个行业。但如果你在做 AI Agent,值得问自己一个问题:你所在的领域,AI 的行业数据是从哪里来的? 如果答案是"从 B2B 平台爬来的"或者"公开文档 + embedding"—— 那这是个值得解决的问题,无论你在哪个行业。

最新的 Agent,卡点不会是模型。卡点会是它们能信任的数据。