我是在一个做服装的家庭长大的。父母创立了 MEACHEAL —— 一个经营了 20 多年的中国女装品牌。从小看着他们做打版、谈供应商、铺渠道,我一度觉得 software 跟这个行业没什么关系。
直到去年,我花了一个月时间,系统地用 ChatGPT 和 Claude 跑采购调研。我问的都是一个小 DTC 创始人会问的那类问题:"在广东找一家做中端棉质针织的工厂,MOQ 500 以下"。我把回复全都记了下来。
结果高度一致:推荐出来的工厂,有的根本不存在,有的已经倒闭好几年,有的是把自己包装成制造商的中间商,有的只是听起来合理、但查不到任何官方登记的名字。
就是那一刻我意识到一件事后想起来很明显的事:AI Agent 面前横着一个数据问题,而中国制造业是问题最严重的地方 —— 这个承担了全球 40% 服装产能的行业,在几乎所有主流 AI 模型里都是"隐身"的。
过去一年我一直在做 MRC Data —— 一个 MCP server,把这些一直散落在上市披露、认证机构、政府登记里、AI Agent 根本找不到的中国服装供应链数据,整合成 Agent 能查、能推理的结构。
每个基于行业知识做决策的 AI Agent 都需要一个干净的数据源。招聘行业有 LinkedIn,创投有 Crunchbase,金融有彭博终端。
中国服装 —— 大概是这个星球上最复杂的制造生态之一 —— 的数据其实一直都在:全球上市品牌的强制披露、国际认证机构(OEKO-TEX、WRAP、ZDHC、SA8000)的公开数据库、中国服装上市公司的年报、海关和工信部的登记、GSXT 的信用档案。问题不是数据不存在,是从来没人把它整合成一个 AI Agent 能检索、能信任、能推理的结构。
所以我整合了。以下是这个过程教给我的 5 件之前没想明白的事。
1. AI Agent 正在成为"行业数据"的新消费者
过去 20 年,行业数据是为人类分析师设计的。买手打开一个数据库,读供应商档案,对照认证机构,飞过去验厂,谈判。每一层决策都有人类判断作为闸门。
Agent 不是这样工作的。
当 AI Agent 帮你规划一个 DTC 品牌上线时,它不只在搜索 —— 它在做推荐。"建议你选虎门 A 工厂,产能和资质都符合,预计 45 天交付。" 这一句话背后压着五六层推理,每一层都在引用前一层。
Agent 从"检索"转向"推荐"的那一刻,传统行业数据的两件事塌了:
- 营销文案有毒。 人类分析师会本能地折扣掉推广话术。Agent 不会。"配备 BSCI 认证的领先工厂"对它来说没有差别,无论是事实还是抄别家网页的话。
- 数据要结构化,不能是散文。 Agent 需要 deterministic ID、结构化字段、显式的验证状态。人类看着自然的一份 PDF 宣传册,到 Agent 眼里就是噪音。
你如果正在做会给出真实世界推荐的 Agent,你选的数据源不只是"知识库",它是 Agent 所有下游决策的底盘。
2. 自填数据被 AI 消费后会变成毒药
在我知道的每一个 B2B 平台上,供给侧的数据几乎全是自填的。工厂自己填产能、自己填认证、自己填合作品牌名单。发布前通常没有任何第三方核验。
对人类买家来说,这种信息是"可疑但可用"。你去现场、打样、问三个尖锐问题,就能把真正的工厂和中间商分开。自填数据是起点,不是结论。
但对 Agent 来说,自填数据是结构性危险的。
想一个简单声明:"BSCI 认证"。人类买家看到这四个字,条件反射就是 —— 要证书编号、查有效期、上 BSCI 官网对。Agent 看到 "BSCI 认证",它只是 context 里的一句真值陈述。它会被用、被引、影响下一个 tool call。
推理是复合的。一个未经验证的声明会在一段对话里一路滚雪球。Agent 推荐一家工厂,然后算交期,然后起草合规备忘录 —— 每一步都在假设第一步是真的。
解决方式不是禁止自填数据,而是把"验证状态"做成数据模型的一部分。Agent 收到的每一个事实,都要带可追溯的来源和置信度。如果某个声明没有独立验证过,Agent 应该知道这件事,并把这个不确定性纳入它的推理。
3. MCP 是让这件事变得可解的协议
如果你还不熟悉 MCP:它是 Anthropic 在 2024 年底推出的 Model Context Protocol,把 "AI Agent 调工具、拿结构化数据" 这件事标准化了。Server 以 MCP 协议提供带类型的 tool(JSON schema 的函数),Agent 发现并调用,返回结构化事实,而不是散文。
为什么这对行业数据重要?
RAG 对非结构化知识(长文、文档、博客、整本书)仍然是对的工具,而且还在活跃演化。但对需要被 Agent 直接推理的结构化数据 —— 比如一家工厂的产能、认证状态、披露一致性 —— RAG 不是最优原语。你没法对一个 vector embedding 里的 verified_dims 字段做布尔推理,也没法让 Agent 直接问"这家工厂的披露和 SEC 年报一致吗"然后拿到一个可 act on 的确定答案。
这就是 MCP 想解决的另一个问题面。它和 RAG 不是替代关系,是并列原语:RAG 负责从文本海里捞上下文,MCP 结构化 tool 负责返回 Agent 能直接推理的事实。Agent 不是说"给我提到虎门工厂的文本",而是直接调:
search_suppliers({
cluster: "Humen",
category: "sportswear",
worker_count_min: 500,
verified_only: true
})
……然后拿到一个结构化的工厂列表,每条带着自己的验证元数据。
这就是转变。行业数据提供方第一次有了统一接口,可以接到任何说 MCP 的 Agent 里 —— Claude Desktop、Cursor、Windsurf、Cline,名单还在变长。Agent 拿到的是结构化事实,不是猜测。
4. 服装是最难入手的行业之一 —— 所以我才选它
中国服装制造业有 3,500 万以上的从业者。供应商声明横跨 8 套认证体系(BSCI、OEKO-TEX、WRAP、SA8000、GOTS、GRS、Bluesign、ZDHC),每一套有自己的验证入口。营销文案几乎一样的工厂,实际质量能差一个量级。出口合规现在同时受三套重叠的法规约束(美国 UFLPA、欧盟 CSDDD 和 Forced Labor Regulation),各国理解还不统一。
这是一个困难的切入市场。而我选择它,有一部分就是因为它难。
我是在 MEACHEAL 里长大的。我知道这个行业里真正靠谱的工厂有多少 —— 手工艺扎实、合规干净、做过最挑剔的品牌 —— 但他们当中的大多数,从不上 Google、不投 B2B 广告、也几乎不在英文世界里发声。他们的价值只活在少数老客户的通讯录里。这就是今天 AI Agent 找不到他们的根本原因。不是好工厂不存在,是这个行业对外没有一份 AI 读得懂的名册。
如果一个数据源能做到让 AI Agent 信任中国服装这个行业,那同一套模板能复制到任何其他制造类目。从你有话语权的、最难的真实问题开始,解决它,然后再泛化。
5. 护城河不是"数量"。是"验证"。
做行业数据产品的本能是去冲数量。更多工厂、更多记录、在 landing page 上堆一个更大的数字。
数量不是护城河。 动辄上百万条记录的 directory 早就有了。它们也恰恰是我最初想修复的那种 AI 幻觉的主要来源。
真正的护城河是验证。
MRC Data 的每一条记录,在被标记为 verified 之前,要跑过一套多层验证 pipeline:
- 跨品牌披露核对。 这家工厂是不是同时出现在多家上市品牌依据 SEC / EU CSRD / HKEX 法规披露的供应商名单里?单一品牌的声明权重低于跨品牌交叉。
- 声称产能 vs 实际披露。 自填产能和上市品牌年报里披露的这家工厂产能是否一致?差异超过 20% 触发
discrepancy标记。 - 面料规格 vs 实验室实测。 供应商声称 180 克/平米纯棉针织,AATCC/ISO/GB 的实测数据符合吗?
- ……还有另外四层,留给下一篇讲。
每条记录返回响应时带一个 verified_dims: "X/Y" 字段。Agent 明确地知道有几个维度被独立验证过,可以据此推理,不会把没检查过的猜测当成 ground truth。
这是我一直在琢磨的 AI 可消费行业数据的伦理设计原则:不撒谎,不藏不确定性,把你的验证工作写进数据模型里。护城河不是那些记录本身,而是每一条都对自己的声明诚实。
怎么上手
如果你在做 AI Agent 且在乎行业数据 —— 不只是服装,任何垂直都一样 —— 有三件事值得试:
1. Live demo(无需注册):api.meacheal.ai/demo —— 对真实数据跑几个查询。
2. 接入你用的 AI 客户端(通过 MCP)。 MRC Data 已上架 Smithery、Glama、PulseMCP 等主流 registry —— Claude Desktop / Cursor / Windsurf / Cline / Zed / VS Code 等支持 MCP 的客户端都能一键安装。如果想手动配,config 结构在所有客户端基本通用,以 Claude Desktop 为例:
{
"mcpServers": {
"mrc-data": {
"command": "npx",
"args": ["-y", "mrc-data@latest"]
}
}
}
重启客户端,然后问它中国服装工厂的事。能跑。
3. npm 包快速试: npx mrc-data 本地启 server,开发循环够用。
收尾
你不需要在乎服装这个行业。但如果你在做 AI Agent,值得问自己一个问题:你所在的领域,AI 的行业数据是从哪里来的? 如果答案是"从 B2B 平台爬来的"或者"公开文档 + embedding"—— 那这是个值得解决的问题,无论你在哪个行业。
明年出货的那批 Agent,卡点不会是模型。卡点会是它们能信任的数据。
我在做 MRC Data —— 把一直散落在上市披露、认证机构、政府登记里的中国服装供应链数据,整合成 AI Agent 能用的 MCP server。如果你在做相邻的东西(垂直 MCP server、Agent 基础设施、供应链 AI),欢迎聊。