张巍把世界模型从机器人脑里拆出来

当所有人都在等具身智能的"GPT 时刻"，张巍说根本没有 GPT 时刻——通用能力是一个个技能凑出来的，不是堆数据涌现出来的。

2026 年 5 月 9 日，峰瑞资本《高能量》播客更新了一期 78 分钟产业观察——主播李丰，嘉宾张巍。两年多前张巍上过这档节目，那时具身智能刚开始热；这次他作为逐际动力 CEO 重新坐回来，开口就给出一个反共识判断：「大家觉得这个赛道很卷，我觉得不卷，我真觉得还不够多人。」

但全场真正的判断密度不在这里。它落在后半段——他给"机器人大脑"重新下定义的几句：「模型不是大脑，大脑也不是模型，大脑是个操作系统。」「开车是个技能，剥鸡蛋是个技能。开车数据和剥鸡蛋数据放一起反而有问题。」「世界模型这四个字，第一件事就是要对它祛魅。世界只是一个修饰词。」

这三句话拼起来，是当下中文具身智能讨论里几乎没人敢明说的事。所有公司讲故事都把机器人大脑等同于一个超大模型——张巍说大脑根本不在那一层。所有公司都在赌"先通用再落地"复制 GPT 路径——张巍说这条路在物理世界走不通。

上一期我们写过胡渊鸣把世界模型拽回地面——他算清算力账，说 AI 永远是生成器、不是执行器。胡渊鸣讲的是消费终端的算力鸿沟。张巍补的是机器人这条线——这里的瓶颈不在算力，在路径。

以下是我们的拆解和判断。

「不卷」这句话比它听起来重

李丰开场问了一个常规问题：过去两年具身赛道这么热，焦虑和困惑是什么？

张巍的第一句回答把整个对谈定调拉偏了。「这个行业大家觉得卷，我觉得不卷。我真觉得还不够多人。」

中文创业语境里"不卷"几乎是反动词。所有 AI 子行业的创始人都在抱怨太卷——大模型卷训练成本、应用层卷价格、硬件卷供应链。张巍说不卷，是因为他给具身画的赛道边界跟别人不一样：「具身比新能源车的赛道大特别多。新能源车本质还是 A 到 B 的出行问题，是一个相对垂直的赛道；具身是一个血液，它可以渗透到各行各业。」"血液"这个比喻不算太准——他想说的应该是某种基础设施层的能力——但意思清楚：具身的赛道边界远超出"造一台机器人"。

这句话比它表面的乐观更重要。它隐含了张巍对赛道的二维定位——不在硬件赛道里看具身，在应用平台赛道里看具身。这跟他后面把机器人大脑定义成 OS 而不是模型，是同一个思维出口——他在重画产业链的图层。

这种重画对二级市场投资人是不舒服的，因为没法估值；但对真正在场景里跑的从业者，是更准确的描述。

「世界模型」是一个跟着技能走的词

12 分钟左右，李丰把当下被反复提的那个词抛过来：所有机器人公司讲故事都得带上"世界模型"，不沾边的赛道也要写进 BP。

张巍从另一个切口给这个词祛魅：自动驾驶要的"世界模型"，和剥鸡蛋要的"世界模型"，根本不是同一个东西。 一个要求十米外路口的车流时序，一个要求毫米级的力反馈和蛋壳形变。它们的观测、动作、满意度全部不同，把它们叫同一个名字，是这个词被滥用的起点。

更要紧的是张巍紧跟着的工程结论：靠堆物理公式给视频模型打补丁，本质是一个"对齐很难"的问题。 大部分团队的做法是把物理规律先做成仿真器，用仿真生成图像训世界模型——瓶颈不在公式本身，在 sim-to-real 的对齐成本。这件事机器人学界做了二十年，没简单办法。很多融资 BP 里"我们做世界模型"的承诺，本质上是在卖一个 sim-to-real 的工程问题，包装成看起来像 GPT 的 scaling 故事。 算力账和工程账都站不住，剩下的支撑就只是叙事。

大脑是 OS，模型是被它调用的工具

到了 33 分钟左右，张巍说出这期反直觉的一句：「模型不是大脑，大脑也不是模型，大脑是个操作系统。」

李丰当场提了一个所有听众的疑问——大脑是模型上面的一层？

张巍给了一个意象：霍金。一个躺在病床上、几乎完全瘫痪、但智力顶级的人，有没有脑？当然有。但他能动吗？他甚至拿不起一个水杯。给他装上"拿水杯"的能力，是打通经络（VLA 技能），不是替换大脑。

按这个分法，大脑是负责记忆、存储、思考、调度、规划的 Agentic OS——逐际动力给它取的名字叫 COSA。它的智力上限取决于调用了哪个语言模型，但它本身不是模型。整个机器人架构因此被拆成三层：

层	角色	类比
GenAgenticOS（大脑）	调度记忆、思考、技能调用	iPhone 的 iOS
Human VLA（System 1）	视觉 + 语言 + 动作的高阶技能	App
运动 Foundation Model（小脑）	让身体能按指令执行动作	硬件驱动

这是工程师视角而不是营销视角的分类。 张巍把大脑定义成 OS，实际上在做两件事：

第一，他把"机器人能不能商业化"这个问题，从"模型够不够强"翻译成了"OS 调度够不够好"——后者是有清晰工程指标的问题，不依赖于神奇的 emergent。

第二，他把 OpenAI / Anthropic 这类语言模型公司排除出了"机器人大脑"竞赛——他们最多是被调用的工具供应商，不是大脑的提供者。 在融资语境里这是一句很重的话——它意味着具身公司不必、也不应该被语言模型公司的估值锚定。

这个 OS 视角比张巍自己强调的更值得带回去。它是中国具身公司面对硅谷大模型潮的一份独立宣言——我们不在你们那一层竞争，我们在你们之上构建调度系统。能不能站住，要看 OS 这一层有没有实质创新；但站位本身已经把估值天花板从"模型公司估值打 0.3 折"挪到了"平台公司估值给 PE"。

「先通用再落地」走不通——技能要一个个训

"大脑是 OS"是定义层的反共识；"技能不能堆数据涌现"是路径层的反共识。

22 分钟左右，李丰问：未来一两年，机器人会更垂直、更受限地落地，还是更泛化地训练通用模型？

张巍把整个具身智能的发展路径跟大模型路径硬切割开：「具身的落地，不能跟大模型那种'先通用、再专用、再应用、再落地'的模式走。我觉得先通用再落地的模式是不适合的。」

理由很硬核：「语言数据是个通用模态——你写律师信还是写文档，对整个通用模型都有帮助。但我开车这个数据和我剥鸡蛋这俩放在一起，现在都不知道它反而是有问题的。」

把不同技能的数据混在一起期待 emergent，张巍用了一个特别中国的成语："刻舟求剑。"

他给的替代方案叫「通用与场景数据的飞轮」：先有一个有限的通用模型基础 → 在垂直领域里收集数据、落地 → 落地过程中拿到的数据反哺通用模型。通用能力是从场景里慢慢长出来的，不是一开始就堆出来的。

这话听起来朴素，但它直接否定了过去两年具身赛道里主流融资故事的底层假设。"我们用海量人类操作数据训一个通用机器人基础模型"、"我们的 VLA 会随着数据规模化产生 emergent"——这些故事的前提都是大模型 scaling law 在物理世界依然成立。张巍说不成立，因为跨技能的数据 pipeline 关系还没人搞清楚。

这也回头解释了他开场那句"我觉得不卷"。今天具身赛道里大家卷的是讲法，真正该卷的是任务定义、数据闭环、技能成本和商业回报能不能打平。 这两件事完全不在一个层面——讲法可以一夜内卷到顶，工程账只能一年一年算。

笔者个人观察：自动驾驶是一个不完全干净的参照

如果要给张巍的"技能化路径"找一个先跑过一遍的产业类比，自动驾驶最近。但要承认：它是个弱对比，不是一锤定音的证据。

支持张巍的一面是清楚的。消费侧的 L2 商业化跑的就是技能飞轮。 车道保持、自适应巡航、自动泊车——每一个都是单技能起步，沿 ROI 曲线一格一格推；ACC、AEB 已经卖了十年，每年都在涨装机率。Waymo 走的是另一种技能化——不做消费侧 L2 商业化，直接锁定 Robotaxi 单一场景，每开通一个城市都是一次独立的技能落地。这两条路线印证的都是"通用与场景数据飞轮"那套。

但还有一条路不站这边：Tesla FSD 押的就是端到端 + 大模型 emergent。张巍说"开车数据和剥鸡蛋数据不能混"，FSD 偏偏把所有道路数据混在一起喂一个端到端网络。这条路要是跑通了，张巍的论断就会出现反例。所以真正检验张巍的，不是 FSD 历史走向，而是接下来两年具身圈端到端 vs 技能化的赛跑——李丰在节目里点过这件事，自动驾驶圈近一年回头拥抱"世界模型"，本质上是承认堆数据不再奏效。它会回到技能化飞轮，还是真的涌现出新的通用能力，这是看板。

我接触过的几位早期具身公司创始人，私下都同意张巍的论断，但 BP 上不敢这么写——通用化叙事比技能化叙事好融资十倍。一个能讲"我们做未来 AGI 的具身底座"的故事，估值和一个老实说"我们一个一个技能凑 ROI"的故事完全不在一个量级。张巍敢在节目里这么讲，部分原因是逐际动力已经走过早期融资轮次，不需要再用通用化故事撑估值。敢说真话的人，得先有不依赖叙事的资本垫底。

商业化的真正看板：单一技能 ROI 何时打平

到了 50 分钟左右，李丰问商业价值在哪里兑现。张巍给了这期可以直接套用的判断框架——别看通用能力，看单一技能的"数据成本 vs 商业价值"何时打平。

「单一技能下它能打平就可以。开车现在还没完全打平——但是这个领域非常多。」

他把具身落地按交互强度分了三段：

无交互（比划、表演）— 当前已经 sell out 的现金流，逐际动力的客户拿这个真在赚钱
弱交互（动口不动手）— 替代"聪明人"，导览、导购、商业服务，接下来两年的主战场
强交互（改变物理世界）— 真正的家庭服务、灵巧操作，等技能数据成本打平再上

这个框架对投资人的价值很大。它把具身公司的估值锚从"通用 AGI 的预期值"换成了"已实现技能数 × 单技能 ROI"——一个可以用财务模型套的指标。

张巍还把逐际动力的方向定义为「Serve People, Not Process」——不进工厂，奔家庭和商业服务。这个口号听起来像营销，但里面有一条硬判断：工厂是为机器设计的环境，那里的最优解从来不是人形机器人，是六条腿、四只手的专业设备。人形机器人真正能站住的地方，是任务多样性——一个能在为人设计的物理环境里持续叠加 APP 的载体。 你不会一周洗两次衣服，家里的活本质是个多样性问题，不是专一性问题。

最后张巍还点了一个判断——AI 替掉的本质是"动口不动手"的脑力劳动者。他说得克制：「media occur 的脑力。」李丰接了句："那基本就是我们这个工作。" 张巍没接话。这个判断跟 005 濂之写的"白领的恩格斯暂停"是同一件事的另一面——具身 AI 公司的 CEO 在告诉你，他们的下一个客户就是动口不动手的白领的雇主。

声入商业说

我们不搬运播客原文，我们帮你判断哪些观点值得带回去。

这期张巍有三个反共识判断，挑明白了讲：大脑是 OS 不是模型；技能要一个个训不能堆数据涌现；世界模型只是一个修饰词。 三句话连起来，构成对当下具身智能融资叙事的一次拆解。被拆掉的是"模型万能 + scaling 涌现 + 通用化路径"那套故事框架；赛道本身没问题，问题在叙事。

在一个人人都在把故事讲得更大的赛道里，能把故事讲小，反而说明他真的在地上走过。

往后看，具身公司值不值钱、机器人能不能跑通，看一个具体指标就够了——单一技能的数据成本 vs 商业价值何时打平。打平的技能越多，公司越值钱；通用能力是这些技能积累出来的副产品，不是它的前提。

你怎么看张巍说的"先通用再落地走不通"？欢迎评论区留言。想听完整的 78 分钟讨论，去小宇宙搜「高能量 Vol.216」，或点击文末「阅读原文」直达。

「不卷」这句话比它听起来重

「世界模型」是一个跟着技能走的词

大脑是 OS，模型是被它调用的工具

「先通用再落地」走不通——技能要一个个训

笔者个人观察：自动驾驶是一个不完全干净的参照

商业化的真正看板：单一技能 ROI 何时打平

声入商业说

继续阅读

Labubu 最火的时候，王宁做的是灭火｜泡泡玛特再访

世界模型今年要跑通｜英伟达 GEAR 高深远的另一根脊柱

她给同行打5分，给自己打10分｜黄碧薇押注因果世界模型

留言