当所有人都在等具身智能的"GPT 时刻",张巍说根本没有 GPT 时刻——通用能力是一个个技能凑出来的,不是堆数据涌现出来的。
2026 年 5 月 9 日,峰瑞资本《高能量》播客更新了一期 78 分钟产业观察——主播李丰,嘉宾张巍。两年多前张巍上过这档节目,那时具身智能刚开始热;这次他作为逐际动力 CEO 重新坐回来,开口就给出一个反共识判断:「大家觉得这个赛道很卷,我觉得不卷,我真觉得还不够多人。」
但全场真正的判断密度不在这里。它落在后半段——他给"机器人大脑"重新下定义的几句:「模型不是大脑,大脑也不是模型,大脑是个操作系统。」「开车是个技能,剥鸡蛋是个技能。开车数据和剥鸡蛋数据放一起反而有问题。」「世界模型这四个字,第一件事就是要对它祛魅。世界只是一个修饰词。」
这三句话拼起来,是当下中文具身智能讨论里几乎没人敢明说的事。所有公司讲故事都把机器人大脑等同于一个超大模型——张巍说大脑根本不在那一层。所有公司都在赌"先通用再落地"复制 GPT 路径——张巍说这条路在物理世界走不通。
上一期我们写过 胡渊鸣把世界模型拽回地面——他算清算力账,说 AI 永远是生成器、不是执行器。胡渊鸣讲的是消费终端的算力鸿沟。张巍补的是机器人这条线——这里的瓶颈不在算力,在路径。
以下是我们的拆解和判断。
「不卷」这句话比它听起来重
李丰开场问了一个常规问题:过去两年具身赛道这么热,焦虑和困惑是什么?
张巍的第一句回答把整个对谈定调拉偏了。「这个行业大家觉得卷,我觉得不卷。我真觉得还不够多人。」
中文创业语境里"不卷"几乎是反动词。所有 AI 子行业的创始人都在抱怨太卷——大模型卷训练成本、应用层卷价格、硬件卷供应链。张巍说不卷,是因为他给具身画的赛道边界跟别人不一样:「具身比新能源车的赛道大特别多。新能源车本质还是 A 到 B 的出行问题,是一个相对垂直的赛道;具身是一个血液,它可以渗透到各行各业。」"血液"这个比喻不算太准——他想说的应该是某种基础设施层的能力——但意思清楚:具身的赛道边界远超出"造一台机器人"。
这句话比它表面的乐观更重要。它隐含了张巍对赛道的二维定位——不在硬件赛道里看具身,在应用平台赛道里看具身。这跟他后面把机器人大脑定义成 OS 而不是模型,是同一个思维出口——他在重画产业链的图层。
这种重画对二级市场投资人是不舒服的,因为没法估值;但对真正在场景里跑的从业者,是更准确的描述。
「世界模型」是一个跟着技能走的词
12 分钟左右,李丰把当下被反复提的那个词抛过来:所有机器人公司讲故事都得带上"世界模型",不沾边的赛道也要写进 BP。
张巍从另一个切口给这个词祛魅:自动驾驶要的"世界模型",和剥鸡蛋要的"世界模型",根本不是同一个东西。 一个要求十米外路口的车流时序,一个要求毫米级的力反馈和蛋壳形变。它们的观测、动作、满意度全部不同,把它们叫同一个名字,是这个词被滥用的起点。
更要紧的是张巍紧跟着的工程结论:靠堆物理公式给视频模型打补丁,本质是一个"对齐很难"的问题。 大部分团队的做法是把物理规律先做成仿真器,用仿真生成图像训世界模型——瓶颈不在公式本身,在 sim-to-real 的对齐成本。这件事机器人学界做了二十年,没简单办法。很多融资 BP 里"我们做世界模型"的承诺,本质上是在卖一个 sim-to-real 的工程问题,包装成看起来像 GPT 的 scaling 故事。 算力账和工程账都站不住,剩下的支撑就只是叙事。
大脑是 OS,模型是被它调用的工具
到了 33 分钟左右,张巍说出这期反直觉的一句:「模型不是大脑,大脑也不是模型,大脑是个操作系统。」
李丰当场提了一个所有听众的疑问——大脑是模型上面的一层?
张巍给了一个意象:霍金。一个躺在病床上、几乎完全瘫痪、但智力顶级的人,有没有脑?当然有。但他能动吗?他甚至拿不起一个水杯。给他装上"拿水杯"的能力,是打通经络(VLA 技能),不是替换大脑。
按这个分法,大脑是负责记忆、存储、思考、调度、规划的 Agentic OS——逐际动力给它取的名字叫 COSA。它的智力上限取决于调用了哪个语言模型,但它本身不是模型。整个机器人架构因此被拆成三层:
| 层 | 角色 | 类比 |
|---|---|---|
| GenAgenticOS(大脑) | 调度记忆、思考、技能调用 | iPhone 的 iOS |
| Human VLA(System 1) | 视觉 + 语言 + 动作的高阶技能 | App |
| 运动 Foundation Model(小脑) | 让身体能按指令执行动作 | 硬件驱动 |
这是工程师视角而不是营销视角的分类。 张巍把大脑定义成 OS,实际上在做两件事:
第一,他把"机器人能不能商业化"这个问题,从"模型够不够强"翻译成了"OS 调度够不够好"——后者是有清晰工程指标的问题,不依赖于神奇的 emergent。
第二,他把 OpenAI / Anthropic 这类语言模型公司排除出了"机器人大脑"竞赛——他们最多是被调用的工具供应商,不是大脑的提供者。 在融资语境里这是一句很重的话——它意味着具身公司不必、也不应该被语言模型公司的估值锚定。
这个 OS 视角比张巍自己强调的更值得带回去。它是中国具身公司面对硅谷大模型潮的一份独立宣言——我们不在你们那一层竞争,我们在你们之上构建调度系统。能不能站住,要看 OS 这一层有没有实质创新;但站位本身已经把估值天花板从"模型公司估值打 0.3 折"挪到了"平台公司估值给 PE"。
「先通用再落地」走不通——技能要一个个训
"大脑是 OS"是定义层的反共识;"技能不能堆数据涌现"是路径层的反共识。
22 分钟左右,李丰问:未来一两年,机器人会更垂直、更受限地落地,还是更泛化地训练通用模型?
张巍把整个具身智能的发展路径跟大模型路径硬切割开:「具身的落地,不能跟大模型那种'先通用、再专用、再应用、再落地'的模式走。我觉得先通用再落地的模式是不适合的。」
理由很硬核:「语言数据是个通用模态——你写律师信还是写文档,对整个通用模型都有帮助。但我开车这个数据和我剥鸡蛋这俩放在一起,现在都不知道它反而是有问题的。」
把不同技能的数据混在一起期待 emergent,张巍用了一个特别中国的成语:"刻舟求剑。"
他给的替代方案叫「通用与场景数据的飞轮」:先有一个有限的通用模型基础 → 在垂直领域里收集数据、落地 → 落地过程中拿到的数据反哺通用模型。通用能力是从场景里慢慢长出来的,不是一开始就堆出来的。
这话听起来朴素,但它直接否定了过去两年具身赛道里主流融资故事的底层假设。"我们用海量人类操作数据训一个通用机器人基础模型"、"我们的 VLA 会随着数据规模化产生 emergent"——这些故事的前提都是大模型 scaling law 在物理世界依然成立。张巍说不成立,因为跨技能的数据 pipeline 关系还没人搞清楚。
这也回头解释了他开场那句"我觉得不卷"。今天具身赛道里大家卷的是讲法,真正该卷的是任务定义、数据闭环、技能成本和商业回报能不能打平。 这两件事完全不在一个层面——讲法可以一夜内卷到顶,工程账只能一年一年算。
笔者个人观察:自动驾驶是一个不完全干净的参照
如果要给张巍的"技能化路径"找一个先跑过一遍的产业类比,自动驾驶最近。但要承认:它是个弱对比,不是一锤定音的证据。
支持张巍的一面是清楚的。消费侧的 L2 商业化跑的就是技能飞轮。 车道保持、自适应巡航、自动泊车——每一个都是单技能起步,沿 ROI 曲线一格一格推;ACC、AEB 已经卖了十年,每年都在涨装机率。Waymo 走的是另一种技能化——不做消费侧 L2 商业化,直接锁定 Robotaxi 单一场景,每开通一个城市都是一次独立的技能落地。这两条路线印证的都是"通用与场景数据飞轮"那套。
但还有一条路不站这边:Tesla FSD 押的就是端到端 + 大模型 emergent。张巍说"开车数据和剥鸡蛋数据不能混",FSD 偏偏把所有道路数据混在一起喂一个端到端网络。这条路要是跑通了,张巍的论断就会出现反例。所以真正检验张巍的,不是 FSD 历史走向,而是接下来两年具身圈端到端 vs 技能化的赛跑——李丰在节目里点过这件事,自动驾驶圈近一年回头拥抱"世界模型",本质上是承认堆数据不再奏效。它会回到技能化飞轮,还是真的涌现出新的通用能力,这是看板。
我接触过的几位早期具身公司创始人,私下都同意张巍的论断,但 BP 上不敢这么写——通用化叙事比技能化叙事好融资十倍。一个能讲"我们做未来 AGI 的具身底座"的故事,估值和一个老实说"我们一个一个技能凑 ROI"的故事完全不在一个量级。张巍敢在节目里这么讲,部分原因是逐际动力已经走过早期融资轮次,不需要再用通用化故事撑估值。敢说真话的人,得先有不依赖叙事的资本垫底。
商业化的真正看板:单一技能 ROI 何时打平
到了 50 分钟左右,李丰问商业价值在哪里兑现。张巍给了这期可以直接套用的判断框架——别看通用能力,看单一技能的"数据成本 vs 商业价值"何时打平。
「单一技能下它能打平就可以。开车现在还没完全打平——但是这个领域非常多。」
他把具身落地按交互强度分了三段:
- 无交互(比划、表演)— 当前已经 sell out 的现金流,逐际动力的客户拿这个真在赚钱
- 弱交互(动口不动手)— 替代"聪明人",导览、导购、商业服务,接下来两年的主战场
- 强交互(改变物理世界)— 真正的家庭服务、灵巧操作,等技能数据成本打平再上
这个框架对投资人的价值很大。它把具身公司的估值锚从"通用 AGI 的预期值"换成了"已实现技能数 × 单技能 ROI"——一个可以用财务模型套的指标。
张巍还把逐际动力的方向定义为「Serve People, Not Process」——不进工厂,奔家庭和商业服务。这个口号听起来像营销,但里面有一条硬判断:工厂是为机器设计的环境,那里的最优解从来不是人形机器人,是六条腿、四只手的专业设备。人形机器人真正能站住的地方,是任务多样性——一个能在为人设计的物理环境里持续叠加 APP 的载体。 你不会一周洗两次衣服,家里的活本质是个多样性问题,不是专一性问题。
最后张巍还点了一个判断——AI 替掉的本质是"动口不动手"的脑力劳动者。他说得克制:「media occur 的脑力。」李丰接了句:"那基本就是我们这个工作。" 张巍没接话。这个判断跟 005 濂之写的"白领的恩格斯暂停"是同一件事的另一面——具身 AI 公司的 CEO 在告诉你,他们的下一个客户就是动口不动手的白领的雇主。
声入商业说
我们不搬运播客原文,我们帮你判断哪些观点值得带回去。
这期张巍有三个反共识判断,挑明白了讲:大脑是 OS 不是模型;技能要一个个训不能堆数据涌现;世界模型只是一个修饰词。 三句话连起来,构成对当下具身智能融资叙事的一次拆解。被拆掉的是"模型万能 + scaling 涌现 + 通用化路径"那套故事框架;赛道本身没问题,问题在叙事。
在一个人人都在把故事讲得更大的赛道里,能把故事讲小,反而说明他真的在地上走过。
往后看,具身公司值不值钱、机器人能不能跑通,看一个具体指标就够了——单一技能的数据成本 vs 商业价值何时打平。打平的技能越多,公司越值钱;通用能力是这些技能积累出来的副产品,不是它的前提。
你怎么看张巍说的"先通用再落地走不通"?欢迎评论区留言。想听完整的 78 分钟讨论,去小宇宙搜「高能量 Vol.216」,或点击文末「阅读原文」直达。
留言