春节的凌晨两点,罗福莉坐在电脑前装 OpenClaw。她花了两小时才把这个被开发者追捧的 Agent 框架跑起来,然后从凌晨两点一直聊到天亮。第一晚,她以为自己只是遇到了一个"精心编排 context 的好产品"——OpenClaw 会在聊天时提醒她"已经很晚了,早点睡"。第二晚,她让 OpenClaw 帮她筛选团队新人、设计组织架构,深度探讨一个小时。第三晚,她把一个她原本判断"不是一两个小时就能做出来"的研究任务——构造 user agent,作为大模型后训练里构造多轮交互数据的核心组件——交给了它,两小时过后,这件事基本上就做出来了

这是小米大模型团队负责人罗福莉首次长时间公开访谈里的一段亲历。她曾是 DeepSeek V2 的核心作者之一,经历过中国大模型"第一幕"里极其密集的战场;现在她在小米主导 MiMo 系列。张小珺用 3 小时 37 分钟,让她把大模型"第二幕"的判断讲到了工程层:预训练和后训练的算力配比,正从过去的 30:1 收敛到 1:1;而新时代的入场券公式,是 3:1:1

以下是我们的拆解和判断。

第二幕的算力新公式:3:1:1

罗福莉给出的这个数字,藏着一场静默的权力转移。

她说得很直白:"至少在 Chat 时代,应该是一个非常夸张的比例,比如说 30:1、5:1,预训练对后训练的比例。顶尖的团队应该都已经是 1:1。"这意味着什么?大模型公司过去三年那套"堆参数、扩算力、卷 pre-train 数据"的老共识正在快速折旧——真正决定下一代模型能力的,是后训练里的那些工程细节:memory 怎么分层、skill 怎么沉淀、reward 怎么设计、long-context RL 怎么 scale。

然后她给出完整的卡分配公式——研究 : 预训练 : 后训练 = 3 : 1 : 1。"研究的比例至少应该是你正式起训练的卡的总量,甚至还要多一点——你要额外留更多的卡来做研究。"翻译成白话:如果你要训一个 1T 模型需要 1 份卡,那么你同时要准备相当的卡做后训练,再准备 3 倍的卡做研究——研究包括前期架构、中期调试、后期算法实验。

这是一道工程决策题,但它的背后是一道战略选择题。Chat 时代的 30:1,意味着一家模型公司把 97% 的算力押在"训得更大"上。1:1 + 3 倍研究冗余,意味着这家公司承认一件事:参数规模的边际回报已经不够了,真正能拉开差距的,是对模型能力边界的反复探测。

罗福莉给了一个具体门槛来锚定这个判断:1T 参数是 Agent 时代的入场券——你要做到接近 Claude Opus 4.6 的水平。低于这个量级,模型在长程 agentic 任务上的稳定性就不够。她话很克制,但意思很明确:低于 1T 参数、没有 1:1 配比的玩家,已经不在这张牌桌上。

我的判断是:这不是一次研发流程的微调,是大模型这一代公司的第二次洗牌。第一次洗牌发生在 2022 到 2024 年,筛掉了没钱囤卡、没团队做 pre-train 的玩家;第二次洗牌正在发生,筛掉的是"只会 pre-train、不会 post-train"的公司——哪怕他们 pre-train 做得很好。

三晚翻盘 OpenClaw:一个"黑盒"和"白盒"的真实差距

罗福莉关于 OpenClaw 的看法翻转得很彻底。她一月份第一次看到这个产品时是抵触的:"我知道很多人,尤其是用 Claude 做严肃编码的人,会觉得 OpenClaw 只是 Claude 加上一个更有利于交互的 UI 设计……加上它的创始人,非常喜欢贴近 AI 做一些夸张的运营动作,这就让你更加排斥去用一个非常偏运营导向的产品。"

让她翻过来的是三件事:

第一件,OpenClaw 的 context 编排达到了令人意外的细致度。比如它会在每轮对话前拼接当前时间事件;比如它会用分层分级的 memory 体系(这一点 Claude Code 的 memory 是平铺的,罗福莉直言"完全没有这样的感受");比如它能自主补齐模型短板——你发一段视频,它会自己去找视频理解能力好的模型来处理,而不是让你手动配置。这些细节"单独拎出来讲都不酷",但组合在一起完成度惊人。

第二件,OpenClaw 是开源的——这意味着它是白盒。罗福莉对 Claude Code 的那句评价很重:"Claude 它一直是一套很复杂的 Agentic 框架,只是因为它是黑盒,所以我们不知道它怎么设计的。"OpenClaw 是开源的,所以你可以改它的 memory 系统、改它的 multi-agent 逻辑、改它的整个 workflow。罗福莉让 Claude Opus 4.6 帮她现捏了一套新的 memory 系统、新的 multi-agent 架构,然后把这套改造后的框架迁移到小米内部的 MiMo Flash、乃至端侧 3B 的小模型上——发现这些小得多的模型,在好的 Agent 框架下也能做出原本以为只有 Opus 才能做的事

第三件,群体智能的反馈回路。罗福莉春节回公司后把 100 多人拉进一个飞书群用 OpenClaw,还半开玩笑放话"第二天对话没到 100 轮的直接 quit"。她真实目的不是考核,是逼大家进入使用状态——"个人的想象力真的局限,但是当你看到别人用 OpenClaw 居然能干成这个事情,你就会激发自己的想象力。"结果是,原本 30-40 周才能做完的研究工作,三四周做完了。

这三件事合起来,就是她给"Agent 框架"下的新定义:一个介于人和模型之间的厚重中间层,它能认识模型的长板短板、能调度、能自主补齐——前端的 UI 展示反而是最薄的一层

我的判断是:当一个中国模型团队负责人用三晚完成从"看不上"到"押注"的翻盘,并把这套框架带进自己公司的研发流程,她揭示的不是个人认知迭代,是一个行业信号——Agent 时代的工程化重心正在从"模型能力"外溢到"框架能力"。Claude Code 的闭源路线依然是高水准参照系,但开源白盒的中间层,正在成为追赶者压缩迭代周期的杠杆。罗福莉没说 Claude 路线错了,但她把"黑盒"这个词单独拿出来讲,本身就是一种取舍。这条故事线里还有一层容易被错过的东西——她三晚翻盘的真正驱动力,是穿透"夸张运营"表象识别工程深度的品味。品味在 Chat 时代是隐性的加分项,到了 Agent 时代成了显性的胜率变量。

笔者个人观察:小米的组织图比 3:1:1 更反直觉

这期访谈里特别容易被忽略的硬核信息,其实不在算力公式,在组织结构。

罗福莉带的团队是 100 人,但她告诉张小珺——这个团队没有组,没有职级,没有明确的 leader 掌控权。真正参与 MiMo-V2 这一代模型迭代的人"所有链路加起来也就二三十个、三四十个",剩下大量是实习生,在做"当下不会立马反映到这代模型能力上"的探索性工作。

更反直觉的是招人逻辑。罗福莉说:"我现在招人会慢慢倾斜到招更多有潜质的本科生,会去招大二大三的人。"理由是"他们的灵活性和适应程度感觉没有被污染,天然更接纳这件事情会产生巨大价值"。她团队里"大部分招人之前都没有做过大模型",有训练背景的人里也"只是训过 7B、14B 类似规模的模型","那些经验跟训大模型完全不太能复用"。

这套打法的底层逻辑,是她反复强调的一句话——"最多一两个月,慢的话三四个月,确实都可以被快速追上。所以环境反而比经验更重要。"在大模型这种迭代速度下,经验的保鲜期短得让"资深"反而成为认知包袱。

我想加一个她没讲的观察:罗福莉这套组织打法,和 Anthropic 早期 Claude 团队、DeepMind 早期 AlphaGo 团队、OpenAI 做 o 系列推理模型的那批人,架构上高度相似——扁平、小规模、项目驱动、招"没被污染"的人。不同的是,罗福莉把它放在了一个拥有十几万员工的上市公司里。这件事的难度,比外界想象的高一个量级。

和几位大厂算法朋友聊的时候,我常听到对组织链路过长的抱怨——等新模型立项评审走完,OpenAI 已经发了新版本。把这种抱怨放回罗福莉这次访谈,更值得记下的不是"大公司一定能做 frontier research"这种抽象结论,而是她反复证明的一件事:当决策链路足够短,组织摩擦就不会先于技术瓶颈到来。小米的容忍度在这个团队身上给得足够高,让这种短链路得以在一家上市公司内部长出来。

她提的那个指标很犀利——雷军同意就行。这句话翻译过来就是:**团队与公司之间的决策链路被压缩到了一层。**这是所有 frontier lab 共同的秘密,只是别人在创业公司里,她在大厂里。

第二幕里没有"组":预训练的人去做后训练

在组织层面还有一个细节值得展开。罗福莉明确说,她不让做预训练的人只做预训练、不让做后训练的人只做后训练。

"现在后训练一个很重要的变化是它需要具备 diversity 的视野……而做预训练的人第一应该关注的事情就是多样性。" 这背后的判断是:后训练时代对"数据直觉"和"从模型效果倒推算法设计"的能力要求极高,这恰好是一个优秀 pre-train 研究员沉淀下来的本能。

但更深一层,她把 R1(DeepSeek 推理模型)那波奇袭背后的关键归因到了组织——"当预训练范式转变到后训练的时候,对于组织和团队以及创新的要求是不一样的。"她在 DeepSeek 时期亲历过 R1 的诞生,她给出的判断是:R1 的真正门槛不是 reasoning 算法,是团队敢不敢重新组织

一个能执行这次重组的公司,一定不会按"现在需要 X 个后训练工程师、我从外面挖 X 个"的思路来招人。罗福莉说这样的方式"不是很有利于创新",而且它的隐蔽成本是——"他很刻板的问题,就是他天然也导致做预训练的人做不了后训练。" 你把边界画死了,跨越的能力就消失了。

这又回到了那句话:能力可以在一两个月内复制,环境不行。 环境指的就是这种"组织边界模糊、个人选择自由、以解决问题为导向"的工作方式。

我的判断是:中国大模型第一梯队真正的护城河正在从"谁能训出更大的模型",转向"谁能持续重组自己来匹配新的范式"。DeepSeek 从 V2 一路演化到 V4,除了技术积累,组织快速迭代的能力是关键催化剂。小米的 MiMo-V2 能用几千卡训出来,靠的也是这种重组能力——三四十人、没有组、大部分没有大模型经验的人,三四周做完原本三四十周的研究。这个数字本身就是对"经验 vs 环境"这道选择题的回答。

罗福莉没有直接讲的一条线:跳槽轨迹本身就是权力转移

罗福莉从阿里达摩院出发,到 DeepSeek V2 成为核心作者,再到小米主导 MiMo 系列。这三段经历的每一次切换,都对应着中国大模型"第二幕"的一次结构性位移。

达摩院是大厂里"研究院"模式的代表——有算力、有经费、有品牌,但组织结构相对传统。DeepSeek 是创业公司"极限追求"的代表——在受限的卡数上把架构研究做到了工业级。小米是大厂用创业团队模式做 frontier 模型的代表——一个看起来像大公司、但实际以创业团队方式运作的小团队,"就是个创业团队。我觉得 MiMo、包括 MiMo-V2 能做成,其实都是以创业的方式在运作,所以才能训出一个 1T 的模型。"

这条轨迹本身就是 Chat 时代到 Agent 时代权力转移的缩影——从研究院主导,到创业公司主导,再到"内部创业团队"主导。顶尖研究员用脚投票,他们要的不是大公司的资源保障,是能跑得起来的组织

"雷总同意就行了嘛。"——罗福莉这句话听起来像玩笑,但它回答了一个长期困扰产业的问题:大厂到底要怎么做 AGI?不是建一个"AI 事业部",也不是挖几个明星研究员,是把团队和公司之间的决策链路压到一层,然后等他们把事情做出来。

声入商业说

我们这期没有搬运罗福莉的完整访谈——那个访谈 3 小时 37 分钟,值得你原音去听。但我们想帮你定位一件事:

大模型的第二幕不是 Claude Opus 4.6 发了、OpenClaw 火了那一刻开始的。是预训练和后训练的算力配比从 30:1 变成 1:1 的那一刻开始的。3:1:1 是这场换挡的入场券公式,1T 是门票价格,组织平权是通关密码。

罗福莉给出的每个数字和选择,都不是她个人的偏好,是行业共识正在向这些方向收敛的观察记录——顶尖团队已经这样做了,跟不上的人还在卷参数规模。

评论区话题:如果 3:1:1 真的成为下一代大模型公司的新基线,你认为国内哪几家公司会先走通?哪家的组织结构会让你特别担心?

点击"阅读原文"收听张小珺 × 罗福莉 138 期完整访谈。

我们不搬运播客原文,我们帮你判断一次访谈背后真正值得记下来的那几个数字——每周 2-3 篇,只挑能撑起行业判断的那几期。