总结 (Kimi K2 5)

A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, and 42 (2026-03-16, kimi-k2.5)

1. 导读

当全球资本与算力仍押注于大型语言模型的Scaling Law时，一位曾开创ResNeXt、MoCo、MAE与DiT等里程碑工作的研究者正从纽约布鲁克林的一栋老旧楼房里发出不同声音。谢赛宁——这位两次拒绝Ilya Sutskever邀请、后又与图灵奖得主Yann LeCun共同创立AMI Labs的“非典型“科学家——正试图证明：当前以LLM为核心的AI路径仅是“用语言的拐杖行走“，真正的通用智能必须建立在对物理世界状态进行预测的“世界模型“之上。在2026年春节中国机器人登上春晚的同一天，这场横跨七小时的对话不仅关乎下一代AI架构的路线之争，更揭示了当学术界被OpenAI的军备竞赛裹挟时，研究者如何通过“非线性探索“重新定义问题的本质。然而，他押注的这场“underdog“创业，究竟是通往AGI的必由之路，还是又一次对旧日深度学习荣光的怀旧？

2. 核心观点

谢赛宁的核心世界观具有一种鲜明的“反共识“张力：他认为当前AI行业正被一种“有限游戏“心态绑架——即追求榜单排名、算力军备竞赛与短期产品化——而真正的智能突破只能来自“无限游戏“式的长期探索。其论述锋芒直指一个尚未被证伪的激进判断：以Transformer为基础的大型语言模型（LLM）本质上是“Word Model“（词模型）而非“World Model“（世界模型），它处理的是人类对物理世界进行高度压缩后的符号表示（语言），因而无法理解连续性、因果性与物理动态。若此判断成立，则过去五年以LLM为核心的AI产业化路径可能仅是通往通用智能的一条歧路。

关键判断一：LLM是“Word Model“，无法成为通用智能的基石。 谢赛宁断言，LLM的致命局限在于其输入空间——语言是人类为沟通而设计的离散符号系统，本质是对物理现实的“有损压缩“。“Language is a communication tool, not a thinking map”，当LLM处理“杯子掉落破碎“时，它只能基于统计关联预测下一个token，而非理解重力、材质与破碎动力学之间的因果链。这一观点得到Yann LeCun与Richard Sutton的呼应：前者坚持JEPA（Joint Embedding Predictive Architecture）架构，后者认为“squirrel intelligence“（在真实世界生存的智能）比解题智能更难。其底层逻辑在于，智能的本质是预测世界状态转移（F=ma），而非预测下一个单词。

关键判断二：世界模型是目标而非具体技术，当前所有路径（包括DiT、JEPA、3D生成）均只是朝着该目标的探索。 谢赛宁拒绝将世界模型简化为单一算法（如视频生成模型），而是将其定义为具备四大特征的认知架构：对物理世界的理解、大规模联想记忆、因果推理与规划能力、以及可控安全性。无论是Sora（视频生成）、World Labs（3D表示）还是AMI Labs即将发布的Solaris模型，都只是“世界模型“这一终极概念的局部逼近。其逻辑链条在于，从视觉切入的世界模型必须处理连续、高维、嘈杂的信号（continuous, high-dimensional, noisy signals），这与语言模型的离散token空间存在本质差异。

关键判断三：AI研究已丧失“定义问题“的能力，陷入“锦标赛“式的有限游戏。 谢赛宁尖锐指出，ChatGPT后的行业生态已将学术界拖入一场“finite game“——研究者被迫在LLM Arena等榜单上竞争，用“花生级的算力“复现工业界闭源模型，而非探索根本性的新问题。他以自身在Google的观察为例：当研究者花费一年完成Representation Alignment（REPA）论文时，公司内部团队因产品交付压力（“product cycle one, two, three”）被迫放弃同类探索。其底层逻辑是，资源分配已被AGI叙事与Scaling Law锁定，导致“视频理解“等关键问题被边缘化，仅被视为“视频生成“的附属品。

关键判断四：表示学习（Representation Learning）是智能的核心，且视觉表示必须“不怕高维“。 贯穿其学术生涯的主线是“表示学习“——从Deeply Supervised Nets到DiT，他始终坚信智能的根源在于学习好的表征（latent representation）。他引用香港大学马毅教授的观点：高维空间是机器学习的基石，许多在低维无法解决的问题在高维空间中线性可分。这一判断直接挑战当前VAE（低维隐空间）的主流范式，主张视觉表示应保持足够高的维度以捕捉物理世界的丰富细节，而非强行压缩至语言模型的低维语义空间。

关键判断五：真正的研究是“非线性“的，最佳创新来自混乱探索而非线性规划。 谢赛宁以自身经历（ResNeXt、MAE、DiT均是在截止日期前一个月突然 pivot 方向而成功）论证：好的研究遵循“随机梯度下降“模式——研究者应在两个月探索期内“像黑客一样折腾“（hacking），通过失败实验捕捉信号（gradient），而非预设路径。他提出“研究是无限游戏“：与象棋（输一步即输全局）不同，研究者“一生只需成功一次“（optimize for the maximum, not the average）。

这些判断构成一条严密的逻辑链：LLM因语言本质无法建模物理世界→必须构建世界模型→这需要新的表示学习范式（高维、连续、视觉优先）→但当前行业锦标赛机制抑制此类探索→因此必须回归非线性的、反共识的研究方法论。

3. 批判与质疑

谢赛宁的论述体系建立在若干尚未被充分验证的前提之上。首先，“LLM无法理解物理因果“这一命题仍属哲学推断而非技术定论。尽管他引用Wittgenstein后期“语言游戏“理论批判语言决定论，但多模态统一模型（如GPT-4o、Gemini 2.0）是否可能通过规模效应（test-time compute scaling）从符号操作中 emergently 出物理直觉，尚未被证伪。若OpenAI的o-series或deep research已能通过工具使用与推理链模拟因果，则“必须抛弃语言从头构建世界模型“的论断将失去紧迫性。

其次，“世界模型“的技术路径存在严重模糊性。谢赛宁承认JEPA仅是“广阔的海洋“而非具体算法，但AMI Labs尚未展示可规模化训练的架构细节。更严重的是，数据瓶颈被有意淡化。他指出训练世界模型需要“下载人类”（downloading humanity）——即远超LLM 30万亿token量级的视频与感官数据，但YouTube等平台的版权封锁（“cat-and-mouse dynamic”）与数据清洗成本可能构成比算法更硬的约束。若无法解决数据获取的合法性（如ByteDance的内部优势不可复制），其技术路线可能面临“无米之炊“。

第三，其对“有限游戏“的批判可能低估了工业界研究的复杂性。尽管他观察到Google内部因产品压力放弃REPA类研究，但这也可能反映了另一种理性：在资源受限条件下，集中算力于可商品化的LLM是帕累托最优，而分散探索世界模型可能陷入“ everything and nothing “的陷阱。此外，他两次拒绝Ilya Sutskever的邀请（2018年与2024年）是否构成选择性偏差？若SSI（Safe Superintelligence）最终通过“scaling love“或新的架构突破证明LLM路径的可扩展性，则谢赛宁的“逃出生天“叙事可能被视为过早的逃离。

悬而未决的核心问题在于：世界模型与LLM究竟是替代关系（如他所暗示的“LLM将fade away“）还是共生关系（LLM作为世界模型的通信接口）？若后者成立，则AMI Labs的“反LLM“立场可能使其错失与主流生态（如机器人领域的VLA模型）协同进化的机会。

4. 行业视野

这场对话正处于AI范式转移的临界点上。谢赛宁与LeCun的结盟，标志着**“纽约学派“对硅谷中心主义的挑战**——后者被描述为“被LLM催眠的泡沫”，而前者则依托NYU的跨学科传统与Dumbo区的艺术氛围，试图重建一种“研究优先于产品“的文化。这与2010年代初期深度学习崛起时的历史形成微妙呼应：当时LeCun等“连接主义者“正是通过坚守神经网络，对抗符号AI的寒冬，最终因AlexNet而翻盘。如今，谢赛宁团队再次扮演“underdog“角色，对抗以OpenAI、DeepMind为代表的“Scaling Law原教旨主义“。

在行业坐标上，AMI Labs的位置极为特殊：它既非纯粹的学术机构（如FAIR早期），也非封闭的产品公司（如当前OpenAI），而是一种**“ neo-lab “**——拥有十亿美元级融资的初创公司，却坚持开源与论文发表。这种模式试图在“研究自由“与“工程落地“之间寻找平衡点，与Hugging Face、Black Forest Labs（Stable Diffusion原团队）形成纽约特有的AI生态。然而，这也使其面临身份危机：当谢赛宁批评Google无法容忍长期研究时，他自己是否能在资本压力下避免重蹈覆辙？

更深层的张力在于**“表示学习“与“生成模型“的路线之争**。谢赛宁认为DiT（Diffusion Transformer）与REPA仅是“世界模型“的铺垫，而Runway、Pika等公司将视频生成视为终极目标。这种分歧本质上是**“理解优先“vs“模拟优先”**的哲学差异：前者追求内部表征与物理世界的同构（JEPA），后者追求像素级渲染的逼真（World Simulator）。随着Sora与Seedance等模型展现出更强的物理一致性，两条路径可能在未来两年发生激烈碰撞或融合。

5. 启示与建议

这场对话挑战了两个根深蒂固的假设：第一，LLM的Scaling Law可平滑延伸至AGI；第二，AI研究的“锦标赛“机制（benchmark竞争）能有效筛选创新。它强化了以下假设：表示学习是比架构搜索更根本的问题；物理世界（机器人、可穿戴设备）是AI的下一个主战场；以及“第二半预训练“（视觉/世界模型预训练）将诞生新的巨头。

对于AI研究者：放弃“追赶最前沿“的幻觉，重新定义问题的North Star。具体建议：（1）建立“非线性研究流程“——为每个项目预留两个月“混乱探索期“，允许在截止前一个月彻底更换方向，关注“实验失败给出的梯度信号“而非预设假设；（2）警惕“语言污染“（language contamination），在Multimodal研究中优先探索视觉本身的层次化表征（如Cambrian项目所示），而非简单将视觉作为LLM的上下文。

对于创业者与投资人：寻找“LLM的第二半预训练“机会，但警惕数据陷阱。具体建议：（1）若进入具身智能或AI Agent领域，避免仅做应用层（如VLA微调），而应投资于原始感官数据的表示学习（如未被充分挖掘的连续信号建模）；（2）将数据获取视为核心竞争力——提前布局合成数据（synthetic data）管线或独家物理世界数据源，规避YouTube等平台的内容封锁风险；（3）容忍“无产品“的长期研究周期（3-5年），避免被“产品-市场契合“（PMF）的短期压力过早收编。

信号强度提示：世界模型作为长期目标（强信号，来自LeCun/Sutton/谢赛宁的共识）；JEPA或DiT作为具体实现路径（合理推断，尚未经超大规模验证）；LLM将“fade away“（争议性推断，高度依赖世界模型的技术突破速度）；纽约取代硅谷成为AI研究中心（强信号，但限于特定细分领域）。

6. 金句摘录

“But wherever there is love, there must also be hate. They’re two sides of the same coin.” （关于AI的“爱“与安全性困境）语境：谢赛宁回忆与Ilya Sutskever第二次通话时，对方提出“如何让AI具备爱的能力“。他指出，若AI学会爱，必然理解恨，这是智能不可分割的暗面。此句揭示了技术乐观主义者常回避的伦理悖论。

“I gained the courage to be disliked.” （关于学术独立人格）语境：谈及为何此前拒绝所有播客邀请，他引用《被讨厌的勇气》概念，表示随着年岁增长，他不再追求被所有人认可，而是坚持“做自己想做的事“——这种心态最终促使他拒绝OpenAI的橄榄枝，选择与LeCun走上更具争议的创业路。

“LLMs are far from embodying The Bitter Lesson… Language is an extremely clever product of humans. It’s not a question of more or less, it all is [human knowledge].” （LLM反“苦涩教训“论）语境：他批判业界将Scaling Law等同于“The Bitter Lesson“（即应最小化人类先验知识）。他指出，语言本身就是人类高度设计的“先验结构“，LLM依赖语言本质上是依赖人类归纳后的压缩表示，这与“直接从数据学习“的Bitter Lesson精神相悖。

“The purpose of publishing a paper isn’t for others to see it, but so that after others see the paper, they have something to work on. It’s about helping others.” （研究的本质）语境：区别于“影响因子“（impact）的功利叙事，他引用Hannah Arendt的“被理解“（being understood）概念，将论文视为知识传递的载体。这解释了他为何反感“Xie Saining’s team“的署名方式，坚持突出年轻一作——研究应创造“家族感“（sense of family）而非个人光环。

“Research is the infinite game… You only need to succeed once in your lifetime.” （研究与“有限游戏“）语境：对比象棋（finite game，一步错满盘输）与发明家（infinite game），他提出研究者应优化“最大值“而非平均值。这一哲学直接支撑其创业决策：在资源受限的初创公司中，允许长期探索失败，以换取一次可能定义新时代（如ResNet级）的突破。