对谢赛宁的7小时马拉松访谈：世界模型、逃出硅谷、AMI Labs、两次拒绝Ilya、杨立昆、李飞飞和42 (2026-03-16)

A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, and 42 (2026-03-16, gemini-2.5-pro)

1. 导读

在大型语言模型（LLM）似乎已成为人工智能唯一叙事的当下，这期与谢赛宁的深度对话提供了一个珍贵且极具挑战性的异见。作为计算机视觉领域（ResNeXt, MoCo, DiT 的作者之一）过去十年无法绕开的关键人物，谢赛宁刚刚与图灵奖得主 Yann LeCun 联手创办了备受瞩目的 AMI Labs。这场对话恰逢其时，它不仅揭示了一位顶级研究者从学术新星到产业核心的完整心路，更重要的是，它系统性地阐述了为何当前主流的 LLM 范式可能只是通往真正智能的“岔路”，而一条以视觉和物理世界预测为核心的“世界模型”路径，或许才是更根本的方向。

这场对话的价值在于，它迫使我们重新审视那些已被行业默认为公理的假设——例如 Scaling Law 的普适性，以及语言作为智能基石的地位。谢赛宁以其贯穿始终的职业选择（两次拒绝 OpenAI、离开巅峰期的 FAIR），为他的技术判断提供了最坦诚的背书。对于任何试图在 AI 领域进行长期决策的研究者、创业者或投资人而言，这篇访谈提供了一个高分辨率的“少数派报告”。它提出的问题是：当所有人都冲向语言的“金矿”时，那个被忽视的、关于真实世界的“硬骨头”，是否才是通往未来的真正钥匙？

2. 核心观点

谢赛宁的核心世界观是：通往通用人工智能（AGI）的基石是能够预测物理世界、具备层级化结构的“世界模型”（World Model），而当前甚嚣尘上的大型语言模型（LLM）只是一种强大的、服务于人类交流的“工具”或“接口”，而非智能的根基。这一观点之所以充满争议，是因为它直接挑战了过去数年由 OpenAI 等机构验证并被全行业奉为圭臬的 LLM 缩放定律（Scaling Law）和“语言中心主义”叙事。他认为，过度依赖语言这个人类为交流而发明的“快捷方式”，会让 AI 系统失去对真实世界连续、高维、嘈杂信号的根本理解能力，从而永远无法获得真正的自主智能。他与 Yann LeCun 创办 AMI Labs，正是将这一看似“反共识”的判断付诸实践的豪赌。

判断一：真正的研究突破源于非线性的探索，而非对既定目标的线性执行。 谢赛宁反复强调，他最好的工作，如在 Meta（FAIR）期间参与的 ResNeXt 和在 NYU 期间主导的 DiT，都诞生于项目前期的迷茫和失败，最终在最后时刻“灵光一现”才找到正确方向。他将这种方法论归功于何恺明的教导：研究的本质是寻找一个“梯度”或“信号”，而非执行一个预设的想法。一个从头到尾都与初始设想完全一致的项目，反而是“最无聊的”。这种“非线性”的探索模式，与当下大公司追求在既定赛道（如 LLM 榜单）上进行资源密集型竞争的“有限游戏”（finite game）形成鲜明对比，后者会扼杀定义新问题的能力，这也是他离开大公司体系的核心原因之一。

判断二：大型语言模型是“聪明的捷径”，但可能阻碍通往真实智能的道路。 谢赛宁将语言形容为一种“鸦片”或“拐杖”——它非常有用，能迅速提升模型表现，但过度依赖会使系统丧失构建更底层世界理解力的机会。他认为，语言本身是人类文明为高效沟通而高度提炼、编码后的产物，充满了人类的先验知识和结构偏见，这与 Rich Sutton 提出的“苦涩教训”（The Bitter Lesson）——即应最小化人类知识注入，最大化通用计算——的精神背道而驰。一个只靠语言学习的 AI，就像柏拉图洞穴里的囚徒，只能通过影子的描述间接理解世界，却从未直面真实。他两次拒绝 Ilya Sutskever 的邀请，第二次的根本分歧点就在于他无法认同视觉问题“已基本解决”的判断。

判断三：世界模型的核心是“预测性大脑”，而非“世界模拟器”。 谢赛宁明确区分了两种“世界模型”。一类是以 Sora 为代表的“世界模拟器”（World Simulator），其目标是生成高保真、长时序、符合物理常识的视频，本质上是为人类感官服务。另一类则是他与 LeCun 追求的“预测性大脑”（Predictive Brain），其核心是在一个抽象的、高维的表示空间（Representation Space）中对世界的状态变迁进行预测。这个大脑不以生成逼真像素为首要目标，而是为了让智能体理解行为与后果的因果关系，从而进行规划和推理。他认为，Sora 使用了他的 DiT 架构固然是巨大认可，但它仍停留在“模拟器”层面，而真正的突破在于构建那个能进行预测的、不依赖像素生成的“大脑”本身。

判断四：表征学习（Representation Learning）是构建智能的根本，贯穿所有任务。 从博士论文到 FAIR 的自监督学习工作（MoCo, MAE），再到 AMI Labs 的目标，谢赛宁的研究主线从未偏离“表征学习”。他用“树根与枝叶”来比喻：一个好的、层级化的表征是树根，而各种下游任务（分类、检测、生成）只是枝叶。有了强大的树根，枝叶的生长将水到渠成。他最新的工作如 RAE（Representation Autoencoder）试图证明，无论是理解任务还是生成任务，都应该构建在一个统一且强大的表征基础之上。未来的智能系统，LLM 将退化为一个“通信接口”，像素生成器是一个“渲染接口”，而核心驱动力是这个统一的、学习自多模态感官数据的世界表征。

判断五：事业的轨迹由“与谁同行”定义，而非机构的光环。 谢赛宁将自己的成长高度归因于与关键人物的合作。从本科时追随学长侯晓迪的脚步，到博士期间选择导师而非学校（从 UCLA 跟随屠卓文到 UCSD），再到为了何恺明等人选择 FAIR，最终与 Yann LeCun 联手创业。他认为，顶尖人才之间存在一种思想上的“引力场”，能相互激发、放大彼此的能力。这种“以人为本”的选择逻辑，解释了他看似“随性”甚至“无序”的职业决策背后的一致性，也体现了他对研究作为一种“智力共同体活动”的深刻理解。

这五个观点构成了一个完整的逻辑链条：对研究方法论（判断一）的信念，使他能独立于主流，形成对 LLM 的批判性视角（判断二）；这一视角引导他走向了“世界模型”这一更根本的命题（判断三），并将技术路径聚焦于他一直坚持的表征学习（判断四）；而实现这一切的组织原则，则是与思想同频的人构建高信任度的共同体（判断五）。

3. 批判与质疑

谢赛宁构建的这套以“视觉优先、世界模型为核心”的论述体系，既有深刻的洞见，也存在一些亟待验证的关键前提和被选择性忽视的风险。

锐见之处：他最大的贡献是清晰地指出了当前 LLM 范式的“原罪”——它本质上是一个基于人类符号系统的“有监督”学习过程，而非真正从零开始的自监督学习。这解释了为何 LLM 在符号推理上表现卓越，但在物理常识和真实世界互动上步履维艰。他将“世界模型”从一个模糊的概念拆解为“世界模拟器”和“预测性大脑”，为行业思考其技术路径提供了更精确的语言。

前提的脆弱性：整个论述体系的基石，是“基于视觉和感官数据的世界模型，其扩展性最终将超越 LLM”这一核心信念。然而，LLM 通过海量数据和计算展现出的强大“涌现”能力，正在不断蚕食传统上被认为是视觉和具身智能专属的领域。如果 LLM 能够通过对海量文本和视频 Token 的学习，间接但“足够好”地掌握物理世界模型，那么谢赛宁所追求的更为“根本”和“优雅”的路径，可能会在工程上被“暴力美学”所超越。他的论证依赖于 LLM 的能力存在一个无法逾越的“天花板”，但这块天花板的位置和坚固程度目前仍是未知的。

被忽视的风险：

数据困境：他提出的“下载人性（Download Humanity）”——即通过海量第一人称视频来训练世界模型——面临着比训练 LLM 更严峻的数据获取、隐私和版权挑战。这是一个巨大的工程和法律瓶颈，对话中对此一笔带过，但它可能是整个愿景的“阿喀琉斯之踵”。
商业化路径模糊：相比于 LLM 能迅速落地的聊天机器人、内容创作等应用，“预测性大脑”的“杀手级应用”是什么？对话中提到了机器人和 AR 眼镜，但这都是周期漫长且不确定性极高的领域。在获得商业正反馈之前，这种纯粹由愿景驱动的研发能维持多久，是一个巨大的商业风险。

悬而未决的问题：对话结束时，最核心的问题依然悬置——世界模型的“Scaling Law”是什么？ 我们知道 LLM 如何通过增加数据、参数和计算来稳定地提升性能，但对于一个以预测为核心、在抽象表示空间中运行的世界模型，其性能与资源投入之间遵循何种规律？训练这样一个模型需要什么样的数据配比、多大的模型规模、以及什么样的目标函数？在找到这个问题的答案之前，谢赛宁的愿景更像是一种科学哲学上的指引，而非一条清晰可行的工程蓝图。

4. 行业视野

这场对话为我们提供了一个精确的坐标，来定位当前 AI 领域的“范式之争”。

它代表了以 Yann LeCun 为旗手的 “模型-基础”（Model-Based）或“认知架构”学派 对主流 “模型-无关”（Model-Free）的暴力缩放学派 一次系统性的反击。前者认为智能需要一个内在的世界模型来进行预测和规划，强调架构的精巧设计（如 JEPA）；后者则相信，足够大的神经网络和数据可以通过端到端的学习，隐式地学到一切，无需显式构建世界模型。这不仅是技术路线之争，更是对“智能”本质的不同哲学诠释。

这场对话印证了一个正在发生的趋势：顶尖 AI 人才正在从资源雄厚但日益僵化的大公司（“有限游戏”的玩家）中“出逃”，组建新型研究机构（如 AMI Labs, SSI, Sakana AI），试图重新夺回定义问题的权利。这标志着 AI 创新的重心可能正在从少数几个巨头，向一个更加多元化、由顶尖科学家主导的“后大公司时代”转移。

同时，它也挑战了一个根深蒂固的共识：即 AGI 将首先在数字世界（语言）中诞生，然后延伸到物理世界。谢赛宁和 LeCun 的观点恰恰相反，他们认为，不首先解决与物理世界交互的“松鼠智能”，就不可能拥有能写代码、上火星的“人类智能”。这要求行业重新评估具身智能和机器人在通往 AGI 路径上的权重。

最后，这场对话与一段值得警惕的历史形成了呼应。在深度学习革命之前，符号主义 AI 也曾因其在逻辑推理上的优雅和成功而占据主导地位，但最终被能够处理原始、嘈杂数据的连接主义所颠覆。今天，LLM 在符号处理上的巨大成功，与当年有几分相似。谢赛宁的“世界模型”论，本质上是在呼吁一种“更彻底的连接主义”——一种直接从感官数据中学习世界动态，而不仅仅是学习符号之间关联的范式。历史是否会再次上演“蛮力战胜优雅”的剧本，将是未来几年 AI 领域最激动人心的看点。

5. 启示与建议

这场对话的核心价值在于，它系统性地挑战了“LLM 是通往 AGI 的唯一高速公路”这一默认假设，并提供了一套逻辑自洽的替代方案。

值得重新审视的假设：

智能的核心是语言推理吗？ 对话促使我们反思，智能的核心或许不是处理符号的能力，而是预测物理世界动态的能力。语言只是这一核心能力的高级“用户界面”。
Scaling Law 是万能的吗？ 苦涩教训（The Bitter Lesson）是否被误读了？或许真正的“苦涩”之处不在于放弃所有人类知识，而在于认识到“语言”本身就是最大的人类先验知识，而我们需要一个能超越它的学习范式。

给不同角色的建议：

对于 AI 研究者与学生：
1. 寻找大公司无法解决的问题。 与其在 LLM 的榜单上用“花生米般的资源”进行追赶，不如思考哪些问题因为大公司的组织结构（追求短期产品迭代的“有限游戏”）而被系统性地忽视了。例如，需要长期、非线性探索的 foundational model 研究，或者对视频理解等“脏活累活”的深入挖掘。
2. 将“研究品味”作为核心竞争力。 学会像何恺明那样，将建立一个强大的、可复现的基线（Baseline）作为研究的起点，而不是满足于在一个弱基线上做出微小改进。同时，训练自己识别问题的核心矛盾、清晰地讲述研究故事的能力，这比单纯堆砌实验更重要。
对于 AI 创业者与创始人：
1. 在“反共识”中寻找差异化机会。 如果你的创业项目仅仅是 LLM 价值链上的一个应用，你将永远活在巨头的阴影下。谢赛宁和 LeCun 的实践表明，围绕一个根本性的、与主流不同的技术信仰来构建公司，是创造长期价值和护城河的可能路径，尤其是在机器人、具身智能等 LLM 尚未完全渗透的领域。
2. “人”是你唯一的壁垒。 在 AI 时代，算法和数据可能快速趋同，但由顶尖人才组成的、拥有独特文化和共同使命的团队是无法被轻易复制的。谢赛宁的经历证明，吸引和留住那些“因人而来”的核心成员，比获得更高的短期估值更为关键。

结论的强弱信号判断： 这场对话中，关于当前 LLM 范式的局限性、以及大公司研究文化弊病的批判，是基于大量一线观察的强信号，值得高度重视。然而，关于 “预测性大脑”作为替代路径一定能成功、并将在商业上胜出 的论断，目前仍属于基于深刻洞察的合理推断，其可行性仍有待他们用未来几年的工作来证明。在评估其观点时，应认识到这种推断的风险和不确定性。

6. 金句摘录

“Don’t think that if you don’t do this someone else will do it. Instead think: if you don’t do this this thing will never happen in this world.”
- 中译： 不要认为，这件事你不做，别人也会做。你要想的是，这件事如果你不做，它就永远不会在这个世界上发生。
- 语境： 在讨论个人在科研中的独特性时，谢赛宁提出的世界观。他认为每个人的生活经历、知识背景和基因都是独一无二的，因此他们所能创造的东西也是独一无二的，这是一种鼓励原创和勇于承担的积极心态。
“the worst kind of research? It’s when you define a problem at the start…and in the end publish a paper whose idea is exactly the same as what you started with.”
- 中译： 最差的研究是什么？就是你一开始定义了一个问题……最后发表的论文，它的想法和你最初的设想一模一样。
- 语境： 在分享从何恺明那里学到的研究方法论时，谢赛宁指出，好的研究是一个充满意外和曲折的探索过程，而不是一个对初始想法的线性验证。一个一帆风顺的研究项目，恰恰说明它的想法可能是平庸的。
“I wanted to see what people at Google were doing, so I would know what not to do in academia.”
- 中译： 我想去看看谷歌的人在做什么，这样我就知道在学术界不应该做什么了。
- 语境： 解释他为何在 NYU 期间选择去谷歌兼职。这并非简单的学习，而是一种差异化竞争策略——通过了解产业界巨头重兵投入的方向，来为资源有限的学术界找到可以规避竞争、进行更具探索性研究的领域。
“Language is a poison or language is actually an opiate. You add more language you’ll always feel happier.”
- 中译： 语言是一种毒药，或者说语言其实是一种鸦片。你加入越多的语言，你总是会感觉越快乐。
- 语境： 在批判过度依赖 LLM 的倾向时，谢赛宁用了一个极具冲击力的比喻。他认为语言能轻易提升模型表现，就像鸦片能带来即时快感，但这会掩盖模型在真实世界理解能力上的根本缺陷，并使研究者对这种“捷径”产生依赖。