Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, and 42 (2026-03-16, gemini-2.5-pro)

1. 导读

在大型语言模型(LLM)似乎已成为人工智能唯一叙事的当下,这期与谢赛宁的深度对话提供了一个珍贵且极具挑战性的异见。作为计算机视觉领域(ResNeXt, MoCo, DiT 的作者之一)过去十年无法绕开的关键人物,谢赛宁刚刚与图灵奖得主 Yann LeCun 联手创办了备受瞩目的 AMI Labs。这场对话恰逢其时,它不仅揭示了一位顶级研究者从学术新星到产业核心的完整心路,更重要的是,它系统性地阐述了为何当前主流的 LLM 范式可能只是通往真正智能的“岔路”,而一条以视觉和物理世界预测为核心的“世界模型”路径,或许才是更根本的方向。

这场对话的价值在于,它迫使我们重新审视那些已被行业默认为公理的假设——例如 Scaling Law 的普适性,以及语言作为智能基石的地位。谢赛宁以其贯穿始终的职业选择(两次拒绝 OpenAI、离开巅峰期的 FAIR),为他的技术判断提供了最坦诚的背书。对于任何试图在 AI 领域进行长期决策的研究者、创业者或投资人而言,这篇访谈提供了一个高分辨率的“少数派报告”。它提出的问题是:当所有人都冲向语言的“金矿”时,那个被忽视的、关于真实世界的“硬骨头”,是否才是通往未来的真正钥匙?

2. 核心观点

谢赛宁的核心世界观是:通往通用人工智能(AGI)的基石是能够预测物理世界、具备层级化结构的“世界模型”(World Model),而当前甚嚣尘上的大型语言模型(LLM)只是一种强大的、服务于人类交流的“工具”或“接口”,而非智能的根基。 这一观点之所以充满争议,是因为它直接挑战了过去数年由 OpenAI 等机构验证并被全行业奉为圭臬的 LLM 缩放定律(Scaling Law)和“语言中心主义”叙事。他认为,过度依赖语言这个人类为交流而发明的“快捷方式”,会让 AI 系统失去对真实世界连续、高维、嘈杂信号的根本理解能力,从而永远无法获得真正的自主智能。他与 Yann LeCun 创办 AMI Labs,正是将这一看似“反共识”的判断付诸实践的豪赌。

判断一:真正的研究突破源于非线性的探索,而非对既定目标的线性执行。 谢赛宁反复强调,他最好的工作,如在 Meta(FAIR)期间参与的 ResNeXt 和在 NYU 期间主导的 DiT,都诞生于项目前期的迷茫和失败,最终在最后时刻“灵光一现”才找到正确方向。他将这种方法论归功于何恺明的教导:研究的本质是寻找一个“梯度”或“信号”,而非执行一个预设的想法。一个从头到尾都与初始设想完全一致的项目,反而是“最无聊的”。这种“非线性”的探索模式,与当下大公司追求在既定赛道(如 LLM 榜单)上进行资源密集型竞争的“有限游戏”(finite game)形成鲜明对比,后者会扼杀定义新问题的能力,这也是他离开大公司体系的核心原因之一。

判断二:大型语言模型是“聪明的捷径”,但可能阻碍通往真实智能的道路。 谢赛宁将语言形容为一种“鸦片”或“拐杖”——它非常有用,能迅速提升模型表现,但过度依赖会使系统丧失构建更底层世界理解力的机会。他认为,语言本身是人类文明为高效沟通而高度提炼、编码后的产物,充满了人类的先验知识和结构偏见,这与 Rich Sutton 提出的“苦涩教训”(The Bitter Lesson)——即应最小化人类知识注入,最大化通用计算——的精神背道而驰。一个只靠语言学习的 AI,就像柏拉图洞穴里的囚徒,只能通过影子的描述间接理解世界,却从未直面真实。他两次拒绝 Ilya Sutskever 的邀请,第二次的根本分歧点就在于他无法认同视觉问题“已基本解决”的判断。

判断三:世界模型的核心是“预测性大脑”,而非“世界模拟器”。 谢赛宁明确区分了两种“世界模型”。一类是以 Sora 为代表的“世界模拟器”(World Simulator),其目标是生成高保真、长时序、符合物理常识的视频,本质上是为人类感官服务。另一类则是他与 LeCun 追求的“预测性大脑”(Predictive Brain),其核心是在一个抽象的、高维的表示空间(Representation Space)中对世界的状态变迁进行预测。这个大脑不以生成逼真像素为首要目标,而是为了让智能体理解行为与后果的因果关系,从而进行规划和推理。他认为,Sora 使用了他的 DiT 架构固然是巨大认可,但它仍停留在“模拟器”层面,而真正的突破在于构建那个能进行预测的、不依赖像素生成的“大脑”本身。

判断四:表征学习(Representation Learning)是构建智能的根本,贯穿所有任务。 从博士论文到 FAIR 的自监督学习工作(MoCo, MAE),再到 AMI Labs 的目标,谢赛宁的研究主线从未偏离“表征学习”。他用“树根与枝叶”来比喻:一个好的、层级化的表征是树根,而各种下游任务(分类、检测、生成)只是枝叶。有了强大的树根,枝叶的生长将水到渠成。他最新的工作如 RAE(Representation Autoencoder)试图证明,无论是理解任务还是生成任务,都应该构建在一个统一且强大的表征基础之上。未来的智能系统,LLM 将退化为一个“通信接口”,像素生成器是一个“渲染接口”,而核心驱动力是这个统一的、学习自多模态感官数据的世界表征。

判断五:事业的轨迹由“与谁同行”定义,而非机构的光环。 谢赛宁将自己的成长高度归因于与关键人物的合作。从本科时追随学长侯晓迪的脚步,到博士期间选择导师而非学校(从 UCLA 跟随屠卓文到 UCSD),再到为了何恺明等人选择 FAIR,最终与 Yann LeCun 联手创业。他认为,顶尖人才之间存在一种思想上的“引力场”,能相互激发、放大彼此的能力。这种“以人为本”的选择逻辑,解释了他看似“随性”甚至“无序”的职业决策背后的一致性,也体现了他对研究作为一种“智力共同体活动”的深刻理解。

这五个观点构成了一个完整的逻辑链条:对研究方法论(判断一)的信念,使他能独立于主流,形成对 LLM 的批判性视角(判断二);这一视角引导他走向了“世界模型”这一更根本的命题(判断三),并将技术路径聚焦于他一直坚持的表征学习(判断四);而实现这一切的组织原则,则是与思想同频的人构建高信任度的共同体(判断五)。

3. 批判与质疑

谢赛宁构建的这套以“视觉优先、世界模型为核心”的论述体系,既有深刻的洞见,也存在一些亟待验证的关键前提和被选择性忽视的风险。

锐见之处:他最大的贡献是清晰地指出了当前 LLM 范式的“原罪”——它本质上是一个基于人类符号系统的“有监督”学习过程,而非真正从零开始的自监督学习。这解释了为何 LLM 在符号推理上表现卓越,但在物理常识和真实世界互动上步履维艰。他将“世界模型”从一个模糊的概念拆解为“世界模拟器”和“预测性大脑”,为行业思考其技术路径提供了更精确的语言。

前提的脆弱性:整个论述体系的基石,是“基于视觉和感官数据的世界模型,其扩展性最终将超越 LLM”这一核心信念。然而,LLM 通过海量数据和计算展现出的强大“涌现”能力,正在不断蚕食传统上被认为是视觉和具身智能专属的领域。如果 LLM 能够通过对海量文本和视频 Token 的学习,间接但“足够好”地掌握物理世界模型,那么谢赛宁所追求的更为“根本”和“优雅”的路径,可能会在工程上被“暴力美学”所超越。他的论证依赖于 LLM 的能力存在一个无法逾越的“天花板”,但这块天花板的位置和坚固程度目前仍是未知的。

被忽视的风险

  1. 数据困境:他提出的“下载人性(Download Humanity)”——即通过海量第一人称视频来训练世界模型——面临着比训练 LLM 更严峻的数据获取、隐私和版权挑战。这是一个巨大的工程和法律瓶颈,对话中对此一笔带过,但它可能是整个愿景的“阿喀琉斯之踵”。
  2. 商业化路径模糊:相比于 LLM 能迅速落地的聊天机器人、内容创作等应用,“预测性大脑”的“杀手级应用”是什么?对话中提到了机器人和 AR 眼镜,但这都是周期漫长且不确定性极高的领域。在获得商业正反馈之前,这种纯粹由愿景驱动的研发能维持多久,是一个巨大的商业风险。

悬而未决的问题:对话结束时,最核心的问题依然悬置——世界模型的“Scaling Law”是什么? 我们知道 LLM 如何通过增加数据、参数和计算来稳定地提升性能,但对于一个以预测为核心、在抽象表示空间中运行的世界模型,其性能与资源投入之间遵循何种规律?训练这样一个模型需要什么样的数据配比、多大的模型规模、以及什么样的目标函数?在找到这个问题的答案之前,谢赛宁的愿景更像是一种科学哲学上的指引,而非一条清晰可行的工程蓝图。

4. 行业视野

这场对话为我们提供了一个精确的坐标,来定位当前 AI 领域的“范式之争”。

它代表了以 Yann LeCun 为旗手的 “模型-基础”(Model-Based)或“认知架构”学派 对主流 “模型-无关”(Model-Free)的暴力缩放学派 一次系统性的反击。前者认为智能需要一个内在的世界模型来进行预测和规划,强调架构的精巧设计(如 JEPA);后者则相信,足够大的神经网络和数据可以通过端到端的学习,隐式地学到一切,无需显式构建世界模型。这不仅是技术路线之争,更是对“智能”本质的不同哲学诠释。

这场对话印证了一个正在发生的趋势:顶尖 AI 人才正在从资源雄厚但日益僵化的大公司(“有限游戏”的玩家)中“出逃”,组建新型研究机构(如 AMI Labs, SSI, Sakana AI),试图重新夺回定义问题的权利。这标志着 AI 创新的重心可能正在从少数几个巨头,向一个更加多元化、由顶尖科学家主导的“后大公司时代”转移。

同时,它也挑战了一个根深蒂固的共识:即 AGI 将首先在数字世界(语言)中诞生,然后延伸到物理世界。谢赛宁和 LeCun 的观点恰恰相反,他们认为,不首先解决与物理世界交互的“松鼠智能”,就不可能拥有能写代码、上火星的“人类智能”。这要求行业重新评估具身智能和机器人在通往 AGI 路径上的权重。

最后,这场对话与一段值得警惕的历史形成了呼应。在深度学习革命之前,符号主义 AI 也曾因其在逻辑推理上的优雅和成功而占据主导地位,但最终被能够处理原始、嘈杂数据的连接主义所颠覆。今天,LLM 在符号处理上的巨大成功,与当年有几分相似。谢赛宁的“世界模型”论,本质上是在呼吁一种“更彻底的连接主义”——一种直接从感官数据中学习世界动态,而不仅仅是学习符号之间关联的范式。历史是否会再次上演“蛮力战胜优雅”的剧本,将是未来几年 AI 领域最激动人心的看点。

5. 启示与建议

这场对话的核心价值在于,它系统性地挑战了“LLM 是通往 AGI 的唯一高速公路”这一默认假设,并提供了一套逻辑自洽的替代方案。

值得重新审视的假设:

  1. 智能的核心是语言推理吗? 对话促使我们反思,智能的核心或许不是处理符号的能力,而是预测物理世界动态的能力。语言只是这一核心能力的高级“用户界面”。
  2. Scaling Law 是万能的吗? 苦涩教训(The Bitter Lesson)是否被误读了?或许真正的“苦涩”之处不在于放弃所有人类知识,而在于认识到“语言”本身就是最大的人类先验知识,而我们需要一个能超越它的学习范式。

给不同角色的建议:

  • 对于 AI 研究者与学生:

    1. 寻找大公司无法解决的问题。 与其在 LLM 的榜单上用“花生米般的资源”进行追赶,不如思考哪些问题因为大公司的组织结构(追求短期产品迭代的“有限游戏”)而被系统性地忽视了。例如,需要长期、非线性探索的 foundational model 研究,或者对视频理解等“脏活累活”的深入挖掘。
    2. 将“研究品味”作为核心竞争力。 学会像何恺明那样,将建立一个强大的、可复现的基线(Baseline)作为研究的起点,而不是满足于在一个弱基线上做出微小改进。同时,训练自己识别问题的核心矛盾、清晰地讲述研究故事的能力,这比单纯堆砌实验更重要。
  • 对于 AI 创业者与创始人:

    1. 在“反共识”中寻找差异化机会。 如果你的创业项目仅仅是 LLM 价值链上的一个应用,你将永远活在巨头的阴影下。谢赛宁和 LeCun 的实践表明,围绕一个根本性的、与主流不同的技术信仰来构建公司,是创造长期价值和护城河的可能路径,尤其是在机器人、具身智能等 LLM 尚未完全渗透的领域。
    2. “人”是你唯一的壁垒。 在 AI 时代,算法和数据可能快速趋同,但由顶尖人才组成的、拥有独特文化和共同使命的团队是无法被轻易复制的。谢赛宁的经历证明,吸引和留住那些“因人而来”的核心成员,比获得更高的短期估值更为关键。

结论的强弱信号判断: 这场对话中,关于当前 LLM 范式的局限性、以及大公司研究文化弊病的批判,是基于大量一线观察的强信号,值得高度重视。然而,关于 “预测性大脑”作为替代路径一定能成功、并将在商业上胜出 的论断,目前仍属于基于深刻洞察的合理推断,其可行性仍有待他们用未来几年的工作来证明。在评估其观点时,应认识到这种推断的风险和不确定性。

6. 金句摘录

  1. “Don’t think that if you don’t do this someone else will do it. Instead think: if you don’t do this this thing will never happen in this world.”

    • 中译: 不要认为,这件事你不做,别人也会做。你要想的是,这件事如果你不做,它就永远不会在这个世界上发生。
    • 语境: 在讨论个人在科研中的独特性时,谢赛宁提出的世界观。他认为每个人的生活经历、知识背景和基因都是独一无二的,因此他们所能创造的东西也是独一无二的,这是一种鼓励原创和勇于承担的积极心态。
  2. “the worst kind of research? It’s when you define a problem at the start…and in the end publish a paper whose idea is exactly the same as what you started with.”

    • 中译: 最差的研究是什么?就是你一开始定义了一个问题……最后发表的论文,它的想法和你最初的设想一模一样。
    • 语境: 在分享从何恺明那里学到的研究方法论时,谢赛宁指出,好的研究是一个充满意外和曲折的探索过程,而不是一个对初始想法的线性验证。一个一帆风顺的研究项目,恰恰说明它的想法可能是平庸的。
  3. “I wanted to see what people at Google were doing, so I would know what not to do in academia.”

    • 中译: 我想去看看谷歌的人在做什么,这样我就知道在学术界不应该做什么了。
    • 语境: 解释他为何在 NYU 期间选择去谷歌兼职。这并非简单的学习,而是一种差异化竞争策略——通过了解产业界巨头重兵投入的方向,来为资源有限的学术界找到可以规避竞争、进行更具探索性研究的领域。
  4. “Language is a poison or language is actually an opiate. You add more language you’ll always feel happier.”

    • 中译: 语言是一种毒药,或者说语言其实是一种鸦片。你加入越多的语言,你总是会感觉越快乐。
    • 语境: 在批判过度依赖 LLM 的倾向时,谢赛宁用了一个极具冲击力的比喻。他认为语言能轻易提升模型表现,就像鸦片能带来即时快感,但这会掩盖模型在真实世界理解能力上的根本缺陷,并使研究者对这种“捷径”产生依赖。