Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, and 42 (2026-03-16, glm-4.7-flash)

1. 导读

这是一次将发生在2026年的行业预言与当前技术现实的深度对赌。谢赛宁并非那种顺应大流生产“惊艳Demo“的路线用户,他是卷积神经网络、Transformer以及扩散模型架构的既得利益构建者,如今却与图灵奖得主杨立昆联手切断了与OpenAI(“我达成了成就”)的联系,转身开始追求那条被硅谷主流视为“低效“和“边缘“的道路——世界模型。这场对话之所以足以成为“深度研报“,是因为它揭示了当前AI领域最危险的共识崩塌:在大模型烧钱获胜的叙事下,仍有一支最纯粹的“学院派“坚守着一百年前深度学习的初心,并试图将算法从“统计学拟合“还原为“物理世界的预测“。对于所有身处热潮中的技术研发者和投资人而言,这个问题至关重要:当我们谈论代理、多模态和AGI时,我们是在透支未来的算力,还是在重造感知的基石?

2. 核心观点

世界模型的本质并非某种特定的算法模型,而是对真实物理与因果关系的最高层级抽象,而大语言模型仅仅是这个庞大心智皮层中一个专门负责“沟通“的接口,而非心智本身。谢赛宁试图用一种更具人文关怀和哲学深度的视角,解构当下主流的“冲击式“(Impact)科研功利主义,指出真正的学术突破并非线性积累,而是在无限探索中撞得头破血流后偶然获得的“梯度信号“;同时,他强调要警惕语言作为“致幻剂“对视觉智能的污染,认为公司不应死于短期的资源竞赛,而应致力于构建能够“下载人类感官“的底层认知架构。

1. 学术内核:“Impact“与“Influence“的去魅

在追求标准化的评分榜单(如Paper数量、榜单排名)之外,谢赛宁提出了一种逆向的学术价值观。他将汉娜·阿伦特的观念引入研究:研究的目的是“理解并传递“,而非“制造冲击“。这种观点挑战了工业界驱动的科研评价体系,认为一个没有引发资金热潮但帮同行“拓宽了视野“的论文,其价值远高于仅仅引发行业喧嚣的“注脚“。这种价值观在现代硅谷公司尤其稀缺,因为工业界的错失恐惧症往往会迫使研究者掉进“扎赚“(Stalemate)陷阱——为了维持动力不得不追热点,结果制造了大量廉价创新。

逻辑背书:对话中他多次引用自己在HED论文上获得的Marr奖提名,将其视为职业生涯的起点,同时坦然承认此后十年再无此荣誉,并认为这是随机过程,不应成为研究动的阻滞。这种“不在乎排名“的态度是他在今天资源寸步难行的学术界中,唯一能保持纯粹性的“护城河“。

2. 研究方法:非线性探索与“梯度信号“

研究不应该是线性的构思-实现流程,而是一种受控的随机游走。谢赛宁将研究过程比作机器学习中的随机梯度下降:最关键的不是第5个月顺利完成阶段的“高潮“,而是第1-2个月的 “混乱探索期”。只有在经历大量“垃圾实验“(Bad results)后,研究者才能找到那个定义问题本质的“实感“。反例是Stable Diffusion或CLIP这类开山之作,它们往往都是在原本失败的路线或停滞的状态下,利用事后的“第一性原理“回顾发现才被赋予意义的。

证据链:ResNeXt的故事是典型案例——前两个月在ViT和自监督学习上停滞不前,最后一个月偶然发现DiT架构的可扩展性与简洁性,从而一战成名。而他在FAIR期间做的Contrastive Learning和MAE后期也陷入了“有用但不够迷人“的境地,这验证了他关于“线性推进无法触及真问题“的判断。

3. 技术信仰:语言是“致幻剂“,而非智能的载体

谢赛宁与杨立昆形成了一个紧密的“反语言模型“联盟。他的核心论点是:大语言模型是对人类语言符号的完美压缩,是“说话的工具“而非“思维的工具“。语言牺牲了85%以上的物理细节(如颜色、光影、3D空间关系),只保留了用于交流的语义投影。因此,当前的LLM本质上是在构建一个由符号构成的虚拟宇宙,而真正的通用智能必须建立在“物理世界模型“基础上,即在连续、高维、嘈杂的感官信号中进行压缩和预测。

行业张力:这种观点与OpenAI(尤其是Ilya)的方向直接背道而驰。Ilya认为多模态只是语言的补全,而谢赛宁认为如果没有视觉构建的“脚“,仅仅依靠语言模型“跑得再快“也无法参加奥运会。这种基础设施层面的分歧,决定了未来算力分配将走向两条完全不同的路径:一条是Token的堆叠,一条是物理数据的压缩。

4. 陷阱识别:从当红炸子鸡到长跑运动员

谢赛宁敏锐地指出了当前AI价值链的畸形:资源被过度集中于领先模型(如Gemini、Sora)的“精品路径“上,学术前沿被迫让位给短期产品周期。他警告说,现在的追逐已经演变成一场“有限游戏“——为了财报好看而进行监控指标优化,但这恰恰扼杀了发现下一个“世界模型级“突破的可能性(如对视频的深层因果推理)。许多人才被困在完美的Product Cycle之中,实际产出却因为缺乏基础研究而变得平庸。

逻辑闭环:这解释了他为何要离开Google的GenAI团队去做标注员式的工作(寻找不做什么),也解释了他为何要加入AMI Labs——这是一个既不属于传统硅谷封闭研发,也不属于象牙塔,而是为了解决“定义问题“这一生死存亡问题而存在的实体。

5. 创业哲学:下载人类的感官

在创立AMI Labs时,他抛出了一个极具野心的愿景:未来的AI需要“下载人类“。这里的“下载“指的是系统化收集人类生物体在漫长进化中通过眼睛接收的万亿级视觉信息,或许是YouTube(尽管有版权阻碍)的内容,通过建立超感知的系统来理解世界的物理规律。这不同于目前的“token from internet to model“,而是“world from eyes to model“。这不仅是一个技术挑战,更是一个社会工程学和数据产权的挑战。

3. 批判与质疑

尽管谢赛宁的哲学立场在智力上令人愉悦,但其论述体系存在几个显著的理论和实操风险。首先,他对“世界模型“的定义过于哲学化,且处于一种“正在接近“但未完全闭合的状态,缺乏像Diffusion Model那样清晰的工程化落地路径,这使得投资者的评估变得困难。其次,他虽然试图通过“非线性研究“来掩盖职业路径的偶然性,但文中充斥着大量“运气“、“特定导师救赎“和“幸存者偏差“的声音——他过分强调了个人际遇在成就中的权重,以至于可能忽略了系统性教育或平台红利的影响。

此外,作为AMl Labs的联合创始人,他的商业论调带有明显的理想主义偏差。他提出的“下载人类“需要解决的是数据可用性和法律合规性的硬伤,目前这在物理层面几乎无法突破。同时,他将研究团队比喻为“电池“来通过情怀驱动,虽然可爱,但在当前全球经济环境下,这种“非营利性冲动“驱动的创业公司可能面临极高的生存风险,尤其是在他已放弃Ilya开出的数十万美元筹码的情况下,其“简单生活“的选择实则是筛选掉了最具资源禀赋的投机者。

4. 行业视野

这场对话标志着AI界日益加深的“认知分裂“。一方面是OpenAI、Anthropic等以“语言为大“的叙事霸权,他们占据了资本和舆论的制高点;另一方面是以NYU、FAIR(后期)、META等为代表的,坚守强监督和多模态融合的“老派“势力重塑共识。谢赛宁的观点与硅谷“苦涩教训“形成鲜明对比——他并未否认大模型的价值,但坚决反对将Language as the primary interface提升为AI的基础假设。

从历史维度看,这呼应了AI行业中多次的范式转移:从符号主义到连接主义,再至深度学习爆发,目前的局势类似于当年神经网络在ImageNet碾压其他方法前的迷雾期。New York正在取代Silicon Valley成为新的焦虑与希望中心,它不再被单一的代码文化所定义,而是更具人文色彩和现实世界连接。谢赛宁和他所处的世界模型阵营,实际上是在试图回答一个终极问题:在算力足够廉价的后数字化时代,智能的边界究竟在哪里?是他所捍卫的“层级化、物理化的感知模型“,还是OpenAI所代表的“基于概率的符号推理模型“。

5. 启示与建议

假设重审: 这场对话强烈暗示我们必须重新审视“数据规模决定论“。传统的海量Token堆叠可能正触及边际收益递减,取而代之的是对“数据质量、深层因果结构和物理可解释性“的挖掘。

目标读者:

  1. 技术研发者(特别是架构师/初级研宻员): 不要过早陷入“写论文“或“造Demo“的内卷中。按照谢赛宁的方法,花时间在混乱的探索上,允许自己产出大量垃圾,耐心等待“实想“的诞生。同时,警惕语言模型的“污染“,在构建系统时保留对代码的敬畏和对物理逻辑的直觉,不要轻易全盘采用LLM进行底层推理。
  2. 投资者/风控人员: 欢迎并资助那些处于“基础层“的、看起来“无聊“的研究(如JEPA、RePA、因果推断),它们是未来空间中的“2x“变体。相比押注于短期榜单胜利的LLM应用层公司,对能够定义新问题、不依赖既有商业路径的“荒诞学院派“保持关注,或许能捕捉到长期算力溢价。

6. 金句摘录

  • “A good story needs conflict. The reason I asked you not to use a high-score leaderboard to measure researchers is that if you win you win, if you lose you lose, but a good story leads you to the core.” — 谢赛宁借《故事》(罗伯特·麦基)解读研究的核心在于通过冲突——这里的冲突即“梯度信号“,来揭示真相。
  • “Language is a poison or an opiate. If you keep using this crutch, you cannot train your leg muscles.” — 精准比喻了语言模型作为“辅助工具“可能产生的认知退化,警示对单一模态的依赖。
  • “The world doesn’t want me to do this is because when I was at SJTU… the interview didn’t ask technical questions, it asked what books I liked.” — 反思早期科研选择中的非理性因素,强调人文阅读与直觉在技术决策中的锚定作用。
  • “We need to download humanity—not download the internet, but download what human eyes and senses have experienced.” — 将数据定义为感官体验的积累,挑战了当前互联网文本数据的统治地位,提出了物理感官数据化的战略方向。
  • “If you don’t do this, this thing will never happen in this world. Just because I’m not the chosen one, doesn’t mean this breakthrough won’t happen.” — 这句略显中二的利物浦球迷语录,实则道出了科研工作的非确定性与使命感:个体的平庸不应成为进步的阻碍。