Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, and 42 (2026-03-16, deepseek-chat)

1. 导读

本期播客的主角谢赛宁,并非典型的“天选之子”式AI明星。他自述为“普通的一个”,成长轨迹充满看似随机的选择:从上海交大ACM班“混日子”打游戏,到因兴趣“头铁”放弃微软亚洲研究院的实习机会,再到博士申请截止日前几天才被导师“捞起”,其职业生涯充满了非线性探索。然而,正是这种“跟随内心”的探索,让他意外地站在了多个关键节点:与何恺明共同开创了ResNeXt、MoCo等影响深远的工作,主导了奠定视频生成模型基石的DiT架构,并最终与图灵奖得主杨立昆(Yann LeCun)共同创立了备受瞩目的AMI Labs。

这场对话之所以值得关注,不仅在于谢赛宁亲历了从深度学习爆发到多模态、世界模型浪潮的完整周期,更在于他提供了一个在“LLM中心主义”叙事之外、坚定以视觉与表征学习为内核的另类视角。当整个行业被大语言模型的“有限游戏”裹挟时,他与杨立昆所押注的“预测性世界模型”路径,是对当前技术范式的一次根本性质疑与挑战。无论你是一名研究者、投资人还是技术决策者,理解这场对话中关于“智能本质”、“数据瓶颈”与“研究组织形态”的思辨,都将帮助你穿透喧嚣,看清AI演进中那些尚未被主流叙事充分讨论的暗流与可能性。

2. 核心观点

谢赛宁的核心世界观是:以语言模型为核心的当前AI范式存在根本性缺陷,无法通向真正的通用智能;未来的突破在于构建一个以视觉等连续信号感知为基础、具备预测与规划能力的“世界模型”,而表征学习是构建这个世界模型的核心与永恒主题。这一观点之所以充满争议,是因为它直接挑战了由LLM的成功所建立起的“Scaling Law即真理”的行业共识,并断言当前最炙手可热的技术路线只是一个阶段性的“拐杖”。

视觉是智能的基石,而非语言的附庸。 谢赛宁断言,人类(及动物)智能的根基在于对高维、连续、含噪的视觉(及多模态)信号的处理与抽象,而非离散的语言符号。他引用“寒武纪大爆发”的视觉起源论和大脑皮层70%处理视觉信号的事实,论证视觉所承载的关于物理世界的常识与直觉,是语言模型通过文本压缩无法获得的。LLM本质上是人类知识的通信接口,而非理解世界的模型。因此,以视觉为起点的“世界模型”路径,才是解决机器人、具身智能等真实世界交互问题的根本。

表征学习是未解决的永恒问题,其重要性超越具体架构。 在谢赛宁看来,无论是早期的深度监督网络、边缘检测,还是后来的对比学习、MAE,乃至最近的DiT、RAE,其核心主线始终是“如何学习更好的分层表征”。他将表征学习定义为从原始数据到具有良好性质空间的映射学习,这是一个比任何具体模型架构(如Transformer)或任务(如分类)更根本、更持久的问题。他批评像神经架构搜索(NAS)这样的热门方向是“浪费了领域两年时间”的短暂潮流,而围绕表征的探索才是通往世界模型的必经之路。

当前AI研究的“有限游戏”扼杀了问题定义能力。 谢赛宁观察到,以OpenAI等巨头为主导的行业竞争,将整个领域拖入了一场以排行榜和产品发布周期为核心的“有限游戏”。这种环境挤压了真正探索性研究的空间,使得无论是工业界实验室还是学术界,都丧失了“定义问题”的能力,只能在大公司划定的范式内进行“追平”或“微创新”。他坦言自己在谷歌兼职的部分目的,就是“为了知道他们在做什么,从而知道自己不该做什么”。这种资源与注意力的集中,导致了像视频理解等关键但非直接变现方向的研究匮乏。

优秀研究的本质是非线性的随机梯度下降过程。 基于与何恺明合作的深刻体验,谢赛宁总结出顶级研究的范式:它绝非从一个预设的好点子线性执行到底。相反,研究者需要投入大量时间进行看似无序的“探索”——复现基线、尝试各种改动、从失败中寻找信号。真正的创新点子往往在探索后期才涌现,如同ResNeXt在一个月内从无到有诞生。他告诫学生,如果一个研究从始到终想法未变,那很可能是一个“无聊的工作”。研究评价也应看长期积分而非单点估计,一篇“签名式工作”的价值远超多篇平庸论文之和。

“世界模型”是目标而非具体算法,其关键在于预测与抽象。 谢赛宁澄清,世界模型并非特指某个生成模型(如Sora),而是一个能够对环境状态进行抽象、并能预测行动后果的认知架构。其核心是JEPA(联合嵌入预测架构)所倡导的思想:在抽象的表征空间中进行预测,而非在像素或token层面进行重建。这样的系统才能进行有效的规划(如模型预测控制),并具备真正的安全性与可控性。他认为,语言模型、视频生成模型等都是通向这个世界模型目标的不同路径,但最终需要的是一个统一、高效的预测大脑。

这些观点层层递进:从对智能本质的认知(视觉优先)出发,确立了核心方法论(表征学习),进而批判了阻碍该方法论发展的行业环境(有限游戏),并给出了实践该方法的路径(非线性研究),最终描绘了其致力实现的远景目标(预测性世界模型)。整套论述体系逻辑自洽,构成了对主流LLM叙事的有力挑战。

3. 批判与质疑

谢赛宁的论述体系锐利且具启发性,但其成功依赖于几个尚未被证实甚至存在高风险的前提。

首先,“视觉优先”路径面临巨大的数据与工程悬崖。 他正确地指出,一个四个月婴儿看到的视觉信息量已超过顶级LLM的训练数据,但收集、清理、标注高质量的视频数据并构建高效的训练流水线,其难度和成本远超文本数据。YouTube等平台的版权与爬取限制即是明证。即便拥有数据,在连续高维空间中进行高效预测的算法,其可扩展性(Scaling Law)是否真的会如他所言“与LLM完全不同且更高效”,仍是一个未经证实的假设。LLM的成功部分得益于互联网文本的“免费午餐”,而视觉世界模型则可能需要“下载整个人类”,这其中的工程与法律障碍不容小觑。

其次,对“研究自由度”的追求与创业公司的现实存在张力。 谢赛宁盛赞FAIR早期的学术自由,并因厌恶大公司的“对齐会议”和产品周期而选择创业。然而,AMI Labs作为一家融资额巨大的初创公司,同样面临投资人的回报预期、产品落地压力和有限的资源约束。他期望的“探索非线性研究”的环境,能否在创业公司的生存压力下得以维持,是一个巨大的问号。历史上,由顶尖科学家创立、旨在进行自由探索的实验室,最终向产品化妥协的例子并不少见。

再者,对LLM的“贬低”可能过于绝对化。 他将LLM视为“沟通接口”和“拐杖”,并认为其推理(CoT)与真正的规划(MPC)有本质不同。然而,LLM展现出的强大代码能力、工具使用和智能体协调能力,正在迅速弥合数字世界与物理世界的鸿沟。完全抛开LLM已建立起的强大语义理解与推理能力,从零开始构建一个“预测大脑”,是否是最优路径?一种更务实的路径可能是将LLM作为世界模型的高级规划模块,而非彻底替代。谢赛宁与Ilya的根本分歧即在于此,而目前尚无定论。

最后,“世界模型”的定义仍显模糊,成功标准难以衡量。 尽管他试图区分生成式世界模拟器(如Sora)与预测性世界模型,但两者在技术实现上可能共享大量基础。同时,世界模型作为一个宏大目标,其阶段性成果如何验证、如何转化为具有市场竞争力的产品(他提到的AI眼镜和机器人都是长周期、高难度的方向),路径并不清晰。这可能导致公司在长期探索中迷失方向,或难以向外界证明其进展。

4. 行业视野

谢赛宁的思考并非孤例,而是代表了AI领域一场正在兴起的“反思潮”和“路径分化”。

他的观点与导师杨立昆一脉相承,构成了对“LLM至上主义”最系统、最持久的批评阵营。杨立昆的JEPA架构和关于“自主机器智能”的论文,为这一路径提供了理论蓝图。与此同时,DeepMind的联合创始人Shane Legg也曾对“通用人工智能(AGI)”这一概念本身提出质疑,Rich Sutton则强调“松鼠的智能”比解决数学难题更能体现智能的本质。这些声音共同指向一个共识:当前基于文本的智能是狭窄且不完整的,必须回归对物理世界和具身交互的研究。

这场对话也印证了AI研究组织形态的深刻变迁。谢赛宁所怀念的FAIR黄金时代,代表了工业界“开放式研究实验室”的巅峰。但随着ChatGPT引爆的军备竞赛,无论是Meta、Google还是OpenAI,其研究都日益与产品绑定,变得封闭和功利化。AMI Labs的诞生,正是顶尖研究者对这种环境“用脚投票”的结果,它试图在纯学术实验室与产品化大公司之间,开辟一条“研究驱动型创业公司”的新道路。这与同期出现的其他由明星科学家创办的实验室(如SSI, Physical Intelligence)一起,标志着AI创新重心正从巨头内部向更具活力的初创生态扩散。

历史地看,当前围绕“语言vs.世界”的争论,与深度学习发展早期“特征工程vs.端到端学习”的争论有相似之处。当时,坚持手工设计特征的保守派也曾嘲笑深度学习是“炼金术”。如今,LLM的成功让“Scaling Law”和“预测下一个token”成为新教条,而谢赛宁等人则扮演了当年“端到端”挑战者的角色,提醒人们警惕新教条可能带来的局限。能否跳出局部最优,是领域能否持续进步的关键。

5. 启示与建议

这场对话最值得重新审视的假设是:“更多的数据、更大的模型、更好的基准分数”是通向通用智能的唯一或最佳路径。 它挑战了将LLM的能力外推至所有智能形式的线性思维,并强调了智能的多样性、具身性以及对物理常识的根本依赖。

对于AI研究者与博士生:

  1. 培养“定义问题”的能力,而非仅仅“解决问题”。 主动寻找主流叙事之外的真问题,例如视频理解、物理场景的抽象表征、基于预测的规划等。警惕沦为“在花生米级别的资源下复现Sora”的困境。
  2. 实践“非线性研究”方法。 接受并享受漫长的探索期,将失败实验视为重要的梯度信号。像何恺明一样,投入大量精力构建强大的基础设施和基线,这是产生突破性工作的基础。

对于科技投资者与行业观察者:

  1. 关注“反共识”的技术路径与团队。 在LLM和视频生成的红海之外,评估那些专注于机器人“大脑”、新型世界模型架构或高效多模态表征学习的团队。谢赛宁与杨立昆的组合,代表了对冲主流风险的重要下注。
  2. 重新评估“开放性”的价值。 在日益封闭的行业环境中,那些坚持开源、发表论文、促进学术交流的团队或公司,可能更有利于长期生态构建和吸引顶尖人才,其风险与机遇并存。

对于创业者与技术决策者:

  1. 在“资源无限”的幻想破灭后,思考差异化的数据与算力策略。 如果无法在通用数据规模上竞争,那么聚焦于特定垂直领域(如医疗影像、工业质检)的高质量、多模态数据,或像谢赛宁所言探索更高效的计算分配方式(如重视频轻文本),可能成为突破口。
  2. 平衡研究自由与产品聚焦。 借鉴AMI Labs试图在两者间寻找平衡点的思路,为探索性研究划定“保护空间”,同时设立清晰的产品里程碑,避免陷入纯研究而无落地,或为短期产品牺牲长期技术根基的极端。

需要明确的是,谢赛宁关于“LLM终将褪色”、“视觉世界模型是唯一出路”的结论是带有强烈个人信念的强观点,而非已成事实的强信号。而他关于研究方法和行业生态的分析,则基于其亲身经历,是值得深思的强信号。其创业公司AMI Labs的成功与否,将是检验这套世界观最直接的试金石。

6. 金句摘录

“Ilya called me and I didn’t say anything. I just turned down OpenAI… But wherever there is love, there must also be hate. They are two sides of the same coin.” (伊利亚给我打电话,我什么也没说。我只是拒绝了OpenAI……但有爱的地方,也必定有恨。它们是一枚硬币的两面。) 语境:谈及两次拒绝Ilya的邀约,并引申到AI安全与可控性的哲学讨论——赋予AI爱的能力,也意味着它同时理解了恨。

“The worst kind of research is when you define a problem at the start, say this is my idea, and in the end publish a paper whose idea is exactly the same as what you started with.” (最糟糕的研究是,你一开始定义了一个问题,说这是我的想法,最终发表的论文其想法却与开始时一模一样。) 语境:阐述何恺明传授的研究方法论,强调探索过程的重要性,真正的创新诞生于探索中的意外发现。

“I went to do this work at Google because I wanted to see what people at Google were doing, so I would know what not to do in academia.” (我去谷歌做这份工作,是因为我想看看谷歌的人在做什么,这样我就知道在学术界不该做什么。) 语境:解释其在NYU任教期间同时兼职于谷歌的原因,体现了在资源不对等的情况下,学术界寻找差异化生存策略的清醒与无奈。

“Language is actually a poison… If you as a person keep taking this opiate, you’ll be ruined. If it’s a crutch and you keep using it, you also can’t train your leg muscles.” (语言实际上是一种毒药……如果你作为一个人持续服用这种鸦片,你会被毁掉。如果它是拐杖而你一直用它,你也无法锻炼腿部肌肉。) 语境:表达对过度依赖语言模型会阻碍视觉等基础智能发展的担忧,使用了极具张力的比喻。

“We need to download humanity.” (我们需要下载人类。) 语境:当被问及世界模型需要何种数据时,他指出远超互联网文本的、人类级别的多模态体验数据是下一个时代的核心挑战,道出了数据层面的根本瓶颈。