总结 (Deepseek Chat)

A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, and 42 (2026-03-16, deepseek-chat)

1. 导读

本期播客的主角谢赛宁，并非典型的“天选之子”式AI明星。他自述为“普通的一个”，成长轨迹充满看似随机的选择：从上海交大ACM班“混日子”打游戏，到因兴趣“头铁”放弃微软亚洲研究院的实习机会，再到博士申请截止日前几天才被导师“捞起”，其职业生涯充满了非线性探索。然而，正是这种“跟随内心”的探索，让他意外地站在了多个关键节点：与何恺明共同开创了ResNeXt、MoCo等影响深远的工作，主导了奠定视频生成模型基石的DiT架构，并最终与图灵奖得主杨立昆（Yann LeCun）共同创立了备受瞩目的AMI Labs。

这场对话之所以值得关注，不仅在于谢赛宁亲历了从深度学习爆发到多模态、世界模型浪潮的完整周期，更在于他提供了一个在“LLM中心主义”叙事之外、坚定以视觉与表征学习为内核的另类视角。当整个行业被大语言模型的“有限游戏”裹挟时，他与杨立昆所押注的“预测性世界模型”路径，是对当前技术范式的一次根本性质疑与挑战。无论你是一名研究者、投资人还是技术决策者，理解这场对话中关于“智能本质”、“数据瓶颈”与“研究组织形态”的思辨，都将帮助你穿透喧嚣，看清AI演进中那些尚未被主流叙事充分讨论的暗流与可能性。

2. 核心观点

谢赛宁的核心世界观是：以语言模型为核心的当前AI范式存在根本性缺陷，无法通向真正的通用智能；未来的突破在于构建一个以视觉等连续信号感知为基础、具备预测与规划能力的“世界模型”，而表征学习是构建这个世界模型的核心与永恒主题。这一观点之所以充满争议，是因为它直接挑战了由LLM的成功所建立起的“Scaling Law即真理”的行业共识，并断言当前最炙手可热的技术路线只是一个阶段性的“拐杖”。

视觉是智能的基石，而非语言的附庸。 谢赛宁断言，人类（及动物）智能的根基在于对高维、连续、含噪的视觉（及多模态）信号的处理与抽象，而非离散的语言符号。他引用“寒武纪大爆发”的视觉起源论和大脑皮层70%处理视觉信号的事实，论证视觉所承载的关于物理世界的常识与直觉，是语言模型通过文本压缩无法获得的。LLM本质上是人类知识的通信接口，而非理解世界的模型。因此，以视觉为起点的“世界模型”路径，才是解决机器人、具身智能等真实世界交互问题的根本。

表征学习是未解决的永恒问题，其重要性超越具体架构。 在谢赛宁看来，无论是早期的深度监督网络、边缘检测，还是后来的对比学习、MAE，乃至最近的DiT、RAE，其核心主线始终是“如何学习更好的分层表征”。他将表征学习定义为从原始数据到具有良好性质空间的映射学习，这是一个比任何具体模型架构（如Transformer）或任务（如分类）更根本、更持久的问题。他批评像神经架构搜索（NAS）这样的热门方向是“浪费了领域两年时间”的短暂潮流，而围绕表征的探索才是通往世界模型的必经之路。

当前AI研究的“有限游戏”扼杀了问题定义能力。 谢赛宁观察到，以OpenAI等巨头为主导的行业竞争，将整个领域拖入了一场以排行榜和产品发布周期为核心的“有限游戏”。这种环境挤压了真正探索性研究的空间，使得无论是工业界实验室还是学术界，都丧失了“定义问题”的能力，只能在大公司划定的范式内进行“追平”或“微创新”。他坦言自己在谷歌兼职的部分目的，就是“为了知道他们在做什么，从而知道自己不该做什么”。这种资源与注意力的集中，导致了像视频理解等关键但非直接变现方向的研究匮乏。

优秀研究的本质是非线性的随机梯度下降过程。 基于与何恺明合作的深刻体验，谢赛宁总结出顶级研究的范式：它绝非从一个预设的好点子线性执行到底。相反，研究者需要投入大量时间进行看似无序的“探索”——复现基线、尝试各种改动、从失败中寻找信号。真正的创新点子往往在探索后期才涌现，如同ResNeXt在一个月内从无到有诞生。他告诫学生，如果一个研究从始到终想法未变，那很可能是一个“无聊的工作”。研究评价也应看长期积分而非单点估计，一篇“签名式工作”的价值远超多篇平庸论文之和。

“世界模型”是目标而非具体算法，其关键在于预测与抽象。 谢赛宁澄清，世界模型并非特指某个生成模型（如Sora），而是一个能够对环境状态进行抽象、并能预测行动后果的认知架构。其核心是JEPA（联合嵌入预测架构）所倡导的思想：在抽象的表征空间中进行预测，而非在像素或token层面进行重建。这样的系统才能进行有效的规划（如模型预测控制），并具备真正的安全性与可控性。他认为，语言模型、视频生成模型等都是通向这个世界模型目标的不同路径，但最终需要的是一个统一、高效的预测大脑。

这些观点层层递进：从对智能本质的认知（视觉优先）出发，确立了核心方法论（表征学习），进而批判了阻碍该方法论发展的行业环境（有限游戏），并给出了实践该方法的路径（非线性研究），最终描绘了其致力实现的远景目标（预测性世界模型）。整套论述体系逻辑自洽，构成了对主流LLM叙事的有力挑战。

3. 批判与质疑

谢赛宁的论述体系锐利且具启发性，但其成功依赖于几个尚未被证实甚至存在高风险的前提。

首先，“视觉优先”路径面临巨大的数据与工程悬崖。 他正确地指出，一个四个月婴儿看到的视觉信息量已超过顶级LLM的训练数据，但收集、清理、标注高质量的视频数据并构建高效的训练流水线，其难度和成本远超文本数据。YouTube等平台的版权与爬取限制即是明证。即便拥有数据，在连续高维空间中进行高效预测的算法，其可扩展性（Scaling Law）是否真的会如他所言“与LLM完全不同且更高效”，仍是一个未经证实的假设。LLM的成功部分得益于互联网文本的“免费午餐”，而视觉世界模型则可能需要“下载整个人类”，这其中的工程与法律障碍不容小觑。

其次，对“研究自由度”的追求与创业公司的现实存在张力。 谢赛宁盛赞FAIR早期的学术自由，并因厌恶大公司的“对齐会议”和产品周期而选择创业。然而，AMI Labs作为一家融资额巨大的初创公司，同样面临投资人的回报预期、产品落地压力和有限的资源约束。他期望的“探索非线性研究”的环境，能否在创业公司的生存压力下得以维持，是一个巨大的问号。历史上，由顶尖科学家创立、旨在进行自由探索的实验室，最终向产品化妥协的例子并不少见。

再者，对LLM的“贬低”可能过于绝对化。 他将LLM视为“沟通接口”和“拐杖”，并认为其推理（CoT）与真正的规划（MPC）有本质不同。然而，LLM展现出的强大代码能力、工具使用和智能体协调能力，正在迅速弥合数字世界与物理世界的鸿沟。完全抛开LLM已建立起的强大语义理解与推理能力，从零开始构建一个“预测大脑”，是否是最优路径？一种更务实的路径可能是将LLM作为世界模型的高级规划模块，而非彻底替代。谢赛宁与Ilya的根本分歧即在于此，而目前尚无定论。

最后，“世界模型”的定义仍显模糊，成功标准难以衡量。 尽管他试图区分生成式世界模拟器（如Sora）与预测性世界模型，但两者在技术实现上可能共享大量基础。同时，世界模型作为一个宏大目标，其阶段性成果如何验证、如何转化为具有市场竞争力的产品（他提到的AI眼镜和机器人都是长周期、高难度的方向），路径并不清晰。这可能导致公司在长期探索中迷失方向，或难以向外界证明其进展。

4. 行业视野

谢赛宁的思考并非孤例，而是代表了AI领域一场正在兴起的“反思潮”和“路径分化”。

他的观点与导师杨立昆一脉相承，构成了对“LLM至上主义”最系统、最持久的批评阵营。杨立昆的JEPA架构和关于“自主机器智能”的论文，为这一路径提供了理论蓝图。与此同时，DeepMind的联合创始人Shane Legg也曾对“通用人工智能（AGI）”这一概念本身提出质疑，Rich Sutton则强调“松鼠的智能”比解决数学难题更能体现智能的本质。这些声音共同指向一个共识：当前基于文本的智能是狭窄且不完整的，必须回归对物理世界和具身交互的研究。

这场对话也印证了AI研究组织形态的深刻变迁。谢赛宁所怀念的FAIR黄金时代，代表了工业界“开放式研究实验室”的巅峰。但随着ChatGPT引爆的军备竞赛，无论是Meta、Google还是OpenAI，其研究都日益与产品绑定，变得封闭和功利化。AMI Labs的诞生，正是顶尖研究者对这种环境“用脚投票”的结果，它试图在纯学术实验室与产品化大公司之间，开辟一条“研究驱动型创业公司”的新道路。这与同期出现的其他由明星科学家创办的实验室（如SSI, Physical Intelligence）一起，标志着AI创新重心正从巨头内部向更具活力的初创生态扩散。

历史地看，当前围绕“语言vs.世界”的争论，与深度学习发展早期“特征工程vs.端到端学习”的争论有相似之处。当时，坚持手工设计特征的保守派也曾嘲笑深度学习是“炼金术”。如今，LLM的成功让“Scaling Law”和“预测下一个token”成为新教条，而谢赛宁等人则扮演了当年“端到端”挑战者的角色，提醒人们警惕新教条可能带来的局限。能否跳出局部最优，是领域能否持续进步的关键。

5. 启示与建议

这场对话最值得重新审视的假设是：“更多的数据、更大的模型、更好的基准分数”是通向通用智能的唯一或最佳路径。 它挑战了将LLM的能力外推至所有智能形式的线性思维，并强调了智能的多样性、具身性以及对物理常识的根本依赖。

对于AI研究者与博士生：

培养“定义问题”的能力，而非仅仅“解决问题”。 主动寻找主流叙事之外的真问题，例如视频理解、物理场景的抽象表征、基于预测的规划等。警惕沦为“在花生米级别的资源下复现Sora”的困境。
实践“非线性研究”方法。 接受并享受漫长的探索期，将失败实验视为重要的梯度信号。像何恺明一样，投入大量精力构建强大的基础设施和基线，这是产生突破性工作的基础。

对于科技投资者与行业观察者：

关注“反共识”的技术路径与团队。 在LLM和视频生成的红海之外，评估那些专注于机器人“大脑”、新型世界模型架构或高效多模态表征学习的团队。谢赛宁与杨立昆的组合，代表了对冲主流风险的重要下注。
重新评估“开放性”的价值。 在日益封闭的行业环境中，那些坚持开源、发表论文、促进学术交流的团队或公司，可能更有利于长期生态构建和吸引顶尖人才，其风险与机遇并存。

对于创业者与技术决策者：

在“资源无限”的幻想破灭后，思考差异化的数据与算力策略。 如果无法在通用数据规模上竞争，那么聚焦于特定垂直领域（如医疗影像、工业质检）的高质量、多模态数据，或像谢赛宁所言探索更高效的计算分配方式（如重视频轻文本），可能成为突破口。
平衡研究自由与产品聚焦。 借鉴AMI Labs试图在两者间寻找平衡点的思路，为探索性研究划定“保护空间”，同时设立清晰的产品里程碑，避免陷入纯研究而无落地，或为短期产品牺牲长期技术根基的极端。

需要明确的是，谢赛宁关于“LLM终将褪色”、“视觉世界模型是唯一出路”的结论是带有强烈个人信念的强观点，而非已成事实的强信号。而他关于研究方法和行业生态的分析，则基于其亲身经历，是值得深思的强信号。其创业公司AMI Labs的成功与否，将是检验这套世界观最直接的试金石。

6. 金句摘录

“Ilya called me and I didn’t say anything. I just turned down OpenAI… But wherever there is love, there must also be hate. They are two sides of the same coin.” （伊利亚给我打电话，我什么也没说。我只是拒绝了OpenAI……但有爱的地方，也必定有恨。它们是一枚硬币的两面。） 语境：谈及两次拒绝Ilya的邀约，并引申到AI安全与可控性的哲学讨论——赋予AI爱的能力，也意味着它同时理解了恨。

“The worst kind of research is when you define a problem at the start, say this is my idea, and in the end publish a paper whose idea is exactly the same as what you started with.” （最糟糕的研究是，你一开始定义了一个问题，说这是我的想法，最终发表的论文其想法却与开始时一模一样。） 语境：阐述何恺明传授的研究方法论，强调探索过程的重要性，真正的创新诞生于探索中的意外发现。

“I went to do this work at Google because I wanted to see what people at Google were doing, so I would know what not to do in academia.” （我去谷歌做这份工作，是因为我想看看谷歌的人在做什么，这样我就知道在学术界不该做什么。） 语境：解释其在NYU任教期间同时兼职于谷歌的原因，体现了在资源不对等的情况下，学术界寻找差异化生存策略的清醒与无奈。

“Language is actually a poison… If you as a person keep taking this opiate, you’ll be ruined. If it’s a crutch and you keep using it, you also can’t train your leg muscles.” （语言实际上是一种毒药……如果你作为一个人持续服用这种鸦片，你会被毁掉。如果它是拐杖而你一直用它，你也无法锻炼腿部肌肉。） 语境：表达对过度依赖语言模型会阻碍视觉等基础智能发展的担忧，使用了极具张力的比喻。

“We need to download humanity.” （我们需要下载人类。） 语境：当被问及世界模型需要何种数据时，他指出远超互联网文本的、人类级别的多模态体验数据是下一个时代的核心挑战，道出了数据层面的根本瓶颈。