Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Yann LeCun, Fei-Fei Li, and 42 (2026-03-16, qwen3.5-397b-a17b)

1. 导读

在大模型 Scaling Law 似乎触及天花板的 2026 年初,谢赛宁(Saining Xie)与图灵奖得主 Yann LeCun 联手创立 AMI Labs 的消息,构成了对当前硅谷主流技术路线的一次隐性挑战。这场对话的价值不仅在于一位顶级学者创业故事的披露,更在于它试图在“LLM 万能论“的喧嚣中,重新界定智能的本质与边界。当行业沉迷于通过更多文本数据堆砌语言能力时,谢赛宁提出了一个反共识的命题:语言只是智能的接口,而非智能的基石。如果他的判断成立,当前围绕大语言模型构建的万亿估值体系将面临重构,而这场关于“World Model“的赌注,将决定下一代 AI 是停留在聊天机器人,还是真正走进物理世界。

2. 核心观点

谢赛宁的核心世界观建立在“表征学习(Representation Learning)优先于语言建模“的认识论之上。他认为当前 LLM 本质上是基于离散 token 的统计预测,缺乏对物理世界的连续空间理解,因此无法成为通用智能(AGI)的根基。这一观点直接挑战了“Scaling Law 通向 AGI“的行业共识,主张智能的核心在于构建能预测状态变化的世界模型,而非单纯的语言生成。

  • LLM 是拐杖而非大脑:谢赛宁断言大语言模型只是沟通工具(Communication Tool),缺乏对物理因果的 grounding。其底层逻辑在于语言是经过高度抽象和压缩的人类产物,丢失了真实世界的连续性与噪声信息。证据在于 LLM 无法处理需要高频感知与实时决策的任务,如机器人控制或视频流理解。
  • 表征学习是智能的根:他主张研究应回归到学习更好的世界表征,而非优化下一个 token 的预测。逻辑在于 hierarchical representation(层级化表征)能捕捉从像素到语义的抽象过程,这是解决视觉、推理乃至规划问题的通用底座。DiT(Diffusion Transformer)及后续视频生成模型的架构演进为此提供了背书。
  • 研究是无限游戏:谢赛宁提出学术界应追求“无限游戏“,即终身只需成功一次的重大突破,而非工业界的“有限游戏“(季度 benchmark 竞争)。这解释了为何他拒绝 OpenAI 的高薪offer 而选择 NYU 与创业,因为只有非功利的环境才能容纳长周期的基础探索。
  • 视频数据是下一轮 Scaling 关键:他认为“下载人类(Download Humanity)“的关键在于视频而非文本。逻辑在于婴儿通过视觉感知获取的信息量远超文本 token,视频包含了物理世界的动力学信息。YouTube 等平台的视频数据储备被视为训练世界模型的潜在燃料。
  • 开放架构对抗封闭实验室:他批评当前大厂研究封闭化(Closed Labs)扼杀了问题定义能力。AMI Labs 的创立旨在保留学术界的开放性与问题定义权,同时具备工业界的执行力,以此对抗硅谷的“产品周期驱动研发“模式。

这些观点环环相扣:因为 LLM 有缺陷,所以需要世界模型;因为世界模型难训练,所以需要视频数据与开放的研究体制;因为现有体制无法支撑,所以需要创业。

3. 批判与质疑

尽管谢赛宁的论述具有深刻的洞察力,但其体系仍依赖若干未经验证的前提。首先,他假设视觉表征的完善能自然涌现出推理与规划能力,但从感知到认知的跨越(Perception to Cognition)在神经科学上尚无定论,JEPA 架构的实际效果仍需大规模实验验证。其次,关于“视频数据 Scaling“的论断忽略了计算成本的约束,视频 token 的消耗量远超文本,现有的算力基础设施是否支持这种范式转移存疑。

此外,对话中有意无意地低估了 LLM 在符号推理与代码生成上的 emergent abilities(涌现能力)。将 LLM 仅定义为“沟通接口“可能忽视了其作为思维链(CoT)载体的潜力。最后,AMI Labs 试图在学术开放与商业机密之间寻找平衡,但在资本压力剧增的 2026 年,这种“中间路线“能否抵御大厂的资金碾压,仍是一个悬而未决的商业风险。核心问题在于:如果世界模型在三年内无法展现出超越 LLM 的商业价值,资本耐心是否会耗尽?

4. 行业视野

将这场对话置于行业演进图谱中,它是“连接主义“内部的一次路线修正。2012 年 AlexNet 开启视觉深度学习,2017 年 Transformer 统一序列建模,而 2026 年的今天,谢赛宁与 LeCun 的立场标志着行业从“语言中心主义“向“多模态世界模型“的回归。这与 DeepMind 早期对强化学习与环境的重视形成呼应,挑战了 OpenAI 主导的“纯文本预训练 + 对齐“范式。

值得注意的是,这种思潮与历史上“符号主义 vs 连接主义“之争不同,它是在连接主义内部对“数据模态“与“学习目标“的重新校准。它印证了具身智能(Embodied AI)正在成为新的共识高地,同时也警示了工业界研究实验室(如 FAIR、Google DeepMind)因过度产品化而丧失基础创新能力的风险。谢赛宁提到的“有限游戏“陷阱,正是当前硅谷 AI 军备竞赛的真实写照——所有资源被配置到 leaderboard 刷分,而非解决根本性问题。

5. 启示与建议

这场对话挑战了“大模型即终点“的假设,强化了“物理世界理解才是智能深水区“的判断。

  • 对于投资人:应重新评估仅依赖 LLM API 封装的应用层项目,转而关注拥有私有视频数据源或底层世界模型架构的团队。信号在于谢赛宁明确指出现有 LLM 无法解决机器人脑问题,这是强信号;但世界模型的商业化时间表仅为合理推断,需打折扣。
  • 对于研究者:建议跳出 Next Token Prediction 的惯性,探索基于视频流的自监督学习(Self-Supervised Learning)。具体行动是尝试在连续空间信号中寻找不变性表征,而非仅仅优化离散分类准确率。
  • 对于创业者:避免陷入与大厂的算力军备竞赛,寻找“非语言“的垂直场景。例如,利用视觉模型解决工业质检或医疗影像中的因果推断问题,这些是 LLM 的盲区却是世界模型的强项。

6. 金句摘录

“LLMs will never die, but will eventually fade. Old soldiers never die, they just fade away.” (大语言模型永远不会消亡,但终将褪色。老兵不死,只是逐渐凋零。) 语境:谢赛宁评价 LLM 在未来智能系统中的地位,认为它将退化为工具而非核心。

“The purpose of publishing a paper isn’t for others to see it, but so that after others see the paper, they have something to work on.” (发表论文的目的不是为了让人看,而是为了让别人看到后,有事可做。) 语境:阐述他对科研本质的理解,引用何恺明的观点,强调科研的传承与启发而非单纯的影响力。

“Language is a communication tool. Language is not a thinking map. Language is not even a decision-making tool.” (语言是沟通工具。语言不是思维地图,甚至不是决策工具。) 语境:论证为何 LLM 不能作为世界模型的基础,区分了沟通与认知的边界。

“You need to download humanity. The data that human eyes see… exceeds all the tokens used to train all of these large language models.” (你需要下载人类。人眼看到的数据……超过了训练所有大语言模型所使用的 token 总和。) 语境:解释为何视频数据是训练世界模型的关键,强调视觉信息密度远超文本。

“Research is the infinite game. You only need to succeed just once in your lifetime.” (研究是无限游戏。你一生中只需要成功一次。) 语境:对比学术界的长期主义与工业界的短期竞争,定义科研人员的职业本质。