Yann Lecun：Meta AI、开源、大语言模型的局限、AGI 与人工智能的未来 (2024-03-08)

Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI (2024-03-08, gemini-2.5-pro)

1. 导读

在人工智能的“iPhone 时刻”之后，当整个行业都沉浸在对大语言模型（LLM）能力无尽的乐观情绪中时，一位缔造了这一切的“教父”级人物却发出了最强烈的警告。Yann LeCun，作为 Meta 首席 AI 科学家和图灵奖得主，在这场对话中系统性地论证了为何当前以 GPT-4 和 Llama 为代表的自回归语言模型（Autoregressive LLMs）是一条通往真正智能的死胡同。这场对话的价值，在于它并非源自外部批评者，而是一位核心构建者对行业主流路径的根本性质疑。

这场讨论发生在科技巨头们正以前所未有的规模投资于 LLM 算力，而公众对“觉醒的 AI”（Woke AI）和技术滥用的担忧也日益加剧的时刻。LeCun 的论点将直接影响那些正在决定将宝贵的技术资源和资本押注在何种 AI 架构上的创业者、开发者和投资人。他不仅诊断了现有范式的局限，更清晰地描绘了一条截然不同、以学习世界模型为核心的技术蓝图。这场对话的核心张力在于：如果 LeCun 是对的，那么当前这场围绕语言模型的狂热竞赛，可能只是在通往真正人工智能的漫长道路上，一个华丽但短暂的弯路。

2. 核心观点

Yann LeCun 的核心世界观是：真正的智能诞生于对物理世界的预测模型，而非对语言符号的序列生成。 当前大行其道的自回归 LLMs，尽管在语言任务上表现惊人，但其本质是一种“系统一”式的本能反应，缺乏理解世界、记忆、推理和规划这四项智能的关键支柱。他认为，业界对 LLM 流畅语言能力的迷恋，是一种“被流畅性欺骗”的认知谬误，误将语言的熟练操作等同于真正的智能。这一观点极具争议性，因为它直接挑战了支撑 OpenAI、Google 等公司当前千亿级投入的“规模定律”（Scaling Law）和技术路线，认为单纯扩大模型和数据无法弥补架构上的根本缺陷，通往人类水平乃至超人智能的道路必须另辟蹊径。

自回归 LLMs 是一条通往通用人工智能（AGI）的死胡同

LeCun 断言，仅靠预测下一个词元（token）的自回归机制，LLMs 无法获得真正的世界理解力。其底层逻辑在于信息带宽的巨大差异：一个四岁儿童通过视觉等感官接收的信息量（约 10^15 字节）远超 LLM 训练所用的全部文本数据（约 10^13 字节）。语言是现实世界的高度压缩和抽象的产物，信息量稀疏且有损，无法单独承载构建完整世界模型所需的知识。这解释了“莫拉维克悖论”（Moravec’s paradox）：为何 LLM 能通过律师资格考试，却无法学会在 20 小时内开车，或像 10 岁孩子一样一次学会收拾餐桌。它们缺乏对直觉物理和因果关系的底层认知，这种认知只能通过与高带宽的真实或模拟世界互动来学习。

真正的学习在于预测抽象表征，而非像素级的生成

LeCun 指出，过去十年试图通过生成模型（Generative Models）预测视频下一帧来学习世界模型的尝试基本都失败了。失败的根源在于，世界的大部分细节（如树叶的随机摆动）是不可预测的，强行预测所有像素会浪费大量模型容量在无关紧t要的“噪声”上，无法学到有用的抽象知识。他力推的解决方案是联合嵌入预测架构（JEPA, Joint-Embedding Predictive Architecture）。JEPA 不预测原始输入（如像素），而是在一个抽象的表征空间中进行预测。例如，它会学习从一个被遮挡的视频片段的表征，去预测完整视频的表征。这种机制迫使模型只关注那些可预测的、本质性的信息（如物体的运动轨迹、物理规律），而忽略不可预测的细节，从而学到更高级、更鲁棒的世界表征。Meta AI 的 I-JEPA 和 V-JEPA 项目就是这一理念的具体实践，它们在无需标签的情况下，从图像和视频中学到了高质量的特征，其表现在下游任务（如动作识别）上已得到验证。

未来 AI 的核心能力是“目标驱动规划”，而非“序列生成”

LeCun 认为，LLMs 缺乏规划能力，它们的回答是逐字生成的“本能反应”，每个词元的计算量是固定的，无法为复杂问题投入更多“思考”。而真正的智能，类似于心理学中的“系统二”，是在行动前进行规划和推理。基于 JEPA 学到的世界模型，AI 系统可以实现“模型预测控制”（Model Predictive Control）：在采取一系列行动前，先在内心“模拟”出不同行动序列可能导致的结果，然后选择能最大化满足某个目标（Objective）的序列。这种基于优化的推理过程，才是解决复杂问题、实现真正自主性的关键。这种“目标驱动”的 AI 架构，其输出是经过深思熟虑的，而非自回归 LLM 那样仅仅是基于概率的序列延续。

开源是遏制 AI 权力集中和偏见的唯一解药

针对近期 Google Gemini 模型引发的“Woke AI”争议，LeCun 的观点超越了技术层面。他断言，任何单一的、封闭的 AI 系统都不可能做到“无偏见”，因为“偏见”的定义因文化、价值观和立场而异。试图打造一个让所有人都满意的“安全”AI，结果往往是过度修正，甚至产生新的荒谬（如生成黑人纳粹士兵）。他认为，唯一的出路是 AI 的多样性，就像自由社会需要多样化的媒体一样。而实现多样性的前提是开源。通过 Meta 开源 Llama 这样的基础模型，全球不同社区、企业和政府可以根据自身的文化、语言和价值观进行微调，创造出百花齐放的 AI 助手。这不仅是商业策略，更是维护民主社会信息生态健康的必要手段，以对抗少数科技巨头通过专有系统控制全球信息流的巨大风险。

这些观点构成了一条清晰的逻辑链：从批判当前 LLM 的局限性出发，提出基于世界模型的 JEPA 架构作为替代方案，进而构想出基于规划的智能体，并最终将其置于一个开放、多元的社会技术框架中。

3. 批判与质疑

LeCun 的论述体系清晰、尖锐，但其说服力建立在几个关键的、尚待大规模验证的前提之上，同时也回避了一些核心挑战。

首先，LeCun 对 LLMs 从文本中学习世界模型能力的判断可能过于悲观。 尽管他强调语言的带宽限制，但 LLMs 表现出的“涌现能力”已经多次超出研究者的预期。海量文本中蕴含的关于世界运作方式的间接、冗余信息，可能远比我们想象的要丰富。人类的幽默、故事、争论中无不隐含着对物理和社会规则的描述。LLMs 是否能通过对这些海量关系的统计学习，构建出一个“足够好”的、尽管并非第一性的世界模型，这一点仍是开放性问题。LeCun 将其断然否定，有低估“数据”本身力量的风险。

其次，JEPA 架构的扩展性（Scalability）和通用性仍是未知数。 目前，V-JEPA 等模型在特定任务（如动作识别、物理可能性判断）上展示了潜力，但这与构建一个能支持通用机器人操作（如整理房间）的全面世界模型之间，还存在巨大的鸿沟。LeCun 的整个蓝图都押注于 JEPA 能够成功地从研究项目扩展为像 Transformer 一样改变行业的基础设施，但这需要时间和实践的检验。其有效性是否会随着任务复杂度的提升而遭遇瓶颈，目前尚不清楚。

再者，他将“学习世界模型”和“结合语言”分离开来，可能简化了问题的难度。 他主张应先让机器像动物一样通过观察学习世界，之后再嫁接语言。但人类智能的独特性恰恰在于语言与世界模型的深度耦合。如何将一个从视频中学习到的、非符号化的世界模型，与一个高度符号化的语言系统有效结合，本身就是一个极具挑战性的研究难题。他批评当下的多模态模型是“作弊”（using language as a crutch），但这或许正反映了两种模态信息整合的内在困难。

最后，对话结束时，关于“分层规划”（Hierarchical Planning）的核心问题依然悬而未决。 LeCun 坦诚，如何让 AI 系统自动学习出从宏大目标（如“从纽约到巴黎”）到微观动作（如“控制肌肉站起来”）的层级化表征和规划，是目前整个领域的无人区。没有这个能力，他所构想的“系统二”智能就无法处理现实世界中的复杂、长时程任务。这不仅是其理论体系中的一个缺环，更是通往高级人工智能道路上最坚固的路障之一。

4. 行业视野

Yann LeCun 的这场对话，为我们理解当前 AI 行业的演进提供了一个关键的“坐标点”。

它挑战了自 GPT-3 以来占据主导地位的“规模定律”共识。这一共识认为，只要模型、数据和算力足够大，智能便会“涌现”。LeCun 则明确地站在了“架构派”的立场，认为没有正确的架构，单纯的规模扩张终将触顶。这与行业内另一批强调“世界模型”、“因果推理”和“具身智能”（Embodied AI）的研究者（如来自 DeepMind 和伯克利的研究）形成了强有力的呼应。他的声音代表了一股对当前 LLM 狂热进行理性反思的力量，预示着 AI 发展的下一阶段可能从“大力出奇迹”转向对核心架构的探索。

同时，这场对话也印证了行业对 LLM 局限性日益增长的共识。从最初对 ChatGPT 流畅对话能力的惊叹，业界已普遍认识到其在事实准确性（幻觉）、逻辑推理和可控性方面的短板。LeCun 的分析为这些现象提供了深层的理论解释——这非但不是通过更多数据或 RLHF 就能轻易修复的“小毛病”，而是自回归架构的“原罪”。这解释了为什么业界正积极探索将 LLMs 作为“语言前端”，而去调用外部工具、数据库和模拟器的“智能体”（Agent）架构，这本质上是对 LLM 自身能力不足的一种弥补。

在商业和地缘政治层面，LeCun 对开源的疾呼，与 Meta 的 Llama 战略紧密相连，形成了对 OpenAI 和 Google 等公司封闭模型路线的直接挑战。这不仅是技术路线之争，更是商业模式和意识形态之争。它呼应了欧洲、印度等国家和地区对维护“技术主权”和文化多样性的诉求，将开源定位为对抗美国科技巨头文化和商业霸权的工具。这场“开源 vs. 闭源”的战争，将深刻影响未来十年 AI 生态的格局。

最后，LeCun 对 AI 安全的看法，与“AI末日论者”（AI Doomers）形成鲜明对比。他认为真正的危险不是科幻式的“天网”，而是现实中 AI 权力的高度集中。这与 Marc Andreessen 等技术乐观主义者的观点一致，他们都认为对 AI 过度的、预防性的监管，可能会扼杀创新，并最终将权力固化在少数现有玩家手中。LeCun 的观点为政策制定者提供了另一种视角：监管的重点或许不应是限制模型的能力，而是确保平台的开放性与竞争性。

5. 启示与建议

这场对话深刻挑战了一个核心假设：即“语言智能”是通往“通用智能”的主干道。LeCun 认为它只是一根重要的分支。同时，它也强化了另一个假设：没有与环境的互动和预测，智能将是无根之木。

对于开发者和创业者：

重新评估技术护城河：如果你的业务完全构建在对某个闭源 LLM 的 API 调用上，你的护城河可能很浅。LeCun 的论点暗示，真正的长期价值在于那些能够结合专有数据（尤其是非文本数据，如视频、传感器读数）来构建特定领域世界模型的应用。
关注“具身智能”与机器人领域：LeCun 反复强调物理世界的重要性。这意味着机器人技术、自动驾驶、工业自动化等领域将是下一代 AI 技术（如 JEPA）的关键试验场和商业落地场景。现在开始布局相关领域，可能是在下一个范式转换中占据先机。

对于投资人：

投资组合多样化：除了追逐 LLM 应用层的机会，应配置一部分资本到更底层的、挑战现有范式的新架构上。关注那些致力于学习世界模型、进行模型预测控制以及在机器人领域取得突破的初创公司。LeCun 实际上给出了一张寻找“下一个十年”AI 公司的藏宝图。
警惕“计算资源”的陷阱：单纯拥有大量 GPU 并不足以保证在下一代 AI 竞争中胜出。如果 LeCun 的判断正确，算法和架构的创新将比单纯的算力堆积更重要。投资时需评估团队在基础研究和架构创新上的能力，而不仅仅是其融资和购买算力的能力。

对于研究者：

勇于探索“无人区”：LeCun 明确指出了几个悬而未决的重大问题，包括分层规划、学习用于规划的表征以及高效训练世界模型。这些领域相较于已经拥挤的 LLM 微调赛道，是产出颠覆性成果的沃土，也是年轻学者建立学术声誉的绝佳机会。

总结而言，LeCun 对 LLM 局限性的批判是强信号，这些问题已在业界得到广泛印证。他提出的以 JEPA 为核心的替代方案是一个合理的推断和充满希望的研究方向，但其能否成功扩展并主导下一代 AI，仍存在不确定性。投资者和创业者应将其视为一个重要的未来风向标，而非板上钉钉的既定事实，在决策时应保留相应的灵活性。

6. 金句摘录

“If you’re really interested in human level AI, abandon the idea of generative AI.”
- 中文意译：“如果你真的对人类水平的人工智能感兴趣，就放弃生成式 AI 的想法吧。”
- 语境：在对比了生成模型（预测像素）在学习图像表征上的失败和联合嵌入架构（预测表征）的成功后，LeCun 做出了这个颠覆性的结论，呼吁研究者将重心从“生成”转向“预测表征”。
“We’re really fooled by their fluency… We just assume that if a system is fluent in manipulating language, then it has all the characteristics of human intelligence, but that impression is false.”
- 中文意译：“我们真的被它们的流畅性欺骗了……我们想当然地认为，一个能流畅操纵语言的系统就具备了人类智能的所有特征，但这种印象是错的。”
- 语境：LeCun 以此回应为何 LLMs 如此令人印象深刻，他指出，人类很容易将语言的流利度与深层智能混为一谈，而这正是我们评估 LLMs 时犯下的根本性错误。
“…the desire to dominate is something that has to be hardwired into an intelligent system. It is hardwired in humans… not in orangutans… and they are as smart as we are, almost.”
- 中文意译：“……支配欲这种东西，是必须被硬编码进一个智能系统里的。它被硬编码在人类体内……但却没有出现在猩猩（Orangutans）身上……而它们几乎和我们一样聪明。”
- 语境：在反驳“AI 末日论”时，LeCun 用这个例子来解构“超级智能必然会统治人类”的假设。他指出，智能与“权力意志”并无必然联系，后者是特定物种（尤其是社会性物种）演化的结果，而非智能的附带产物。
“What works against this is people who think that for reasons of security, we should keep the AI systems under lock and key… That would lead to a very bad future in which all of our information diet is controlled by a small number of companies who proprietary systems.”
- 中文意译：“与此（AI 多样性）背道而驰的，是那些认为出于安全考虑我们应该把 AI 系统锁起来的人……那将导致一个非常糟糕的未来，我们所有的信息食粮都将被少数几家公司的专有系统所控制。”
- 语境：LeCun 在开场和结尾反复强调，将 AI 以安全为名进行封闭管理的风险，远大于开放所带来的风险。他认为真正的生存威胁不是失控的 AI，而是被少数人控制的 AI，这直接将技术路线之争上升到了对未来社会形态的抉择。

Keyboard shortcuts

Podecho