Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Yann Lecun:Meta AI、开源、大语言模型的局限、AGI 与人工智能的未来 (2024-03-08, glm-4.7-flash)

导读

Yann LeCun,图灵奖得主与深度学习教父,在Meta AI掌舵多年,近期却对整个行业癫狂追逐文本大模型(LLM)的现象表现出了极其罕见的、近乎愤怒的厌倦。这期访谈虽然没有上一期的百家争鸣来得火药味十足,但其战略分量更为厚重——LeCun不再仅仅是反驳AI恐慌论,而是在从架构层面定义AI的“上限”。他基于40年的研究直觉,断言目前通过“下一个token预测”训练出的LLM并非通往通用人工智能(AGI)的坦途,而通往智能的真正阶梯在于“联合嵌入预测架构”(JEPA)以及对视频流的建模。

这不仅是技术路线之争,更是一场关于AI监管与民主的深刻辩论。LeCun认为,闭源霸权才是人类文明的真正威胁,而开源才是防止算法独裁的唯一解药。当我们习惯了用“御用预言家”的标签来看待Doomer(末日论者)时,这位悲观的现实主义者却展示了一幅截然不同的图景:我们距离那个可怕的、控制一切的飞升时刻还很遥远,但我们确实正在建筑一个由科技寡头包办的信息牢笼。如果你想知道在这个万亿风口下,什么才是真正的“算法护城河”,以及为什么那个看似吟游诗人般的教授比任何CEO都更清楚我们在往悬崖边跑还是顺风局,请继续往下读。

核心观点

Yann LeCun 的核心世界观是一种极端的“具身现实主义”与“功能主义的结合”。在他看来,真正的智能必须建立在对外部世界的物理认知之上,而非仅仅是对语言模式的统计拟合。这一观点极具争议性,因为它直接否定了当前业界的最大共识——即规模化文本数据 + Transformer 架构足以涌现出推理能力。

大语言模型缺乏构成智能的四大基石 LeCun 断言,LLM 拥有“流利性”,但缺失智能的四个核心要素:理解世界、持久记忆、推理能力和规划能力。这一判断的底层逻辑在于 LLM 的本质——“自回归预测下一个 token”。他解释道,除非系统具备对物理世界的因果建模能力,否则它无法真正理解“掉落物体会摔碎”或“推门可以打开门”这种常识。背书证据显示,GPT-4 能通过法考,却无法在 20 小时内学会驾驶或清理桌子——这两种任务对人类是本能,对 LLM 却是微积分。

推动智能的带宽差:感官 > 语言 LeCun 提出了一个惊人的数据对比:一个四岁儿童的视觉皮层在四年生命中被输入了约 10^15 字节的信息(约 16,000 小时的清醒时间),而人类阅读满互联网所有公开文本也需要 17 万年。其背后的逻辑是,人类的婴儿学习物理、物理常识和对象恒存性,完全是经由视觉和触觉完成的,而非阅读。语言只是极度压缩的符号,信息密度虽高但冗余度极低,不像感官数据和视频那样包含大量内在结构可供自监督学习捕捉。

拒绝像素级预测:JEPA 架构的根本矛盾 针对 10 年来计算机视觉领域的“预测一切像素”尝试为何屡战屡败(如生成对抗网络 GAN、变分自编码器 VAE),LeCun 提出了 “Joint-Embedding Predictive Architecture”(JEPA,联合嵌入预测架构)。他认为视频是高维连续的,试图生成每一个像素的不确定性难以控制,且计算量过于昂贵。因此,JEPA 的核心主张是:我们不需要预测像素(如地毯的纹理、墙上的画作细节),只需要预测那些“对任务有用”的抽象特征。系统会自动过滤掉不可预测的细节(随风摇摆的树叶),只保留关键信息。与当前 LLM 预测离散语言 token 不同,JEPA 在抽象的连续潜在空间中进行更高效的持续预测。

LLM 只能做“系统一”,未来需要“系统二”规划 LeCun 将 LLM 类比为人类的“系统一”(直觉、无意识反应),而将极具潜力的路径比作“系统二”(深思熟虑的计划)。他指出,LLM 的致命缺陷在于其推理过程是线性的、吞吐量固定的,无论问题多复杂,它投入的计算量只与生成的 token 数成正比。真正的智能系统需要先在抽象的表示空间中“思考”或“优化”多个可能的答案,然后再输出语言。这需要引入“基于能量的模型”(Energy-based model),让系统在推理时针对一个标量能量函数进行梯度下降优化,从而获得深度的推理能力。

开源才是对抗精英算法统治的唯一民主途径 LeCun 认为,AGI 的存在并不必然导致人类灭绝,但“人工智能的垄断控制”才是最大的生存威胁。目前,少数几家美国西岸科技巨头掌握着人类知识的总接口,这将导致全球信息摄入被单一价值观过滤。他引用法国政府、印度以及塞内加尔的案例,指出只有开源 Llama 等基础模型,允许各国各群体基于本地数据和需求进行微调,才能构建起一个多样化的 AI 生态系统。这不仅关乎技术,更关乎自由民主和社会价值多样化的存续。

这些观点内部存在强烈的张力:LeCun 一方面极其推崇 自监督学习(这是 LLM 成功的关键),另一方面却猛烈抨击 自回归文本预测 是死胡同;他在技术上极度反常识地认为视频预测模型是个坑,反而主张预测抽象特征(逻辑看似 Greek 但符合能量最小化原理);而在政治上,他却是一个激进的开源民粹主义者。这种逻辑上的剧烈摇摆,恰恰暴露了当前 AI 技术范式在面对物理世界复杂性时的根本性焦虑。

批判与质疑

尽管 LeCun 的理论框架宏大且逻辑自洽,但从外部视角审视,这一体系仍存在若干致命疑点和被刻意回避的风险。

首先是 技术路径的可行性存疑。LeCun 极力贬低视觉生成的难度(即“高精度的视频预测”,如 Sora 或 Gen-2 的尝试),将其视为注定失败的“猜测每个像素”的游戏。然而,最新的视频生成模型(如 Sora、OpenAI 的 Sora Idea)已经证明了高斯扩散模型在重建和生成 video tokens 方面取得了令人瞩目的进展。LeCun 的“拒绝像素预测”论断可能源于 FAIR 实验室过去 10 年在该路线上的反复受挫,但这能否完全否定由最新扩散技术推动的涌现能力?他在转录中提到的“预测所有帧”困境或许可以通过 latent(潜在空间)预测技术迎刃而解。

其次是 实验证明的“相关性”陷阱。他提出了解释物理世界的视频模型,并声称这些模型能判断视频的物理合法性,这在根本上是关于“内在一致性”的问题。但现实世界的物理规律极其复杂且非黑即白,视频中的物体运动是否符合引力定律,仅仅是符合惯性定律吗?这种判断能力严重依赖于训练数据的主观标注。当场景超出训练分布(例如穿越虫洞或异次元空间)时,基于统计特征的预测模型难道不会比物理引擎“一本正经地胡说八道”吗?他关于 V-JEPA 能在视频分割任务上取得高准确率的结论,是否只是证明了“它很擅长识别物体”,而非“它真的理解物理”?

第三,开源论文可能成为“双刃剑”。LeCun 极力鼓吹开源以对抗大公司的意识形态控制,但他显然低估了 AI 作为“放大器”的风险。如果开源不仅是民主的工具,也是制造大规模网络攻击、生化武器制备指南的社会工程学工具的温床,那么“开放给公众”的人口基础是否足够庞大从而导致监管困难?现有的开源模型在特定提示词下已被证明存在生成仇恨内容甚至在低带宽下伪装正常对话的能力。如果每个激进组织都能训练出专属的“AI助手”,这确实是“多样化”的,但这也意味着人类失去了与主流价值观对话的唯一接口。

最后是 对 AGI 乐观的心理学解读。LeCun 频繁引用历史(如轮子、电力)来论证对新技术的恐慌是多余的。然而,批评者指出,AI 系统的一个关键特征是拥有自主的目标导向性。虽然人类的创新需要动力,但并没有一个机制能自动阻止一台超级智能将“资源”作为实现的手段。他指出“想要主宰的天性不是硬编码在所有智能系统中的”,但这忽略了社会工程学的影响——控制一个系统不需要它有“统治的欲望”,只需要它“完美执行没有约束的指令”。他在人类道德是“把关人”的问题上依然假设了人性的完美,这可能不是一个足够坚实的假设。

行业视野

LeCun 的这场长篇大论,实际上是在当前 AI 行业的“中期修正”点上,划出了一道清晰的战略分界线。它标志着从“大语言模型教条主义”向“多模态具身智能”的潜在滑落。

这与行业的主流叙事(OpenAI/Google 路线)形成了鲜明对立。目前,行业共识正疯狂涌入“多模态大模型”的怀抱,试图通过一种 trick:将视觉信息编码为 token,喂给 LLM,从而利用 LLM 已经具备的语言推理能力来理解世界。LeCun 批评这实际上是“作弊”和“懒惰”,因为语料库不足以提供现实中那样丰富的“冗余信息”来训练通用的认知模型。这场对话将行业拉回到了 2010 年代初期的争论——是追求统计拟合的泛化,还是追求因果与符号的解耦。他对于人类生命早期记忆的强调,实际上是隐喻了当前 AI 行业正在陷入“语言阶段停滞”。

从历史角度看,LeCun 的遭遇与 20 世纪 80 年代 AI “冬天”期间的罗杰·彭罗斯等人有相似之处:一位科学家因技术的局限而苦恼,试图跳出公式狂热的圈子。但他同时也呼应了 20 世纪初的本雅明和鲍德里亚关于“沉默/图像 vs 言语/文本”的讨论。他主张重建不仅是技术的重建,更是哲学的重建——我们需要更接近生物学的“世界建模”,而不是仅仅构建一个巨大的文本压缩器。如果 JEPA 架构未来证明比 Transformer 更高效,那么这将重写机器学习的历史,比 Transformer 还要大的那种。

启示与建议

这场对话挑战了一个根深蒂固的假设:“语法上的完美”(Fluency)不等于“语义上的理解”。它迫使投资者和研究者相信,如果目标是 AGI,盲目堆砌更多的文本数据和更高的参数规模(目前行业的共识),可能是在错误的道路上狂奔。

对于 风险投资与投资决策者:应立即重新审视基于 LLM 的“闪亮应用”类初创公司。如果 LeCun 的理论成立,单一的大语言模型微调团队很难构建出拥有真正物理常识的 Agent(智能体)。建议关注那些正在构建底层“视觉世界模型”或“物理预测引擎”的基础设施型技术团队,而非仅仅优化提示词工程的公司。

对于 AI 研究者与实验室负责人:不要被 LLM 的胜利冲昏头脑。LeCun 强调了视觉系统和视频预测的重要性(即学习 Representation,而非生成)。建议将研究重心从单纯的 Pre-training(预训练)转移,尝试探索 JEPA、DeepMind 的 I-JEPA 或 DINO 等非对比性或基于能量的学习方法在视频理解上的潜力。同时在团队中引入更多机器人学家和认知科学家,因为 LEcun 所提到的“系统二推理”和“层级规划”目前仍是空白。

对于 政策制定者与科技企业高管:必须警惕 LeCun 提出的“信息独裁”风险。如果说数字化转型涉及比特,那么当前的 AI 转型涉及的是“认知边界”的划定。如果硅谷的价值观成为唯一的 AI 逻辑,这将是极其危险的。建议推动跨国界、跨文化的 AI 模型开源标准建立,防止 AI 成为新的外交壁垒。

信号分级:这是强技术信号。LeCun 关于 LLM 无法完成物理任务的论断非常有力。但这是背景噪音。关于 JEPA 的具体工程细节目前仍不成熟。关于“世界模型”的宏大愿景听起来很美,但距离工程化落地至少需要 3-5 年。

金句摘录

“Because of the autoregressive prediction, every time an AI produces a token… the probability that [the error] will take you out of the set of reasonable answers decreases exponentially. This is a pure mathematical fact.” 译: “由于自回归预测,每当 AI 生成一个 token……其偏离合理答案概率是以指数级递减的。这是一个纯数学事实。” (语境:通过数学推导解释了为什么长文本会导致幻觉失控,从概率论角度一针见血地指出了 LLM 的架构性缺陷。)

“Humans can predict the state of the world at time T, take an action, predict the state at T+1. Language is not used for this planning in the first place, you plan the words after you have a plan.” 译: “人类可以预测时间 T 时的世界状态,采取行动,预测 T+1 时的状态。语言并不是用于这种规划,你在有计划之后再计划措辞。” (语境:他区分了“思维计划”(先有想法,再表达)和“语言歧义”(文本流的惰性),驳斥了“文本流本质上就是语义”的观点。)

“We’re fooled by their fluency… We just assume that if a system is fluent in manipulating language, then all the characteristics of human intelligence… are just false.” 译: “我们被它们的流利度所欺骗……我们之所以会假设,一个能熟练操作语言的系统就拥有了人类智能的所有特征,那是一个错觉。” (语境:LeCun 对当前 LLM 赛道的傲慢进行了辛辣的讽刺,强调形式上的相似不等于本质上的智能。)

“The desire to dominate is something that has to be hardwired into an intelligent system… The species in which this desire to dominate… is specific to social species. Non-social species like orangutans don’t have it.” 译: “想要统治的欲望必须被硬编码进智能系统中……拥有这种统治或从属欲望的物种是社会性物种。像红毛猩猩这样的非社会性物种就没有这种欲望。” (语境:用进化生物学反驳了“超级智能一定会反过来奴役人类”的科幻恐怖逻辑,用逻辑论证消解了某些末日论者的恐慌。)

“If we really want diversity of opinion in AI systems, that future… we need those to be diverse… It’s very expensive and difficult to train a base model… only a few companies can do this properly.” 译: “如果我们真的想要 AI 系统拥有观点多样性,未来……我们需要那些系统是多样化的……训练一个基础模型的成本极高且困难……只有少数几家公司能做好。” (语境:坦承开源的高门槛,同时论证了只有开源生态才能通过“搭便车”效应解决由少数公司垄断带来的社会风险。)