Terence Tao：无人理解人工智能为何真正有效 (2025-12-31)

Terence Tao: Nobody Understands Why AI Actually Works (2025-12-31, gemini-2.5-pro)

1. 导读

在人工智能正在重塑所有认知领域的今天，我们应如何看待人类最顶尖的智力活动——纯粹数学的未来？本期播客的嘉宾，菲尔兹奖得主、被誉为“最伟大在世数学家”的陶哲轩（Terence Tao），提供了一个极其清醒且反直觉的视角。他并非站在数学的象牙塔里抵制变革，也不是一个盲目的技术乐观主义者。相反，他以数学家独有的精确与严谨，剖析了当前 AI 范式中一个被广泛忽视的根本性缺陷。

这场对话的价值，在于它超越了“AI 是否会取代人类”的陈旧辩论。陶哲轩将我们引向一个更深层的问题：当机器能以前所未有的速度生成看似完美的答案时，我们如何判断它不是在“说谎”？这场讨论不仅关乎数学研究的未来，更直接影响到所有依赖复杂模型进行决策的领域——从科学研究、金融工程到公共政策。它揭示了在 AI 时代，人类认知能力的核心价值正在发生根本性的迁移。陶哲轩的观点并非技术预言，而是一套关于知识、验证与信任的思维框架，为我们理解人机协作的边界与未来画出了一幅清晰的地图。

2. 核心观点

陶哲轩的核心世界观是：数学（乃至所有严谨的科学）是一个不断优化语言以求更高效率和精确度的人类协作系统，其本质在于严格的、可验证的推理。当前的人工智能，尤其是大语言模型（LLM），是这个系统一个强大的新成员，但它的工作原理——基于统计模式而非逻辑演绎——使其在根本上是“不可靠的”。因此，AI 的真正价值不在于成为自主的发现者，而在于成为一个需要被严格监管、可以大规模部署的“学徒”或“助理”。这个观点颇具争议，因为它既否定了 AI 将很快达到人类顶尖智能的“奇点论”，也驳斥了 AI 只是“高级计算器”的简单化观点，而是将其定位为一个能力强大但缺乏内在理解力的“外星工具”，人类的核心任务从“计算”转向了“审判”。

1. AI 的根本缺陷是缺乏“现实锚定”，其推理过程无法自我验证。 陶哲轩直言，当前 AI 最大的弱点是其输出与逻辑基础是脱节的（“it’s not grounded”）。它们通过学习海量数据中的统计相关性来模仿人类推理，但当它们偏离了训练数据的轨道时，就可能“走向彻底的疯狂”（go really off the rails），给出看似无懈可击但实际上“完全是胡说八道”的解释。这种概率性的本质，意味着它无法提供数学证明所要求的 100% 可靠性。对话中提到，AI 或许能“背诵”教科书里的费马大定理证明，但这只是数据污染（contamination）的结果，而非真正的理解。这构成了人与机器在认知上的本质区别。

2. AI 在科研中的最佳定位，不是攻克顶尖难题，而是处理“长尾”中的海量中等难度问题。 这是一个颠覆性的观点。公众和媒体往往聚焦于 AI 能否解决黎曼猜想这类“圣杯级”问题。但陶哲轩认为，这完全用错了地方。人类科学家数量有限，精力只能集中在最高价值的少数问题上。而科学领域存在着数百万个虽不顶尖但仍有价值的“中等难度问题”，这些问题构成了知识的“长尾”。AI 的优势在于规模化（scale），它可以被部署去尝试解决这数百万个问题。即使成功率只有 10%，那也意味着解决了 10 万个问题——这是人类研究生团队无论如何也无法实现的规模。

3. “验证能力”将取代“知识储备”，成为 AI 时代的核心认知技能。 既然 AI 的输出不可靠，那么辨别其真伪的能力就变得至关重要。陶哲轩指出，我们正面临一个“高质量呈现与高质量内容脱钩”的时代。AI 可以生成排版精美、语言流畅、看似权威的文本，但内容可能充满根本性错误。因此，未来的教育重点必须从知识的被动接收，转向主动的批判性思维和验证能力。他举例说，未来的数学作业可能不再是“解决这个问题”，而是“这是 ChatGPT 对这个问题的错误解答，请你批评并修正它”。

4. 高维空间的几何特性与人类直觉完全相悖，这是理解 AI 行为的关键。 陶哲轩通过一个生动的例子解释了为什么我们难以直观理解 AI 的内部世界。在一个三维立方体内切一个球体，球体占据了相当大的体积；但若在一个一千维的立方体内切一个一千维的“球体”，这个球体的体积占比将小到可以忽略不计。AI 正是在这种高维空间中通过矩阵运算来工作的，这个世界的规则完全颠覆了我们在低维物理世界中形成的直觉。这解释了为何 AI 的决策路径常常显得神秘莫测，也强调了我们必须依赖严谨的数学理论，而非日常经验，去分析和评估它们。

5. 数学是“发明”与“发现”的结合体，是一门持续演进的语言。 在回应“数学是发明还是发现”这一经典问题时，陶哲轩认为是“两者皆是”（definitely both）。他认为存在一个客观的、柏拉图式的数学结构等待被“发现”，但人类必须“发明”语言和符号体系去描述和探索它。这门语言为了追求效率和力量，会不断自我优化（例如，将“1”不再视为质数是为了维护算术基本定理的简洁性）。这个过程解释了维格纳提出的“数学在物理学中不可思议的有效性”：因为最优化的描述语言，必然会趋近于宇宙运行的底层逻辑。AI，作为一种新的语言工具，也正在被整合进这个宏大的演化进程中。

这几个核心观点构成了一个完整的逻辑链条：AI 在高维空间中运作的方式（4）使其行为反直觉，其概率本质使其输出不可靠（1）。因此，人类必须掌握验证能力（3），并将其用于最能发挥其规模化优势的地方——处理海量中等难度问题（2）。这一切都统一在数学作为一门不断演化的、追求真理的人类语言这一宏大图景之下（5）。

3. 批判与质疑

陶哲轩的分析体系清晰、务实，充满了数学家式的审慎。然而，正是这种审慎，使其论证建立在一些可能被动摇的前提之上，也回避了一些更棘手的问题。

首先，他将 AI 定位为“需要人类专家验证的助理”这一模式，其有效性高度依赖一个前提：存在一个高效且可靠的验证路径。 在纯粹数学领域，一个证明的对错有明确的判定标准。但在许多前沿科学和复杂系统中，验证本身就极其困难甚至是不可能的。例如，一个 AI 模型提出的新药分子结构，可能需要数年的实验才能验证其有效性和安全性。在这种情况下，“先让 AI 生成，再由人类验证”的工作流可能会失效，或者成本高昂到不切实际。陶哲-轩的框架在逻辑封闭的数学世界里非常稳固，但在开放、经验驱动的物理和生物世界里则面临挑战。

其次，他对 AI 价值在于“长尾问题”的判断，可能低估了规模化错误带来的系统性风险。 一个 AI 犯错的成本很低，但一百万个 AI 同时犯下某些相关的、微妙的错误，其后果可能是灾难性的。这种“涌现”出的风险在金融高频交易算法的“闪电崩盘”中已有先例。陶哲-轩的乐观在于他视每个问题为独立事件，但当这些“中等难度问题”相互关联时（如在气候模型或社会经济系统中），一个由不可靠的代理大规模处理的系统，其稳定性本身就成了一个巨大的未知数。

再次，对话中对 AI 的评判，始终基于当前的大语言模型（LLM）范式。 陶哲轩敏锐地指出了 LLM 的概率本质和缺乏“现实锚定”的问题。但这个批判是否适用于所有可能的人工智能架构？如果未来的 AI 模型整合了逻辑推理引擎，或是通过其他方式实现了更强的因果推断能力，那么“不可靠”这一核心论断就可能不再成立。这场对话结束时，一个悬而未决的核心问题是：当前 AI 的缺陷是人工智能这一技术本身的固有属性，还是仅仅是 LLM 这条特定技术路线的暂时局限？

最后，陶哲-轩提出的教育改革方案——培养学生的批判和验证能力——虽然极具洞察力，但也可能导向一个认知能力的两极分化社会。一小部分精英被训练成能够驾驭和审判 AI 的“牧羊人”，而大多数人则可能成为只会消费 AI 输出、缺乏验证能力的“羔羊”。这提出了一个深刻的社会问题：当验证的门槛变得如此之高时，知识的权威将由谁来定义？

4. 行业视野

这场对话为我们提供了一个重要的“坐标感”，帮助我们理解陶哲轩的思想在当下 AI 浪潮中的位置。

它首先印证并深化了“人机协同”（Human-in-the-loop）或“副驾驶”（Copilot）这一主流趋势。 许多科技公司正在从追求全自动的“通用人工智能”（AGI）转向开发辅助人类专家的工具。陶哲轩的论述为这一务实路线提供了坚实的理论基础：AI 的不可靠性决定了它必须被置于人类的监督之下。他不是从商业或工程角度，而是从知识论的根本层面解释了为什么“人机协同”在可预见的未来不仅是最佳选择，而且是唯一选择。

同时，这番对话也有力地挑战了硅谷盛行的“智能爆炸”或“能力爬梯”叙事。 后者倾向于将智能视为一个单一维度，认为 AI 的能力正在沿着这条标尺线性或指数级地向上攀升，并最终超越人类。陶哲轩的观点则暗示，智能是多维度的。AI 在“规模化模式匹配”这个维度上远超人类，但在“严谨逻辑推理”和“自我验证”维度上则近乎为零。这意味着 AI 的发展路径可能不是“爬梯”，而是向一个与人类认知结构完全不同的方向“膨胀”。这提醒我们，不能用衡量人类智能的标准去简单外推 AI 的未来。

此外，陶哲-轩关于数学语言为追求效率而演化的观点，与科学哲学家托马斯·库恩（Thomas Kuhn）的**“范式转移”**理论形成了有趣的呼应。历史上，科学革命往往伴随着语言和概念体系的根本变革。AI 的出现，正迫使我们重新审视“证明”、“理解”、“发现”甚至“真理”这些基本概念的含义。当一个证明可以由 AI 辅助生成，但没有任何一个人类能完整地从头到尾理解其所有细节时，我们还能称之为“知识”吗？这场对话实际上将我们置于一场正在发生的、关于科学方法论的范式转移的前沿。

最后，它也为方兴未艾的 “AI for Science” 领域提供了一个冷静的顶层设计思路。与其将资源全部投入让 AI 独立做出诺奖级发现的“豪赌”，不如系统性地构建平台，利用 AI 清理各个学科中积累了数十年的海量“中等难度问题”，这或许是一条成本更低、产出更稳健的路径。

5. 启示与建议

这场对话深刻地挑战了一个核心假设：认为 AI 的智能是人类智能的某种延伸或模仿。 陶哲轩让我们看到，它可能是一种完全不同的认知形态，其优势（规模）和劣势（不可靠）是同一枚硬币的两面。基于此，我们可以为不同角色提供以下建议：

1. 对于 AI 研究者与开发者：

建议一：将“可验证性”和“可解释性”置于与“性能”同等重要的位置。 与其追求在基准测试上再提高一个百分点，不如投入更多精力研究如何让模型能清晰地展示其决策链条，或者输出一种可以被形式化验证系统（Formal Verification System）自动检查的中间语言。这能将 AI 从一个“黑箱神谕”转变为一个“透明的合作者”。
建议二：探索混合架构。 将 LLM 的模式识别能力与符号逻辑推理引擎相结合，或许是克服其“缺乏现实锚定”缺陷的一条有效路径。与其让一个模型包揽一切，不如构建一个由不同认知模块（生成、推理、验证）组成的系统。

2. 对于教育工作者与政策制定者：

建议：系统性地将“AI 批判”纳入课程体系。 从中学到大学，应设计专门的课程模块，训练学生识别和分析 AI 生成内容的谬误。例如，在历史课上分析 AI 杜撰的历史事件，在写作课上解构 AI 生成的看似流畅但逻辑空洞的段落。这不应是零散的练习，而应成为与阅读、写作、计算同等重要的基础素养。

3. 对于创业者与投资人：

建议：关注那些为特定垂直领域打造“AI 助理 + 验证工作流”的解决方案。 巨大的机会不在于通用大模型本身，而在于如何将 AI 的生成能力与特定行业的专家知识和验证流程深度整合。例如，一个帮助律师起草合同、但同时高亮所有需要人类专家进行判例法核实的条款的系统，其价值远超一个只会泛泛生成法律文本的通用模型。投资的重点应从“模型能力”转向“工作流效率和可靠性”。

总结而言，陶哲轩关于 AI 根本缺陷的判断是一个基于当前技术范式的强信号。他关于“验证能力”重要性的论断，也是一个几乎可以确定的未来趋势。而他对于 AI 只能处理“中等难度问题”的定位，则更像是一个合理的推断——这既是他作为数学家审慎态度的体现，也为未来的技术突破留下了可能性。在采纳这些见解时，我们应明辨其中的确定性与推测性。

6. 金句摘录

“But now our our ability to produce high-quality presentation has far outpaced our ability to produce high-quality content.”
- 中译： 但现在，我们制作高质量呈现形式的能力，已经远远超过了我们产出高质量内容的能力。
- 语境： 陶哲轩在讨论 AI 时代信息质量的辨别困难时说出此话。他指出，过去低质量信息往往伴随着粗糙的呈现（比如手写的字条），但现在 AI 可以用完美无瑕的格式包装完全错误的内容，使得批判性思维变得前所未有的重要。
“The mystery is not so much how they run… but what is surprising is that it works really well for certain tasks, and it doesn’t work well for others. And we don’t know in advance… which tasks are good for which ones or not.”
- 中译： 神秘之处不在于它们如何运行……而在于，它在某些任务上表现出奇地好，而在另一些任务上则不行。而我们无法提前预知……哪些任务适合它，哪些不适合。
- 语境： 在解释 AI 理论的欠缺时，陶哲轩指出了当前领域的窘境：我们拥有了强大的工程工具（可以构建和训练模型），但缺乏一套科学理论来预测其能力边界。我们只能通过经验性的实验来摸索，这与成熟的科学领域形成了鲜明对比。
“I think AI actually their best use case is not to to target them on on the most high-profile problems, but actually on the millions of medium difficulty problems.”
- 中译： 我认为 AI 的最佳用例，其实不是让它们去对准那些最引人注目的顶尖难题，而是去处理那数以百万计的中等难度问题。
- 语境： 这是陶哲轩对 AI 在科研领域应用提出的核心论点。他认为，AI 最大的优势是规模化，应该用它来解决因人类专家精力有限而被长期忽视的、数量庞大的“长尾问题”，这比让它挑战单个“圣杯级”难题的价值大得多。
“If you take a thousand dimensional cube and you inscribe a thousand dimensional ball inside it, it’s actually incredibly tiny.”
- 中译： 如果你取一个一千维的立方体，在里面内切一个一千维的球，这个球实际上是小到不可思议的。
- 语境： 陶哲轩用这个反直觉的几何例子来说明，我们在低维世界（三维）中建立的直觉在 AI 运行的高维空间中是完全错误的。这解释了为什么 AI 的行为和决策对我们来说常常显得怪异和难以理解。