Terence Tao: Nobody Understands Why AI Actually Works (2025-12-31, deepseek-chat)
1. 导读
Terence Tao 被公认为当代最伟大的在世数学家之一。当这样一位头脑与播客主持人面对面时,对话注定不会停留在教科书层面。但这期节目的真正价值不在于 Tao 对素数、高维几何或压缩感知的精彩解读——这些只是冰山一角。整场谈话的核心张力,藏在一个更令人不安的问题里:为什么我们最成功的数学工具,越来越无法解释自己为何成功?
从 LLM 的“黑箱”到物理学中未被解答的深层问题,Tao 反复触碰同一个边界:我们拥有大量极其有效的数学方法,却对它们的边界与失效条件几乎一无所知。这不仅仅是数学家的困境,而是整个知识体系正在面临的根本挑战——而能清晰描述这个困境的人,可能比谁都有资格。
2. 核心观点
Tao 的核心世界观是:数学知识体系正在遭遇一场“有效性危机”,不是因为数学不管用了,而是因为它太好用了——好到我们开始不理解它为何能用。他认为,当前 AI 的“不可理解性”、物理学理论的过度灵活、以及教育体系无法验证信息的能力,共同指向同一个根源:我们擅长发明数学工具,却不擅长理解这些工具的局限。这是一个罕见地从内部视角提出的警告——不是反技术,而是对“信任”本身的深刻反思。
“当前 LLM 的根本问题是概率性而非确定性” Tao 一针见血地指出,大型语言模型的核心缺陷不是它们会犯错,而是它们无法知道自己错了。他用了一个精妙类比:就像一个紧张的学生在黑板上即兴发挥,“可能对,可能错,但一旦偏离轨道,会错得极其离谱。” 这种不靠谱不是 bug,而是架构性特征——因为 LLM 本质上是概率生成器,而不是推理机。Tao 特别强调,即使它们能生成看似连贯的“思维链”解释,这些解释也常常是“完全的废话”。
“数学语言的低效压缩,才是它与物理世界重合的原因” 这是对 Wigner 著名论点“数学在自然科学中不可思议的有效性”的反向解释。Tao 认为,数学之所以有效,恰恰因为它不是自然语言——它被刻意优化为“对宇宙的最优压缩描述”。数学语言经过数千年演化,删除了所有冗余和情感色彩,只保留最精确的结构。因此,当爱因斯坦发现广义相对论可以用黎曼几何描述时,这不是巧合,而是因为两者追求的是同样的东西:用最简洁的数学模型拟合最广泛的观测事实。这个视角将“数学是发明还是发现”的经典辩论转化为一个更具体的机制问题:压缩效率越高,越逼近本质。
“高维几何中,人类的直觉是系统性地错误的” Tao 用一个惊人的例子说明了这一点:在 1000 维空间中,一个内切球体只占据对应立方体体积的 0.0001%。而在二维或三维中,这个比例高达50%-75%。这听起来像 trivia,但对现代数据科学有致命影响——因为当你用“误差球”来衡量高维数据的准确性时,球和立方体的差异会急剧放大,你的错误估计可能差出几个数量级。这些反直觉的高维现象正是当前 AI 和信号处理中许多“意外成功”和“意外失败”的根源。
“AI 的最佳用途是解决百万个中等难度问题,而不是一个顶级难题” Tao 对 AI 的角色给出了与众不同的定位。他认为,人类数学家天然倾向于聚焦“高价值、高优先级”的孤岛问题——比如千年大奖问题。但数学和科学中存在一条“长尾”:数百万个不那么耀眼但同样重要的小问题,它们被系统性忽略只是因为人力不足。AI 在这里的优势不是质量和洞察力,而是规模。即使 AI 只能解决其中 10% 的问题,那也是 10 万个被解决的问题。这个观点挑战了“AI 应该替代顶尖专家”的主流叙事。
“验证能力,将取代知识记忆成为最关键的技能” 这是 Tao 对教育未来的核心判断。他指出,过去低质量信息往往伴随低质量呈现——你能从排版和语法判断一本教科书是否可靠。但现在,AI 生成的内容“看起来完美无缺”但“充满了根本性错误”。数学作业可以被 AI 完成,论文可以被 AI 草拟。这意味着教育的重心必须从“获取知识”转向“批判性验证”。他引用了一个正在出现的教学实验:教师直接给 ChatGPT 拟好的问题答案,让学生去“纠错”——在这个世界里,“信任”的练习比“知道”的练习重要得多。
“数学研究的社会学,比数学技术本身更需要被现代化” Tao 透露自己现在的研究兴趣正在转向“数学的新工作流”——不是证明新定理,而是重塑数学如何被创造、协作和传播。他观察到,数学的研究方式“几百年来没有根本变化”:还是笔和纸、两三个人的合作小组、高门槛的技术语言。相比之下,物理学已经习惯了数千人规模的协作。他明确表示,这种过时的社会学结构使得数学无法有效吸收数据科学、社交网络分析等领域的新挑战,也无法充分利用 AI 等新工具。
这六个判断形成了一个层层递进的逻辑链:从 AI 的不可靠性根源(概率性架构),到数学与物理世界重合的机制(压缩效率),到高维几何的反直觉陷阱,再到 AI 的真正应用场景(长尾问题),最后指向教育和社会学层面的根本变革。Tao 的论述本质上是在回答一个元问题:当你的工具越来越强大,但越来越不可理解时,你该信任什么?
3. 批判与质疑
Tao 的观点体系锐利但有明显盲区。首先,他对 LLM “概率性输出” 的批评虽然准确,但忽略了“人类推理同样具有概率性”这一事实。人类数学家也会犯错,也会在直觉引导下误入歧途。区别在于容错机制不同,而不是错误的有无。Tao 所说的“100% 水到渠成的数学证明”只存在于理想化的教科书中;在实际研究中,错误和修正才是常态。他理想化了人类数学实践,以此来对比 AI 的缺陷,这本身就不完全公平。
其次,他对数学语言与物理世界“重合”的解释——压缩效率——虽然优美,但回避了一个重要问题:为什么宇宙恰好可以被压缩?这是一个更深层的预设。数学家可以通过无数次迭代选择出高效的抽象结构,但这并不能解释为什么这些结构恰好能拟合实验数据。换言之,Tao 解释了“如何”有效,但没有解释“为何”有效——这才是 Wigner 问题的核心。
第三,他对 AI 大规模解决中等难度问题的乐观估计,严重低估了问题的多样性和验证的复杂性。每个中等难度问题都有其特殊背景和条件依赖;即使是格式化的数学问题,也需要上下文理解。AI 在 3 万个问题上的 10% 成功率和在 3 个问题上的 10% 成功率,其实际价值天差地别——因为千万个零散问题的验证成本可能超过它们带来的收益。
对话结束时仍未解决的核心问题是:如果 AI 的不靠谱是架构性的,那么“验证”本身不也是一个可以被 AI 模拟的行为吗?一旦 AI 学会生成“看起来验证无误”的输出,我们的批判性验证系统是否也会失效?Tao 没有正面回答这个递归困境。
4. 行业视野
Tao 的论述恰好在三个关键点上与当代科技讨论形成共振:
与“可解释 AI”运动的关系:Tao 所说的“我们不知道为什么 AI 能工作”,直接呼应了过去五年里愈演愈烈的 XAI(Explainable AI)需求。不同的是,大多数 XAI 讨论来自安全或监管角度,而 Tao 从知识论角度给出了同样结论——这不是工程问题,而是基础数学问题。我们没有针对“部分结构化数据”的数学理论,因此无法先验地预测 AI 系统的性能边界。
与物理学基础危机的呼应:Tao 对“物理学模型过于灵活”的评论,与弦理论、多重宇宙等理论所面临的“不可证伪性”批评高度一致。当 Popper 的可证伪性标准越来越难以满足时,Tao 建议“不要混淆模型与现实”——但这恰恰是现代物理学正在做的事:模型越来越脱离可观测数据,变成了纯数学构造。
与教育技术变革的历史类比:Tao 指出的“验证能力取代记忆能力”,并非全新观点,但他在当前 AI 门槛上的具体化极其及时。1990 年代,搜索引擎的出现让“记住事实”贬值;2020 年代,LLM 的出现让“能写出正确答案”贬值——教育体系尚未完全消化第一次冲击,第二次已经来了。Tao 建议的“纠错式教学”类似于编程教育中从“写代码”向“调试代码”的转变,但这个类比在数学推理中是否成立,仍有待验证。
5. 启示与建议
这场对话最有力的挑战在于:它动摇了我们对“专业知识”的默认假设——专业知识的价值正在从“知道答案”转向“知道答案是否可信”。尤其对于以下三类读者:
AI 领域的研究者和工程师:不要被模型的“推理能力”幻觉所迷惑。Tao 反复强调,即使模型能生成看似合理的思维链,你也无法在没有先验知识的情况下判断其正确性。建议:在生产环境中,始终为 AI 输出保留一个独立于 AI 的验证环节——无论是人类审查还是形式化验证系统。不要因为 AI 在训练集内的表现优异就假设它能推广到训练集外的问题。这个规律不仅适用于数学,也适用于代码生成、法律文书、医疗诊断等所有需要可靠性保证的场景。
投资者和创业者:Tao 关于“AI 应专注长尾中等难度问题”的判断给出了一个有价值的风向标。与其追逐“替代顶级专家”的叙事,不如关注那些因为人力成本过高而被忽视的中等复杂度任务——例如软件测试用例生成、中等规模的数学公式推导、标准化的文档审查。这些市场的规模不是问题总数的线性函数,而是边际成本的函数——一旦 AI 能把每个问题从“不值得做个案处理”变成“值得批量处理”,估值逻辑会彻底改写。
教育者和政策制定者:教育的当务之急不应是“教学生使用 AI”,而是“教学生怀疑 AI”。建议:立即试点“反向作业”——教师提供 AI 生成的答案,要求学生识别其中的错误模式,并归类为“常识性错误”、“统计幻觉”还是“逻辑漏洞”。另一个具体方向是重构考核体系:从“给答案”转向“给评估”。一个能准确判断他人推导是否正确的学生,比一个能自己推导的学生更有未来竞争力。
以上结论中,关于 AI 不可靠性根源的讨论属于强信号——这是数学架构层面的基本事实,不太可能被突破。关于教育体系应转向验证能力也属于强信号,因为技术已经使记忆和初级推理能力贬值。但 Tao 关于“数学社会学需要现代化”的论述更多是合理推断——他本人承认这是一个“正在形成中的方向”,尚未有大规模实践验证,需要读者对此打折扣。
6. 金句摘录
“The big weakness of these AIs right now is that they can begin to produce output that looks like say a human mathematician reasoning their way through a problem, but it’s not grounded that it’s probabilistic.” “这些 AI 最大的弱点是,它们能生成看起来像人类数学家推理过程的输出,但这不是有根基的——它是概率性的。”
—— Tao 在对比 AI 与人类数学家的信任基础时所说。这句话精准点出了当前 LLM 的致命伤:不是会犯错,而是无法区分对错。
“The mystery is not so much how they run… but what is surprising is that it works really well for certain tasks, and it doesn’t work well for others. And we don’t know in advance.” “谜题不在于它们如何运行……令人惊讶的是,它对某些任务效果极好,对另一些任务完全不行。而我们事先无法知道。”
—— Tao 回答“AI 究竟有多复杂”时说的。这句话道出了所有从业者心知肚明却很少明说的尴尬:我们基于经验主义操作,而非理论指导。
“We don’t have good mathematics for partially structured objects… It’s analogous to physics — at the meso scale, there’s lots of intermediate structures, like biological cells. It’s emergent.” “我们没有关于‘部分结构化对象’的好数学理论……这类似于物理学中的介观尺度——有很多中间结构,比如生物细胞。这是涌现现象。”
—— Tao 解释为什么无法先验预测 AI 行为。他用“介观结构”这一物理类比,揭示了一个被数学界长期忽视的基础问题。
“The way we’ve done mathematics has not changed fundamentally in centuries. You know, we still work with pen and paper… Our collaborations are still very small.” “我们做数学的方式,几百年没有根本变化。依然是笔和纸……合作规模依然非常小。”
—— Tao 在描述自己最近的研究兴趣转向“数学的社会学”时所说。一句话把数学界最深层的老化问题摆上台面。
“One thing that will become more important is students will need to have much more training in how to validate information that they see… our ability to produce high-quality presentation has far outpaced our ability to produce high-quality content.” “有一件事会变得更重要:学生需要更多训练来验证他们看到的信息……我们生产高质量呈现的能力,已经远超我们生产高质量内容的能力。”
—— Tao 对教育未来的核心判断。这句话值得被每个课程设计者钉在墙上:当形式可以完美伪装内容,人类唯一的防线只剩批判性思维。