Jeff Dean and Noam Shazeer — 25 years at Google: from PageRank to AGI (2026-02-13, qwen3.5-397b-a17b)
1. 导读
当 Google 首席科学家 Jeff Dean 与 Transformer 架构共同发明人 Noam Shazeer 同席,这不仅是两位技术传奇的重聚,更是现代 AI 基础设施与算法架构两大支柱的深度对话。在 Gemini 模型刚刚跻身行业顶尖、算力焦虑弥漫全球的当下,这场对话揭示了 Google 对 AGI 路径的独特判断:从暴力堆叠训练算力转向推理侧的效率革命。他们坦诚了 Google 在聊天机器人浪潮初期的迟疑,并勾勒出一个“有机生长”的模型未来。然而,在这个看似宏大的技术愿景背后,隐藏着关于递归自我改进速度的惊人预测,以及随之而来的失控风险。
2. 核心观点
嘉宾的核心世界观建立在“软硬协同进化”之上:AI 的下一波突破不再单纯依赖模型参数规模的线性增长,而是源于算法架构的模块化革新与专用硬件(如 TPU)的深度耦合。这一观点挑战了当前行业迷信“大即正义”的共识,主张通过推理侧算力 scaling 和模型结构的有机化来实现能力跃迁。
-
推理侧算力将主导下一阶段增长 嘉宾断言,未来的模型能力提升将更多依赖“Inference Time Compute“(推理时算力)。Jeff Dean 指出,当前推理成本远低于阅读纸质书,存在巨大空间通过增加推理计算量来换取更高质量的输出(如搜索、验证、多步推理)。底层逻辑是算术成本极低而数据移动成本高,通过算法近似让模型在推理时“思考更久”。Gemini 的 Deep Research 工具已验证了异步长任务处理的可行性。
-
模型架构将走向“有机模块化” Noam Shazeer 提出,当前 monolithic(单体)训练模式效率低下,未来模型应像生物大脑一样“有机生长”。通过 Pathways 系统,模型的不同模块可独立训练、更新甚至替换(如专门负责数学或特定语言的模块)。底层逻辑是解耦复杂性,允许千人团队并行优化不同模块而非重新训练整个模型。这将彻底改变大模型的迭代周期和维护方式。
-
硬件与算法的递归闭环加速 嘉宾透露,AI 正在反向设计硬件。Jeff Dean 提到芯片设计周期有望从 18 个月缩短至数月,因为 AI 可自动化探索设计空间。更关键的是,AI 将参与 AI 研发本身(编写训练代码、提出架构想法)。底层逻辑是正反馈循环:更好的 AI 设计更好的芯片和算法,进而产生更强的 AI。这可能导致能力增长曲线从线性变为指数级。
-
数据效率而非数据规模是瓶颈 面对“数据耗尽论”,嘉宾认为当前模型样本效率远低于人类。人类通过主动交互和视觉学习,而模型仅被动预测 next token。底层逻辑是改变训练目标(如掩码、多模态交互),从现有数据中提取更多价值,而非无限寻找新文本。这为后预训练时代指明了方向。
这些观点环环相扣:硬件效率提升支撑推理 scaling,推理 scaling 需要模块化架构支持,而模块化架构又依赖 AI 辅助设计,最终形成一个加速进化的闭环。
3. 批判与质疑
尽管嘉宾构建了严密的技术演进图景,但外部视角下仍存在显著风险。首先,“有机模块化模型”虽具吸引力,但工程复杂度极高。动态路由、异步更新和模块间通信可能引入难以调试的不稳定性,尤其是在分布式数据中心环境下,同步训练的确定性优势可能被牺牲。其次,关于“AI 辅助 AI 研发”的加速 loop,嘉宾虽提及 safeguards(安全措施),但对“对齐漂移”的风险评估略显乐观。如果 AI 编写的训练代码存在隐性目标错位,人类 oversight 在递归加速中可能形同虚设。
此外,嘉宾承认 Google 早期因追求事实准确性而错失聊天机器人先机,这暴露了大公司在“安全”与“速度”之间的决策张力。在竞争白热化阶段,这种谨慎是否会导致再次落后?最后,关于推理 scaling 的经济性,虽然单次推理便宜,但若全球数十亿人高频使用“思考型”模型,总能耗是否会触及物理极限?嘉宾提到的“无限能源”假设过于理想化。
4. 行业视野
这场对话将 Google 的定位从“追随者”重新锚定为“架构定义者”。与 OpenAI 依赖 NVIDIA 通用算力不同,Google 坚持 TPU 垂直整合,这使其在推理成本优化上拥有更深的护城河。Jeff Dean 提到的“推理侧搜索”呼应了 Rich Sutton 的“Bitter Lesson“,即学习与搜索是唯二可扩展的技术,这为行业指明了除预训练外的第二增长曲线。
同时,关于“有机模型”的论述挑战了当前 Transformer 单体架构的统治地位,与 MoE(Mixture of Experts)的演进趋势一致,但走得更远。历史上,这与 Google 早期从单体数据库转向 BigTable/MapReduce 分布式系统的逻辑同构——当规模触及天花板,必须重构底层抽象。若此愿景实现,AI 行业将从“模型训练竞赛”转向“生态系统组装竞赛”,拥有模块化组件库的公司将占据主导。
5. 启示与建议
这场对话挑战了“模型越大越好”的单一假设,强化了“效率与架构”的重要性。
- 投资人:应关注推理侧优化技术(如量化、投机采样)及芯片设计自动化公司,而非仅盯着模型参数量。Google 对“推理算力需求指数级增长”的预测是强信号,意味着基础设施层仍有巨大溢价空间。
- 开发者:需准备从“编写代码”转向“管理 AI 代理”。嘉宾预测未来研究者将指挥 AI 进行实验探索。建议立即尝试构建基于 AI 的自动化工作流,特别是异步任务处理和多步验证逻辑,以适应“百万员工”般的算力协作模式。
- 政策制定者:需警惕“AI 设计 AI“带来的速度失控。嘉宾提到的反馈循环可能导致能力在数月内跃迁。建议将“可解释性模块”和“中断机制”纳入合规要求,而非仅关注最终输出内容。
需注意,关于“有机模型”的具体落地时间表仍是合理推断,而推理 scaling 的经济性则是已验证的强信号。
6. 金句摘录
“Talking to a language model is like 100 times cheaper than reading a paperback… There is a huge amount of headroom there to say, okay, if we can make this thing more expensive but smarter.” (跟语言模型对话比读平装书便宜 100 倍……这里有巨大空间让我们通过增加成本来让它变得更聪明。) 语境:Jeff Dean 论述推理侧算力 scaling 的经济可行性。
“I feel like this kind of more organic growth of expertise… when you want more expertise of that, you add some more capacity to the model there and let it learn a bit more on that kind of thing.” (我觉得这种更有机专业知识增长……当你需要某方面专长时,就在那里增加模型容量,让它多学点。) 语境:Noam Shazeer 描述未来模型架构应像生物大脑一样模块化生长。
“If you have a brilliant idea that is just certain to work in the ML domain, then it has a 2% chance of working… But if you try 100 things or 1,000 things or a million things, then you might hit on something amazing.” (即使是一个注定可行的绝妙想法,成功率也只有 2%……但如果你尝试 100 万件事,就可能击中奇迹。) 语境:Jeff Dean 解释为何需要自动化探索来加速科研突破。