Jeff Dean and Noam Shazeer — 25 years at Google: from PageRank to AGI (2026-02-13, gemini-3-flash-preview)
1. 导读
在硅谷的权力图谱中,Jeff Dean 和 Noam Shazeer 是两个近乎神话的名字。前者是谷歌大规模计算基础设施的奠基人,他的名字常与“性能优化”和“MapReduce”等改变互联网底层逻辑的技术联系在一起;后者则是《Attention is All You Need》论文的核心作者,亲手点燃了大语言模型(LLM)革命的导火索。随着 Noam 重返谷歌并与 Jeff 共同领导 Gemini 团队,这场对话不仅是一次对谷歌 25 年技术变迁的复盘,更是两位顶级大脑在“后 Transformer 时代”的一次深度共谋。
这场对话发生在谷歌凭借 Gemini 2 重回 AI 巅峰的关键时刻。读者将不仅看到 AI 架构如何从静态的“统计模型”演变为动态的“有机体”,还能洞察到谷歌如何利用其深厚的硬件底蕴(TPU)来对冲单纯算力竞赛的边际效应。文章将揭示一个令人不安却又兴奋的未来:当 AI 开始自主设计下一代芯片、自主编写 AI 算法并进入自我强化的反馈闭环时,人类作为“监督者”的角色将发生怎样的剧变?
2. 核心观点
嘉宾的核心世界观可以概括为:AI 正从“预训练优先”的静态霸权转向“推理与反馈优先”的动态有机系统。 他们认为,未来的 AGI 不应是一个每隔两年更新一次的庞大单体模型(Monolithic Model),而是一个能够根据任务难度自动调节算力支出、模块化生长并能像人类一样通过“思考”在推理端产生智能增量的“有机 blob(有机集合体)”。这种世界观之所以具有争议,是因为它挑战了目前行业内主流的“暴力美学”缩放法则(Scaling Laws),主张通过架构的极度复杂化来换取效率的极度优化。
关键判断:
- 算力成本的底层逻辑巨变:算术极其廉价,数据传输极其昂贵。 Noam 指出,深度学习之所以能成功,本质上是因为它顺应了硬件的演进趋势:矩阵乘法具有极高的计算强度(运算量远大于通信量)。Jeff 进一步背书,谷歌通过 TPU 实现了低精度(INT4/FP4)线性代数加速,这使得“让模型思考更久”在经济上变得可行。
- “推理侧缩放”将开启第二增长曲线。 嘉宾断言,当前的 AI 就像是“读书快、思考少”的学生。通过在推理时引入类似搜索(Search)和循环思考(Think harder)的机制,可以用 100 倍的推理算力换取 10 个智商点的提升。这意味着未来衡量模型能力的不再仅仅是参数量,而是它愿意为一个问题投入多少“思考额度”。
- 从单体模型转向模块化的“有机增长架构”。 Jeff 提出了一个极具野心的愿景:不再从零开始训练新模型(Gemini 3, 4…),而是像生物大脑一样,在原有模型上不断“嫁接”专家模块(MoE)。这种“Pathways”式的设计允许不同团队并行开发特定的技能模块(如 Haskell 编程专家),然后有机地整合进核心“Blob”中。
- AI 反馈闭环将导致“研究突破”的指数级加速。 对话中透露,谷歌内部 25% 的代码已由 AI 生成。Noam 认为,如果 AI 能自主探索算法空间、设计下一代芯片拓扑结构并进行小规模实验验证,那么“一天产生一个 Transformer 级的突破”在理论上是可能的。这种反馈闭环将极大缩短软硬件研发的生命周期(从 18 个月缩短至几周)。
- 谷歌的“搜索基因”是理解 AI 幻觉的双刃剑。 Jeff 承认谷歌在发布聊天机器人上动作迟缓,是因为搜索业务要求 100% 的准确性,而大模型本质上是“squishy(软绵绵的、模糊的)”概率分布。但他们现在认为,长上下文(Long Context)是解决幻觉的关键——将整个互联网或个人私有数据放入百万级的 Token 窗口,让模型在推理时有“据”可查,而非仅仅依赖模糊的参数记忆。
逻辑链条: 硬件决定了算法形态(算术廉价→深度学习),当前预训练数据的枯竭倒逼技术转向推理侧缩放,而为了支撑海量的、异构的推理需求,模型必须演进为可动态调节、有机生长的模块化架构,并最终通过自动化研究闭环实现自我进化。
3. 批判与质疑
尽管 Jeff 和 Noam 展示了谷歌强大的技术连贯性,但作为分析者,不得不指出其论述中的几个潜在盲区:
首先,“模块化有机生长(The Blob)”的工程复杂度可能导致“架构熵”的失控。 Jeff 设想的模块嫁接和异步更新在理论上极具吸引力,但在实际的大规模分布式训练中,如何保持不同模块间梯度的协同、避免灾难性遗忘(Catastrophic Forgetting),以及处理极其复杂的版本管理,目前尚缺乏透明的证据支撑。这种“生物性”的增长模式可能带来难以调试的系统性 Bug。
其次,他们对“AI 安全”的讨论带有浓厚的工程主义色彩。 Jeff 将安全类比为“飞机的安全软件开发”,这可能低估了 AGI 的对抗性。如果系统进入 Noam 提到的“自我强化反馈闭环”,其目标函数(Objective Function)的微小漂移可能在人类反应过来之前就已造成不可逆的后果。嘉宾倾向于相信“用 AI 检查 AI”是终极方案,但这依赖于一个未经验证的前提:防御者的识别能力永远优于攻击者的生成能力。
最后,关于“数据效率”的乐观可能存在幸存者偏差。 他们认为人类只需十亿词就能学会很多知识,因此 AI 还有巨大的样本效率提升空间。但人类学习带有极强的具身智能(Embodied Intelligence)和社交反馈,这是仅仅通过观察视频或文本的 LLM 难以通过“计算”补齐的。
4. 行业视野
这场对话揭示了谷歌与 OpenAI 等竞争对手之间深层的“流派之争”:
- 系统工程 vs. 算法黑盒: OpenAI 倾向于在标准架构上进行极端规模的压力测试,而谷歌(受 Jeff Dean 影响)更倾向于从底层硬件拓扑、内存层级(HBM 到 SRAM)出发,进行高度定制化的协同设计。
- “Bitter Lesson(苦涩的教训)”的回归: 对话多次致敬 Rich Sutton 的观点,即长期来看,只有“学习”和“搜索”两种方法能利用指数增长的算力。谷歌正试图将 20 年前在大规模分布式搜索中积累的“搜索”经验(如索引、剪枝、排序),重新注入 LLM 的推理过程。
- AGI 的形态共识正在分化: 行业正在告别“一个大模型解决所有问题”的幻觉,转向“基础大模型 + 动态专家链 + 智能代理(Agents)”的复合体。谷歌的“Blob”愿景实际上是对未来云端 AI 基础设施形态的预言。
5. 启示与建议
这场对话不仅是技术复盘,更是战略指向。
核心假设的重审:
- 挑战了“数据荒”是 AI 终点的假设: 嘉宾认为通过更高效的训练目标、推理侧计算和自我对话,AI 仍能实现数个数量级的性能提升。
- 强化了“软件定义硬件”的必然性: 只有深入到芯片层级的架构师,才能在 AGI 竞赛中获得最终的入场券。
针对不同读者的建议:
- 开发者与架构师:
- 关注“推理侧优化”而非仅仅预训练。 建议研究如何利用强化学习(RL)提升模型的逻辑搜索能力,开发能让模型“停下来想一想”的推理链条。
- 学习多模态长上下文处理。 随着百万级 Token 窗口的普及,如何设计高效的信息检索和处理架构(RAG 与长上下文模型的融合)将是核心竞争力。
- 创业者与投资人:
- 寻找“AI 基础设施自动化”的机会。 如果未来的芯片设计和算法探索将由 AI 闭环完成,那么处于这些节点上的自动化工具、验证系统和“AI 实验室操作系统”将具有极高的商业价值。
- 警惕单纯的“模型套壳”。 谷歌正在将各种专业能力(如编程、医疗、长视频理解)原生化到 Gemini 的架构中,单纯依赖模型微调的垂直领域机会正在收窄。
- 研究者:
- 深入探索“样本效率(Sample Efficiency)”。 思考如何改变预测下一个 Token 的单一目标,引入更多类似人类的主动探索或逻辑约束机制。
结语: 这场对话传达的强信号是:AI 的天花板远未达到,但通往天花板的路径正从“增加算力”转向“优化智能的生产成本”。
6. 金句摘录
- “Arithmetic is very, very cheap, and moving data around is comparatively much more expensive.”
- (算术极其廉价,而数据传输相比之下要昂贵得多。)—— 语境:Noam 用这句话总结了深度学习之所以主宰当今世界的底层硬件逻辑。
- “Talking to a language model is 100 times cheaper than reading a paperback [book].”
- (和语言模型交流的成本比读一本纸质书便宜 100 倍。)—— 语境:Noam 旨在说明 AI 的推理成本极低,这为增加“推理侧计算”以换取智能提升留下了巨大的经济余量。
- “I’ve stopped cleaning my garage because I’m waiting for the robots.”
- (我已经不再打扫车库了,因为我在等机器人来干。)—— 语境:Noam 以这种幽默的方式表达了他对 AGI 反馈闭环可能导致技术爆发式增长(爆炸)的坚定信念。
- “Maybe the system shouldn’t decide to come up with new axioms of set theory to compute ‘what’s 1+1’.”
- (也许系统不应该为了算‘1+1 等于几’而去发明一套新的集合论公理。)—— 语境:Jeff 讨论动态推理算力分配时,强调系统需要学会根据任务难度智能调节投入的能量。