State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI (2026-01-31, gemini-2.5-pro)
1. 背景与价值
在人工智能领域,进展的速度之快使得任何年度回顾都极易沦为一连串技术名词的罗列。然而,这场由 Lex Fridman 主持,邀请了 Sebastian Raschka 和 Nathan Lambert 的对话,却成功超越了简单的盘点。Raschka 作为从零构建模型的教育者,代表了对第一性原理的深刻理解;Lambert 则在艾伦人工智能研究所(AI2)负责模型训练的后期阶段,身处前沿实践的核心。他们的组合,使得这场讨论在“理论应然”与“工程实然”之间找到了一个绝佳的平衡点,为我们提供了一个罕见的、兼具深度与广度的行业快照。对话的价值在于,它不仅梳理了过去一年的技术脉络,更重要的是揭示了驱动这些变化的底层力量——从算力经济学到地缘政治,再到组织文化——并为接下来一年的关键决策(无论是技术选型、投资方向还是职业路径)提供了清晰的思考框架。
对话的核心论点是:大型语言模型(LLM)的革命正进入一个全新的阶段,其核心矛盾已从“架构创新”转向“训练与推理的经济学”。 一方面,自 Transformer 架构诞生以来,模型的基本蓝图几乎没有发生根本性改变,呈现出一种“架构停滞”的表象。但另一方面,模型的实际能力却在以惊人的速度解锁,其背后的驱动力不再是颠覆性的新算法,而是对现有框架的极致优化——包括更精细的数据管理、更高效的后训练(Post-training)技术(如 RLVR),以及在推理阶段投入更多算力的“蛮力”方法。这个世界观的争议性在于,它暗示了AI领域的竞争正从一场“天才科学家的灵感竞赛”转变为一场“资本、数据和系统工程的消耗战”。如果这一判断成立,那么行业的进入门槛、创新来源和最终的权力格局都将被重塑,而那些仍在期待下一个“Attention Is All You Need”式突破的参与者,可能会被时代的列车无情抛下。
2. 核心观点
1. “DeepSeek 时刻“重塑了竞争格局:中国已成为开源权重(Open-Weight)模型的创新中心
嘉宾认为,2025年1月中国公司 DeepSeek 发布的模型是一个转折点,它标志着中国力量在高性能开源模型领域的崛起。这一趋势的底层逻辑是地缘政治与商业策略的结合:出于安全和数据主权的考虑,许多美国及西方公司不愿直接调用中国公司的API服务。因此,发布开源权重模型成为中国公司输出技术影响力、渗透全球开发者生态系统的唯一有效途径。这种模式下,它们不直接通过API收费,而是通过建立技术标准和生态系统来捕获价值。对话中提到的 Z.ai、MiniMax、Moonshot AI (Kimi) 等公司,正是在 DeepSeek 开创的道路上持续发力,形成了一个强大的“中国开源军团”,其模型在性能上已与西方顶尖开源模型(如 Mistral、Llama)并驾齐驱甚至在某些方面超越。
2. 架构创新趋于停滞,真正的战场已转移到训练算法、数据和系统工程
嘉宾 Raschka 明确指出,当前所有顶尖的 LLM 在架构上仍是 GPT-2 的直系后代,核心的 Transformer 模块并未发生颠覆性改变。所谓的架构迭代,更多是组件级别的微调,例如用 RMSNorm 替代 LayerNorm,或采用 Group Query Attention 等注意力机制的变体。真正的性能飞跃来自三个方面:第一是训练算法的进化,特别是从预训练(Pre-training)、中段训练(Mid-training)到后训练(Post-training)的流水线愈发成熟,尤其是以 RLVR(Reinforcement Learning with Verifiable Rewards)为代表的后训练技术,极大地解锁了模型的推理和工具使用能力。第二是数据质量的胜利,高质量、精心筛选的数据(如 AI2 的 Dolma 数据集)比单纯增加数据量更能提升模型性能。第三是系统工程的极限压榨,例如使用 FP8/FP4 低精度训练来提升吞吐量(tokens/sec/GPU),这使得在同等时间和成本下,模型能“吃”进更多数据,学得更好。
3. 缩放定律(Scaling Laws)依然有效,但重心已从预训练转向后训练与推理时计算
嘉宾们普遍认为缩放定律——即投入更多算力、数据和更大模型尺寸就能换来更好性能——并未失效。然而,其应用的“性价比”正在发生变化。预训练的边际效益正在递减且成本极其高昂(DeepSeek 模型预训练成本约500万美元,服务数亿用户的推理成本则高达数十亿美元)。相比之下,后训练和推理时(Inference-time)的缩放展现出更高的投资回报率。例如,OpenAI 的 o1 模型通过在推理时投入更多计算(即“思考”更长时间),让一个相对较小的模型在复杂任务上的表现超过了单纯靠预训练堆砌起来的更大模型。同样,RLVR 的训练过程也可以通过延长“试错”时间来持续提升模型在特定领域(如数学、编程)的能力。这意味着,竞争优势不再仅仅取决于谁能烧钱训练出最大的基础模型,而更多地取决于谁能更聪明地分配算力预算,在后训练和推理环节实现“能力放大”。
4. RLVR 是解锁“推理能力”的关键,它教会模型如何“解决问题”而非“模仿答案”
对话深入探讨了2025年的关键技术 RLVR。其核心逻辑是,传统 RLHF 依赖人类偏好数据,容易使模型学会“讨好人类”的说话风格,但在解决有明确对错的问题(如数学、代码)上能力有限。RLVR 则不同,它为模型设定一个可被程序自动验证的目标(例如,数学题的最终答案是否正确),然后让模型在大量尝试中自主探索通往正确答案的路径。这个过程中,模型会自发学习到“链式思考”(Chain-of-Thought)和“自我修正”(如 DeepSeek R1 论文中著名的“aha moment”),其生成的中间步骤即使不完美,这个“思考过程”本身也能显著提高最终答案的准确率。嘉宾认为,这才是模型从一个“语言模仿器”转变为一个“问题解决器”的关键一步。
5. “通用人工智能”(AGI)的梦想正在消亡,取而代之的是由专用模型和工具构成的智能生态
嘉宾观察到,行业正从追求一个“万能的”通用模型,转向构建一系列在特定领域(如编程领域的 Claude Code)表现卓越的专用模型。这种转变的背后是商业现实:通用聊天机器人的市场虽然广阔,但利润微薄且极易被商品化。真正的商业价值存在于能为特定行业(金融、法律、制药)解决高价值问题的专用AI。这些专用模型可以通过在专有数据上进行持续的预训练或精调(fine-tuning)来构建护城河。此外,工具使用(Tool Use)能力的成熟,使得模型不再需要将所有知识内化于自身参数中,而是可以调用外部计算器、搜索引擎或API,这进一步强化了“模型即大脑,工具即手脚”的生态范式,而非追求一个无所不知的“神”。
这五个观点构成了一个完整的逻辑链:始于地缘政治驱动的开源模型竞赛(1),这些模型在统一的架构下(2),通过优化训练与推理的算力经济学(3),并借助 RLVR 等关键技术解锁推理能力(4),最终将导向一个由专用、工具增强型AI主导的未来(5),而非单一的AGI。
3. 批判与质疑
尽管嘉宾的论述体系逻辑严密且富有洞见,但仍有一些前提假设值得审视,以及一些被淡化的风险。
- 对 “RLVR解锁推理” 的解释可能过于乐观:对话中承认,Qwen 等模型在数学基准测试上的优异表现可能源于“数据污染”(即测试集内容以某种形式出现在训练集中)。这意味着,RLVR 的惊人效果可能并非教会了模型真正的数学推理,而只是更高效地“解锁”或“格式化”了其在预训练阶段已经“背诵”下来的知识。嘉宾间的简短辩论恰恰点明了这个悬而未决的核心问题:我们看到的究竟是涌现的智能,还是一种更高级的模式匹配?
- 低估了开源生态的商业化困境:嘉宾指出中国公司通过开源来“赢得影响力”,但影响力如何转化为可持续的商业模式,对话并未深入探讨。这是一个关键的未经验证的前提。如果最终无法找到有效的盈利路径,这种依赖巨额资本输血的开源军备竞赛可能难以为继,导致行业整合甚至泡沫破裂。
- “架构停滞”的论断可能存在短视风险:虽然当前 Transformer 处于统治地位,但断言其将长期不变是危险的。对话中提及的文本扩散模型(Text Diffusion Models)、状态空间模型(Mamba)等替代方案虽未成主流,但可能在特定场景(如需要并行生成、低延迟)取得突破。完全聚焦于在现有框架内进行优化,可能会错失下一代架构出现的信号。
- 对“AI 消耗战”的社会成本讨论不足:嘉宾提到996工作文化是AI高速发展的驱动力之一,但对其造成的“人力资本损耗”(human capital expense)和创新生态的长期健康影响一笔带过。将竞争简化为资本和算力的比拼,忽视了人才培养、学术自由和工作生活平衡等软性因素,而这些因素恰恰是长期创新的基石。
- “工具使用”的安全风险被简化:虽然提到了用户不愿授权AI访问私人邮件的信任问题,但对话并未充分展开工具使用带来的深层安全挑战。一个能够自主调用API和执行代码的AI,其潜在的破坏力远超一个只会聊天的模型。如何建立可靠的沙箱环境、进行权限管理和应对恶意利用,是该范式走向大规模应用前必须解决但在此次讨论中被忽略的关键问题。
4. 行业视野
这场对话为我们提供了一个精准的行业坐标,使其观点能够与更广泛的趋势和历史形成对话。
- 印证了“后训练时代”的到来:这场对话是对 Andrej Karpathy 等人提出的“AI进入系统2.0时代”的强力印证。即,价值创造的重心正从基础模型(System 1.0)的构建,转移到如何通过精巧的训练、提示工程、工具集成和产品设计来驾驭这些模型(System 2.0)。RLVR 和推理时计算就是 System 2.0 的核心技术。
- 挑战了“越大越好”的朴素缩放主义:在2022-2024年,行业的普遍共识是“参数量为王”。而这场对话的核心观点——后训练和推理时计算的性价比更高——则标志着行业开始从“朴素缩放主义”向“智能缩放主义”转变。这挑战了那些认为只要有足够多的GPU就能赢得AI竞赛的观点,强调了算法和策略的价值。
- 呼应了 PC 时代的“开放 vs. 封闭”之争:中美在AI领域的竞争格局,尤其是中国公司借助“开源权重”策略对抗美国公司的“API即服务”模式,与上世纪80年代IBM PC的开放架构对抗苹果Macintosh的封闭一体化生态的历史形成了惊人的呼应。历史告诉我们,开放生态系统往往能在多样性和开发者基础上取得长期优势,这为当前中国AI公司的战略选择提供了历史注脚。
- 与“数据即护城河”的传统观念形成张力:嘉宾提到,拥有海量专有数据的传统巨头(如金融、制药公司)未来可能自行训练模型。这与当前“得大模型者得天下”的观点形成了张力。它暗示着,未来AI的权力格局可能不会完全集中在少数几家科技巨头手中,而是会向拥有高质量、独特数据集的行业领导者分散。
5. 启示与建议
这场对话挑战的核心假设是:竞争优势源于构建一个更大、更通用的基础模型。 它强化的新假设是:竞争优势源于对现有模型进行高效“能力解锁”和“场景适配”的工程与数据能力。
对开发者与产品经理的建议:
- 拥抱“后训练”技术栈,而不只是调用API:不要将自己定位为单纯的API消费者。应投入时间学习和实践以 RLVR、DPO(Direct Preference Optimization)和 LoRA 微调为代表的后训练技术。在你的项目中,尝试使用 Qwen、DeepSeek 等高性能开源模型,针对特定任务进行微调,这可能在成本和性能上超越直接使用通用闭源API。
- 以“工具使用”为核心重新设计产品:将你的产品视为一个能被LLM调用的“工具集”。设计的重点应从“如何让用户与LLM对话”转向“如何让LLM调用你的产品API来为用户完成任务”。这意味着需要提供清晰、稳定、对LLM友好的API,并围绕这些API构建agentic(代理式)工作流。
对投资人的建议:
- 关注“数据飞轮”而非“模型大小”:投资标的的核心竞争力不应是其基础模型比别人大10%,而应是其产品能否创造一个独特的“数据飞轮”——即用户使用产品越多,产生的数据越能被用于高效的后训练(特别是RLVR),从而让模型在该领域越智能,进而吸引更多用户。Cursor 每90分钟更新一次模型的例子就是典型。
- 寻找“AI军火商”中的新机会:随着竞争焦点转向后训练和推理,价值链上的新机会正在出现。除了GPU,关注那些提供高效RL训练框架、数据标注与合成、推理时计算优化(如 vLLM)以及模型评估与安全服务的公司。这些是新时代的“镐和铲子”。
对创业者的建议:
- 切入点:在垂直领域实现“RLVR闭环”:选择一个结果可被清晰验证(verifiable)的垂直领域(如软件测试、合同审查、科学计算),构建一个基于RLVR的自改进系统。你的护城河不是基础模型,而是那个能持续产生“问题-尝试-验证-奖励”循环的专有环境和数据集。
- 重新审视假设:开源模型是你的盟友,而非威胁:不要试图从零开始构建基础模型。利用中国和西方最强的开源模型作为起点,将你有限的资源聚焦于数据和后训练。这些开源模型为你解决了80%的问题,你的任务是完成那决定成败的最后20%。
结论强度说明:嘉宾们对 “后训练”重要性的提升 和 中国开源模型的崛起 提供了非常强的信号,这基于他们的一线观察和明确的数据点。而关于 AGI梦想的消亡 和 未来商业模式的最终形态,则更多是基于当前趋势的合理推断,不确定性较高,读者应在此处保留批判性视角。
6. 金句摘录
-
“I think that dream is actually kind of dying.”
- 中文意译:“我认为那个(通用人工智能的)梦想实际上正在消亡。”
- 语境:Nathan Lambert 在讨论行业趋势时,认为追求单一、万能的AGI模型的热情正在减退,取而代之的是构建在特定领域(如编程)表现卓越的专用模型。这句话挑战了AI领域的终极宏大叙事,点明了技术正向更务实、更商业化的方向发展。
-
“If you are planning a huge cluster to be held for two months and then it fails on day 50, the opportunity costs are just so big.”
- 中文意译:“如果你计划占用一个庞大的计算集群两个月,结果它在第50天崩了,那么机会成本是极其巨大的。”
- 语境:Nathan Lambert 解释为什么实验室不再轻易进行像训练GPT-4那样长达数月的“YOLO式”豪赌。这句话以一种极其具体和残酷的方式,揭示了前沿AI研究背后巨大的工程风险和经济压力,将抽象的“缩放定律”拉回了现实世界。
-
“One issue in society in the future will be: how do you become an expert if you never try to do the thing yourself?”
- 中文意…译:“未来社会的一个问题将是:如果你从不亲手尝试,又要如何成为专家?”
- 语境:Sebastian Raschka 在评论“资深开发者比初级开发者更依赖AI写代码”的调查时提出的担忧。这句话触及了AI时代一个深刻的教育和认知悖论——工具的强大可能会剥夺我们通过“有益的挣扎”(productive struggle)来建立深度专业知识的过程。