2026年人工智能现状:大语言模型、编程、缩放定律、中国、智能体、图形处理器、通用人工智能 (2026-01-31, glm-4.7-flash)
AI深度观察报告:LLM现状与未来演进
1. 背景与价值
本期播客之所以值得深度研读,是因为它罕见地将技术实现的底层逻辑与地缘政治、产业格局的复杂现实结合在一起。Sebastian Raschka和Nathan Lambert分别是Transformer技术教育和RLHF(人类反馈强化学习)领域的标杆人物。在AI行业充斥着宏大叙事和神秘感之际,他们以科研者的诚实,系统拆解了“DeepSeek时刻”后的行业架构:从MoE(混合专家)模型的工程细节,到“基础模型 perpetual youth”(RLVR)的革命性意义,再到“中美双雄”博弈下的开源策略。这不仅解答了技术困惑,更揭示了:谁拥有未来的资源(算力与数据),以及谁掌握了定义未来的物资(开源权重)。
本期对话的核心论点在于**“Scaling is Mechanical, Not Magical”**(扩展是机械性的,而非魔法)。嘉宾认为,Transformer架构的代际跃迁已经结束,目前的进步本质上是工程优化(MoE效率、KV cache压缩、系统调度)和训练范式的微观改进,而非新奇忆忆的诞生。这种观点极具争议,因为它消解了“AGI飞跃”的神圣感,转而强调“难啃的骨头”正在从研究算法向边际工程和组织效率转移,这对认为AI进程正经历爆发性质变的投资者构成了严峻的现实挑战。
2. 核心观点
观点1:架构研究已进入“深水区”,Scaling的重点从“新模型”转向“新范式”(RLVR) Sebastian Raschka断言,从GPT-2到当前的GPT-OSS,底层数学架构没有发生根本性改变,主要特征是MoE和KV Cache的变体。真正的差距在于“能力解锁”,而非“模型生成”。
- 逻辑支撑:模型性能的瓶颈不再是如何设计更复杂的Attention机制,而是如何在合成数据、OCR处理和大规模推理验证上进行数据富集。
- 证据背书:叙述中提到了DeepSeek R1和OpenAI的o1模型,它们并非因为模型参数量翻倍变强,而是因为引入了RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)。这种技术让模型像人类学生一样尝试步骤并自我纠错,从而在数学和编码任务上实现线性性能提升。Sebastian指出,RLHF(偏好对齐)由于存在“信号饱和”,难以通过单纯增加计算量来线性提升,而RLVR则遵循清晰的Scaling Law。
观点2:新一代竞争的核心是“开放权重”的地缘政治博弈 Nathan Lambert提出了一个反直觉的推断:美国在通用大模型上的优势正在被中国的“开放权重”策略稀释。美国企业被迫进入“开源竞赛”以维持开发者和市场份额。
- 逻辑支撑:中国企业(如DeepSeek、Z.ai、MiniMax)为了绕过出口管制并抢占全球市场,积极发布无限制开源模型。美国企业如果仅依赖闭源API订阅,面对的是昂贵的流失成本。更重要的是,开源模型赋予了企业主极强的定制能力,这是闭源API难以替代的“数据护城河”。
- 证据背书:Nathan提到NVIDIA正在通过Nemotron等模型配合数据集开源来响应这一趋势,并详细描述了由他为首的“Adam Project”(致力于建设美国开源框架)。他还指出,OPenAI的gpt-oss-120b是版图转变的关键,因为它在工具调用上比竞争对手更优,但如果不做出改变,美国企业将失去塑造未来技术标准的话语权。
观点3:Inference Scaling(推理扩展)正在重构“智能”的定义 嘉宾认为,智能不仅是模型大小,更是“思考的时间”。通过延长推理时计算(推理过程中生成的Token数量),模型可以在小模型上获得大模型的智商。
- 逻辑支撑:以前的LLM只回答第一件事;现在的LLM(如o1)会生成隐藏思考过程。这种“瞎折腾”的过程实际上让模型学会了推理的技巧。这是对Sum of Dots Theory(点之和理论)的实证:模型的知识已经存在于预训练中,只需要通过更多的推理步骤来“激活”它。
- 证据背书:Sebastian提到RLVR能让Qwen基础模型在50步内将数学正确率从15%提升至50%,证明了这种训练范式能快速释放已有知识。
观点4:工具调用是民用市场向“类人Agent”转型的最大拦路虎 虽然模型在代码生成上很强,但在“Computer Use”(让LLM控制你的鼠标和键盘)上依然笨拙,这是阻碍AGI落地最大的环境壁垒。
- 逻辑支撑:目前的LLM只能调用后端API,但要做到像人类一样操作一个复杂的浏览器环境(如图形界面),需要理解像素、物理位置和多重交互,目前的Transformer架构难以胜任这种连续环境的交互模拟。
- 证据背书:嘉宾提到各家实验室(包括OpenAI)、的各种演示都非常糟糕,因为Web和操作系统的复杂性远超LLM当前的“世界模型”。
3. 批判与质疑
- “RLVR即魔法”的迷思:尽管嘉宾高度推崇RLVR,但学术界内部对“RLVR是否真的在学习新东西”存在极激烈的怀疑。Sebastian本人也承认,Qwen模型在RLVR测试中表现好,可能是因为训练数据中已经包含了相似的问题(数据污染)。如果RLVR本质上只是在“更聪明地作弊”或“复现训练集”,那么其作为通用可扩展范式的有效性将大打折扣。如果这是未来几年的主要技术突破方向,那么整个AI行业必须在数据清洗上投入比过去多10倍的精力。
- “数据富集”的不可持续性:嘉宾多次提到OCR(光学字符识别)、Legal/Pharma私有数据和高质量的合成数据。然而,这些数据的获取成本极高。当全世界的顶级LLM都在像鲸鱼吸水一样“吃掉”剩下的高质量数字资产时,数据枯竭的风险正在迫近。如果找不到无穷尽的优质数据源,单纯靠RLVR堆算力带来的性能提升会迅速触碰到天花板,届时,昂贵的算力投入将变成沉没成本。
- 地缘政治误判的风险:Nathan Lambert主张美国应通过“开源”击败中国的“政权依赖”。这种观点假定全球(特别是欧美企业)会为了合规和定制化而放弃性能更强的私有模型,转而使用本地部署的低性能开源模型。然而,历史表明,当产品足够好用时(如GPT-4),企业往往愿意忍受合规风险。此外,美国自身的网络法规和对薪资上限的限制(996文化)可能会让其在人才高地和运营效率上进一步落后,缓解开源策略带来的压力。
4. 行业视野
- 从“乌托邦AGI”到“笨重实用主义”:这也呼应了Robert Jastrzebski在《You Look Like a Thing and I Love You》中对AI未来的预测。行业共识正从“恐怖谷”的超级智能,转向对“工具化浪潮”的拥抱。2026年的主旋律将不是创造“活生生的”AI,而是构建更高吞吐量的“管道”——通过文本扩散模型提高Tokens生成速度,通过强化学习使工具使用更自动。
- Tenure-track vs 职业倦怠:嘉宾揭露了硅谷AI圈正在形成一种类似中国互联网大厂的“996”文化(9AM-9PM,6天工作制)。这种以身心透支为代价的研发模式引发了可持续性的危机。历史上如苹果供应链建设时的“维持婚姻计划”表明,人类资源是极度有限的。如果前沿研究完全依赖这种“人类燃料”,技术迭代的速度迟早会随着工程师的过度劳累而放缓。
- 开源社区的“MVP”时刻:LLaMA时代的结束和DeepSeek/Perfect并行的开始,标志着开源界的重心从Meta的单极垄断转向了多极竞争(美国政府、NVIDIA、Neo4等)。这可能会改变传统的API模式,推动一种“模型即服务+私有化微调”的混合商业模式。
5. 启示与建议
开发者与产品经理
- 拥抱“Teachable Machines”,而非GPT-4 Copycat:在使用AI时,应致力于构建能够从用户反馈中微调权重的系统(如Cursor的Composer),因为简单的提示工程在长期来看边际效益递减。
- 区分Domain Knowledge与Reasoning:不要试图用通用LLM解决一个细分领域的特定问题。未来的机会在于开发“垂直领域微调训练管线”,利用开源权重作为底座,训练出在特定行业(如生物制药、临床法律)表现远超通用的模型。
投资人
- 警惕边际效用递减:投资那些通过RLVR大幅优化效率的公司,而非单纯投钱做大参数量的项目。重点考察公司是否在建立高效的合成数据管道。
- 关注边缘计算与边缘AI生态:既然在云端进行大规模RLVR训练既昂贵又容易泄露数据,那么通过LoRA等技术在小模型(7B-13B)上进行灵活、快速的联邦学习是极具价值的投资赛道。
创业者
- 避开“通用战区”,专注“数据飞轮”:不要去Generic Chatbot领域和Google/OpenAI硬刚。赛道应转向“AI世界模拟器”或大模型无法触达的物理世界(如家用机器人操作系统)。LeCun的“World Models”是未来三年最大的蓝海。
- 利用地缘政策红利:利用美国对“专有数据”的敏感度,以数据安全和合规为由,为大型银行、医院提供基于开源模型的私有化部署服务。
6. 金句摘录
- “The dream of AGI is actually kind of dying. As you talked about with the specialized models where it’s like… we’re moving toward a world where a single model rules everything, but that’s just like a thing in the cloud that handles your entire digital life…”
- 语境:关于通用人工智能(AGI)日益消逝的幻象,演变为针对特定任务的“很多个Agent”。
- “What we can expect is amplification, but not a paradigm change. I don’t think that is true, but everything will be just amplified and amplified and amplified…”
- 语境:描绘LLM发展的未来路径,认为这主要是堆叠能力和优化,而非底层范式的突变。
- “If we want to get to something that is a true, general adaptable intelligence that can go into any remote work scenario, it needs to be able to learn quickly from feedback… but language models don’t have this ability…”
- 语境:分析LLM为何难以成为全能的“远程劳动工人”,因为它们缺乏基于即时反馈进行的学习能力。
- “The big labs will still keep doing that. And now also the smaller labs will catch up to that because now they are hiring more. There will be more people. LLMs, it’s kind of like a circle…”
- 语境:行业震荡的长期预测,技术会变得越来越商品化,门槛始终存在但生态会更加拥挤。