Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

The history of servers, the cloud, and what’s next (2025-12-18, gemini-2.5-pro)

1. 导读

本期播客的嘉宾 Bryan Cantrill 是一位活生生的计算机行业“活化石”——他不仅在 Sun Microsystems 亲历了“.com”泡沫的狂热与破灭,更在随后创立了早期 AWS 的竞争者 Joyent,如今则以 Oxide 创始人的身份,试图重新定义企业级硬件。这场对话之所以值得花时间,因为它并非关于下一个热门软件框架,而是回归到构成数字世界基石的根本问题:我们应该如何构建和拥有计算能力?Cantrill 的视角提供了一部跨越三十年的服务器与云计算发展史,并以此为基础,对当前的技术狂热(尤其是 AI)提出了冷静甚至尖锐的见解。

这场对话的结论将直接影响那些正在被高昂云账单困扰的 CTO、评估下一代基础设施的投资人,以及思考自身长远价值的资深工程师。当整个行业都在向“云端”和“AI”高歌猛进时,Cantrill 却在讲述一个关于“回归物理”、“自主拥有”和“人类智慧不可替代性”的故事。他提出的论点,究竟是洞察未来的先见之明,还是逆时代潮流的固执己见?这正是本次对话的张力所在。

2. 核心观点

Bryan Cantrill 的核心世界观可以概括为:在一定规模之上,计算基础设施是一种应当被“拥有”而非无限“租赁”的核心资产,而构建真正高效的私有云,必须挣脱现有PC生态的技术债,从第一性原理出发,软硬件一体化地重新设计。 这个观点极具争议性,因为它直接挑战了过去十五年主导行业的“公有云优先”正统观念,并主张回归一种被多数企业视为“非核心”和“重资产”的模式。它断言,行业为了追求便捷性,牺牲了经济性与控制权,而真正的下一波浪潮将是“云的回归”(Cloud Repatriation)。

一、经济萧条期比繁荣期更能催生颠覆性技术创新。 Cantrill 断言,他们在“.com”泡沫破灭后的萧条期(bust)所做的技术工作,远比泡沫繁荣期(boom)时更有趣、更有价值。其底层逻辑是,经济繁荣会带来浮躁、自满和资源泛滥,使团队丧失解决根本问题的“绝望感”。相反,经济下行周期会迫使团队在资源有限的条件下,聚焦于真正重要的问题,从而激发更深层次的创造力。Sun Microsystems 的几项革命性技术,如 ZFS 文件系统和 DTrace 动态追踪工具,都诞生于 2001 至 2005 年这个后泡沫破灭的“技术深耕期”。

二、云计算的下一阶段是“所有权”,而非无尽的“租赁”。 嘉宾认为,对于达到一定规模的企业而言,持续向 AWS、GCP 或 Azure 支付高昂费用在经济上是不理性的。他指出,公有云的本质是租赁,而租赁的成本永远高于拥有。所有超大规模玩家(Hyperscalers),如 Google、Meta,最终都走向了自建硬件和基础设施的道路,因为这是规模化运营的唯一经济出路。他创立的 Joyent 就曾被三星(Samsung)收购,原因正是三星希望通过拥有自己的云来削减其天文数字般的 AWS 账单。Oxide 的商业模式就是为下一代“三星们”提供可直接购买的、一体化的私有云解决方案。

三、“从零开始”是构建规模化硬件的唯一途径,现有服务器生态已成技术债。 Cantrill 尖锐地指出,市面上主流的服务器(如 Dell、HP 等)本质上是“PC 的集合体”,其架构继承了大量为个人电脑而非数据中心设计的技术债。例如,每个单元独立的 AC-DC 电源转换效率低下,前置的繁杂布线增加了操作复杂性和故障点。要构建真正为云规模设计的硬件,必须打破常规,从零开始。Oxide 的核心技术决策之一——在机柜层面统一采用 DC Bus Bar 供电并实现网络连接的“盲插(Blind-mating)”,彻底消除了操作员布线,正是这一理念的体现。这是一个“赌上公司”的决定,因为一旦失败,产品将无法运作。

四、人工智能是高效的辅助工具,但对解决前沿硬件工程的“未知问题”几乎无用。 在探讨 AI 的作用时,Cantrill 的立场尤为鲜明:AI 对于已有解决方案的“分布内(on-distribution)”任务(如生成样板代码、总结文档)非常有用,但对于硬件研发中遇到的“未知-未知”问题则束手无策。其逻辑在于,硬件创新,尤其是“Bring-up”(首次点亮并调试新硬件)阶段,面对的问题往往是现有知识库中不存在的。他以一次 CPU 无法退出重置状态的真实故障为例:团队在耗费数周、排除所有可能性后,才发现是电压调节器的一个固件 bug 导致其未发送确认包。这种问题的解决依赖于工程师的直觉、绝望驱动的探索、团队协作和第一性原理的调试,这些都不是 LLM 的模式匹配所能替代的。他直言,AI 对 Oxide 硬件工程的贡献“基本为零”。

这四个观点构成了一条完整的逻辑链:对经济周期的洞察,塑造了他对技术创新本质的理解;这种理解,结合他在云市场的亲身经历,催生了对“云所有权”的判断;而要实现高效的“云所有 D有权”,又必须回归硬件设计的“第一性原理”;最后,对这种深度工程的实践,让他对当前 AI 的能力边界有了极为清醒的认识。

3. 批判与质疑

Cantrill 的论述体系逻辑严密且充满洞见,但其成立也依赖于几个关键且未经验证的前提。

首先,Oxide 的核心市场假设有待验证。 其商业模式瞄准了一个特定的“中间市场”:这些公司的规模大到无法忍受公有云的成本,但又没有大到像 Google 或 Meta 那样可以完全自建一个硬件设计和供应链团队。这个市场的规模和增长性究竟有多大,是一个悬而未决的问题。如果这个市场比预想的要小,或者大多数公司宁愿选择优化公有云使用,而非承担自建的运营负担,Oxide 的增长天花板就会很低。

其次,论述中有意或无意地淡化了运营复杂性的风险。 企业逃离自建机房、拥抱公有云的首要原因,是为了摆脱物理基础设施带来的巨大运营“头痛”。Cantrill 强调 Oxide 通过软硬件一体化设计简化了运维,但其早期产品中,软件更新(M-update)仍需让控制平面离线,这本身就说明了“让拥有像租赁一样简单”的挑战之大。能否在长期内真正兑现“云级别的简易运维”承诺,是其模式成败的关键。

再次,其结论在特定条件下可能失效。 如果公有云巨头们通过架构创新或激进的价格战,显著缩小了与自建方案的经济差距,那么 Oxide 的核心经济吸引力将被削弱。例如,AWS 的 Graviton 处理器和不断推出的新实例类型,本身就是为了降低客户成本、留住大规模用户的举措。

最后,对话结束时,一个核心问题依然悬而未决:Oxide 激进而理想化的企业文化(如全员统一薪酬、远程硬件研发)能否随着公司规模的扩大而持续? 这种文化在初创阶段是吸引顶尖人才的强大磁石,但在公司达到数百甚至数千人规模时,能否适应更复杂的组织结构和角色分工,仍是一个巨大的问号。

4. 行业视野

将这场对话置于更广阔的行业图谱中,我们可以看到它在几个层面上的坐标感:

  1. 印证了“云成本优化”与“云回归”(Cloud Repatriation)的趋势。 近年来,以 37signals (Basecamp) 为代表的公司高调宣布离开公有云并节省数百万美元,引发了行业对云成本的广泛反思。Cantrill 的论述为这一趋势提供了来自资深基础设施专家的理论框架和历史视角,将其从零散的个案,提升到了一个结构性的、可预测的行业演进阶段。

  2. 挑战了“基础设施是无差异的重活”(Undifferentiated Heavy Lifting)这一根深蒂固的共识。 这是 AWS 自创立以来一直向业界传达的核心理念之一。Cantrill 则认为,对于达到一定规模的企业,基础设施本身就是核心竞争力的一部分。他的观点与超大规模公司的实际行动(自研芯片、自建网络)相呼应,实际上是主张将这些巨头的“内部最佳实践”产品化,提供给下一梯队的企业。

  3. 形成了与一段重要历史的呼应与迭代。 Oxide 的模式在某种意义上是 Sun Microsystems “网络就是计算机”理念的现代复兴。Sun 当年也是通过提供软硬件高度集成、开箱即用的系统而崛起。但 Oxide 并非简单的重复,它吸取了历史教训:整个技术栈完全开源,拥抱商品化芯片(x86),并采用云原生的 API 驱动模型。可以说,Oxide 试图将 Sun 的集成系统优势,与 Linux 开源生态和 AWS 的弹性运营模型结合起来,创造一个“2.0 版本”的集成系统公司。

  4. 为当下的 AI 狂热提供了一剂冷静剂。 在行业领袖和媒体普遍渲染 AI 将“颠覆一切”时,Cantrill 从一个极度复杂的工程领域(从零构建计算机)给出了一个截然不同的答案。他并非否定 AI,而是精确地将其定位为“提升已知任务效率”的工具,并强调了人类在解决“未知问题”时不可替代的价值。这与许多资深系统工程师的直觉相符,为行业提供了一个宝贵的、来自实践一线的平衡视角。

5. 启示与建议

这场对话首先挑战了两个核心假设:其一,公有云是所有公司规模化后的必然归宿;其二,AI 的进步将使底层系统工程的复杂性变得无足轻重。它强化了另一个假设:技术的演进往往是周期性的,许多被“抛弃”的旧模式(如集成系统),会在新的技术和市场条件下以更高级的形式回归。

对于 CTO 和基础设施负责人:

  • 建立成本模型,主动规划“临界点”。 不要将云账单视为不可抗力。当你的年度云支出达到七位数美元级别时,应严肃地建立一个拥有(TCO - Total Cost of Ownership) vs. 租赁的财务模型。即使短期内不采取行动,也应了解自己的“经济逃逸点”在哪里。
  • 审视你的技术栈,识别源自“PC 时代”的技术债。 你的系统是否因为迁就通用服务器架构而引入了不必要的复杂性?Cantrill 对布线、供电等物理层面的批判,同样适用于软件架构。

对于投资人:

  • 重新评估“深科技”的护城河。 软硬件一体化的公司(如 Oxide)构建护城河的过程极其漫长且昂贵,但一旦建成,其壁垒远高于纯软件公司。评估这类公司时,应更关注团队解决“第一性原理”问题的能力和“赌上公司”的技术决策魄力,而非短期增长指标。

对于开发者和系统工程师:

  • 投资于不会被 AI 轻易取代的技能。 AI 擅长模式匹配和代码生成,但难以跨越复杂的抽象边界进行调试。深入理解从物理层、固件、操作系统到分布式系统的整个堆栈,将是你未来最有价值的资产。Cantrill 描述的解决 CPU 启动失败的过程,就是这类技能的绝佳体现。
  • 将 AI 视为导师,而非竞争者。 利用 LLM 快速学习新领域、理解陌生代码、或让它挑战你现有代码的“惯用写法”(idiomatic way)。真正的成长来自于利用工具拓展自己的能力边界,而不是外包自己的思考过程。

结论的可靠性: Cantrill 对历史的复盘和对现有技术问题的批判是强信号,它们基于他数十年的亲身经历和深刻洞察。而 Oxide 作为解决方案的成功与否,以及“云回归”成为主流趋势的判断,则属于基于强信号的合理推断,其最终结果仍有待市场验证。

6. 金句摘录

  1. “We did much more technically interesting work in the bust than we did in the boom… innovation requires some level of desperation that good economic times are kind of hard to summon.”

    意译: “我们在(.com)泡沫破灭期做的技术工作,远比在繁荣期做的有趣得多……创新需要一定程度的绝望感,而经济好光景很难召唤出那种绝望。” 语境: Cantrill 回忆在 Sun Microsystems 的经历,解释为什么经济下行周期反而更能催生根本性的技术突破,因为繁荣会让人自满,而困境则逼迫人聚焦和创造。

  2. “Jeff Bezos is the apex predator of capitalism… they were able to give people the idea that this was a terrible business.”

    意译: “杰夫·贝索斯是资本主义的顶级掠食者……他们(AWS)成功地让外界以为这是一个糟糕透顶的生意。” 语境: 嘉宾解释 AWS 早期如何通过持续降价和不单独披露财务数据,成功地“劝退”了大量潜在竞争对手,因为它看起来像一个利润微薄、血流成河的“红海”市场。而身处其中的 Joyent 知道,其利润好到足以资助亚马逊对零售业的战争。

  3. “If they could start over today, they would blind mate the networking and they’re just too afraid to do it at this point, which is like, I mean, that was like catnip for us.”

    意译: “如果他们(指超大规模公司)今天能从头再来,他们会采用网络盲插设计,但他们现在已经不敢这么做了。你知道,这话对我们来说简直就像猫薄荷一样诱人。” 语境: Oxide 在设计机柜时,决定将网络连接也像电源一样做成“盲插”,消除所有手动布线。当他们得知 Google、Facebook 等巨头也认为这是正确方向,但因历史包袱而不敢实施时,这反而极大地激励了他们去做这个高风险但正确的设计。

  4. “Intelligence is not enough… building a board is not an IQ test.”

    意译: “只有智力是不够的……设计一块主板并非一场智商测试。” 语境: 在反驳 AI 将取代硬件工程师的观点时,Cantrill 强调,解决前沿硬件问题需要智慧、经验、团队协作和在绝望中坚持的毅力等多种品质。他用一个复杂的固件 bug 案例说明,这些问题无法通过单纯的“智能”或模式匹配来解决。