The history of servers, the cloud, and what’s next (2025-12-18, gemini-3-flash-preview)
这是一份关于 Bryan Cantrill 访谈的深度研报。Bryan Cantrill 是系统编程领域的传奇人物,曾任 Sun Microsystems 首席工程师及 Joyent CTO,现为 Oxide Computer Company 联合创始人。
1. 导读
在“软件定义一切”的今天,硬件似乎早已沦为面目模糊的通用商品,但 Bryan Cantrill 却选择在此时重回硬核硬件的“深水区”。作为亲历了 Sun Microsystems 巅峰与陨落、见证了公有云从萌芽到垄断的行业老兵,Cantrill 拥有极其罕见的跨周期视野。他不仅能拆解底层指令集的演进,更擅长解析商业巨头(如 Amazon、Oracle)在资本博弈中的深层动机。
这场对话不仅是一次技术考古,更是一场关于“计算主权”的战略辩论。在 AI 算力需求爆炸、公有云成本高企的当下,Cantrill 试图回答一个至关重要的问题:为什么我们必须打破现有的服务器设计范式?当他谈到 Oxide 如何通过统一薪酬、全栈开源以及激进的硬件重构来挑战行业惯例时,你不仅会质疑当下的云架构,更会重新审视“工程师”这一职业在自动化时代的底层价值。而他关于“AI 无法解决硬件冒烟问题”的断言,则为当前过热的 AI 叙事留下了一个引人深思的伏笔。
2. 核心观点
Cantrill 的核心世界观可以概括为:“垂直整合的回归与计算主权的重申”。他认为,过去二十年 IT 行业建立在“购买廉价通用硬件+堆叠复杂软件”的逻辑之上,但这导致了巨大的技术债与运维成本。他的争议之处在于,他主张在云时代,真正的创新不再是软件层面的小修小补,而是必须向下挖掘,重构那些被戴尔、惠普等传统厂商固化了三十年的硬件架构。
以下是支撑这一世界观的五个关键判断:
- 创新产生于“萧条”而非“繁荣”。 Cantrill 断言,他在 2000 年互联网泡沫破裂后的技术产出(如 ZFS, DTrace)远高于泡沫期。底层逻辑在于,繁荣时期资本的狂热会让所有人产生“我的成功源于我的天赋”的错觉,导致资源浪费和目标散漫;而萧条时期的资源匮乏反而会迫使团队回归第一性原理。他提到,Sun 售出的每一台服务器并非因为 Java(尽管当时的人这么认为),而是因为底层系统的稳定性。
- 公有云的本质是“资本掠夺”与“API 锁死”。 他犀利地指出,AWS 的成功并非纯粹的技术领先,而是 Jeff Bezos 利用 S3 和 EC2 产生的高额利润,在财务报表掩盖下资助了亚马逊的零售扩张。他称之为“资本主义的顶级掠夺者”。底层逻辑是,当企业意识到自己的公有云账单在资助竞争对手时,回归本地存储(On-prem)就成了经济必然。Kubernetes 的崛起正是因为开发者渴望通过标准 API 获得“云中立性”,逃离 AWS 的锁死。
- 硬件设计的“参考设计陷阱”限制了系统进化。 传统服务器厂商为了规避风险,过度依赖芯片供应商提供的“参考设计(Reference Design)”,导致市面上的服务器本质上都是“插了更多内存的 PC”。Oxide 的断言是,必须抛弃参考设计,从电源分配(AC 转 DC 的母线排设计)到盲插联网(Blind Mate Networking)进行彻头彻尾的重构。这种重构不仅是为了优雅,更是为了解决数据中心规模下的运维灾难——摆脱那堆纠缠不清的电缆。
- 薪酬透明化与统一化是企业价值观的最终测试。 Oxide 采取了极其罕见的策略:所有员工(无论研发还是支持)薪酬完全统一且透明。Cantrill 认为,如果一家公司声称 QA 或支持部门很重要,却在薪酬等级上将其置于开发之下,那其价值观就是虚伪的。这种决策的逻辑是利用“价值观滤网”吸引那些真正热爱技术解决、而非追求职级溢价的顶级人才。
- “智能”不等同于“工程能力”,AI 的边界在现实世界。 针对当前的 AI 热潮,Cantrill 给出了冷峻的评价:AI 无法通过“预测下一个词”来解决硬件 Bring-up(首次启动)时的电气故障。他举了 CPU 掉电重置的例子,最终解决问题靠的是工程师在极度绝望下对电压调节器协议(VRM protocol)的底层分析。他的逻辑是:AI 没有“目标感”,更没有面对系统崩溃时的“绝望感”,而正是这种绝望感驱动了硬核工程的突破。
逻辑链条: 这些观点构成了一个严密的逻辑闭环:因为公有云成本与技术锁死不可持续,所以企业需要回归私有云;因为传统硬件架构陈旧,所以必须通过第一性原理进行硬件重构;因为硬件重构极度困难,所以需要通过极端的文化契约吸引顶级人才;而这套人才体系所产生的核心竞争力,是目前的 AI 自动化工具无法触及的工程深区。
3. 批判与质疑
作为分析者,我们需要剥开 Cantrill 极具感染力的叙事,审视其中的潜在风险。
首先,Oxide 的模式面临极高的**“资本密集型风险”与“供应链脆弱性”**。Cantrill 强调他们使用了 Intel 的 Tofino 芯片来实现网络可编程性,但随后也提到 Intel 已经砍掉了该产品线。这种对特定尖端硅片的依赖,与他所主张的“计算主权”存在天然冲突。如果 Oxide 无法在芯片巨头的波动中保持上游稳定性,其硬件创新的生命周期将极度受限。
其次,统一薪酬制度的规模化陷阱。在 85 人的规模下,通过共同理想维持统一薪酬是可行的;但当公司规模扩张至 850 人甚至更多时,如何解决不同职能、不同地区的劳动力市场差异?如果这套制度导致高级系统专家在市场上被其他巨头以数倍薪资挖角,Oxide 的人才密度将面临巨大考验。
此外,Cantrill 关于**“AI 在硬件工程中无用”**的结论可能过于超前。他所举的案例(如电压调节器固件 Bug)确实需要极高的经验直觉,但随着数字孪生(Digital Twins)技术与合成数据的发展,未来硬件设计的模拟与故障预测并非完全不可自动化。他的观点可能带有一种典型的“硬核极客偏见”,忽略了 AI 在提升普通工程师下限方面的潜力,从而可能导致 Oxide 在利用新兴工具链上反应迟钝。
4. 行业视野
Cantrill 的讨论标志着行业正在进入**“后超大规模(Post-Hyperscale)时代”**。
在过去十五年里,行业的共识是“云是终点”,硬件是消耗品。但正如 Basecamp (DHH) 所发起的“云回迁(Cloud Exit)”运动所预示的,越来越多的中大型企业开始计算长期的财务账。Oxide 的出现,实际上是为这股回迁潮提供了“武器”。
从历史坐标看,Oxide 的尝试让人想起 20 世纪 80 年代的垂直整合主义(如 DEC, Sun, SGI),但在理念上它又是现代开源运动的产物。Cantrill 试图调和这两个看似矛盾的趋势:他想要 Apple 的控制力(垂直整合硬件与内核),却坚持提供全栈透明的源代码。这挑战了行业内长期存在的“闭源硬件=安全/利润”的陈旧共识。
此外,Cantrill 提到的“智能不足以解决问题”,实际上触及了目前计算机科学界一个深刻的争论:莫拉维克悖论(Moravec’s Paradox)。即对人类而言很难的逻辑推理(如写代码)对 AI 越来越容易,但对人类而言很简单的感知与物理世界调试(如感知硬件的微妙电压异常)对 AI 却极难。Oxide 押注的是物理世界的复杂性依然是人类工程师最后的堡垒。
5. 启示与建议
这场对话挑战了一个核心假设:“购买服务永远优于拥有资产”。在通胀与地缘政治动荡的背景下,拥有资产(硬件所有权)和具备理解底层资产的能力正在重新成为核心竞争力。
给不同读者的建议:
-
对于开发者与系统工程师:
- 深化“跨层知识”: 不要只做 API 搬运工。Cantrill 的成功在于他能从 Rust 代码直接下钻到芯片手册和电路信号。在 AI 能写出 80% 业务代码的未来,剩下的 20%——即处理系统边界崩溃的能力,才是溢价最高的地方。
- 警惕“AI 捷径”: Cantrill 警告申请者不要用 AI 写求职信。这暗示了顶级技术公司正在建立一套针对“AI 辅助型人格”的排斥机制。保持手感的原始性,在高强度文档写作中磨练思考深度。
-
对于创业者与 CTO:
- 重新审视薪酬激励模型: 是否可以尝试更扁平、更透明的薪酬结构来降低内部博弈?虽然 Oxide 的“统一薪酬”极具挑战性,但其背后的逻辑——消除职级带来的焦虑以释放创造力,值得在中小型核心研发团队中试点。
- 重视“运营工具”的内生化: Oxide 为了更新分布式系统开发了专用的架构,这说明在复杂产品中,运维软件的价值不亚于产品本身。
-
对于技术决策者:
- 做一次彻底的云账单审计: 如果你的云支出已经超过了研发人力的 30%,考虑一下 Cantrill 提到的经济学:你是否在为云厂商的零售战争买单?探讨“混合云”或“自建算力”的可行性,现在已经不是一种倒退,而是一种财务对冲。
总结信号: 硬件重构是强信号,预示着私有算力市场的复兴;AI 无法取代硬核调试是合理推断,但在未来 3-5 年内其效力可能会被部分挑战。
6. 金句摘录
-
“Innovation requires some level of desperation; good economic times are kind of hard to summon that desperation.” (创新需要某种程度的绝望;在经济繁荣时期,这种绝望感很难被召唤。) ——背景:讨论为什么 2000 年互联网泡沫破裂后才是技术产出的黄金期。
-
“Larry Ellison is like a lawn mower: if you stick your hand in, it’ll chop it off. It’s not angry at you, it’s just a machine.” (Larry Ellison 就像一台割草机:如果你把手伸进去,它就会把它切断。它并不恨你,它只是一台机器。) ——背景:描述 Oracle 那种非人格化的、极度理性的商业掠夺本性。
-
“Intelligence is not enough. Building a board is not an IQ test; it’s a test of focus, grit, and the diversity of approach.” (智能是不够的。制造一块电路板不是智商测试;它是一场关于专注、毅力和思维多样性的测试。) ——背景:反驳 AI 将取代所有工程工作的观点,强调硬件 Bring-up 的残酷性。
-
“If you tell the world that you think QA is as important as Dev, and you pay them the same, you get the best of the best.” (如果你告诉世界 QA 与开发同等重要,并给他们同样的报酬,你就能得到这个行业里最顶尖的人才。) ——背景:解释 Oxide 为什么实行统一薪酬制度。