The history of servers, the cloud, and what’s next (2025-12-18, glm-4.7-flash)
1. 导读
这是一场关于“重新发明计算”的守墓人与祭司之间的对话。Brian Cantrill(前Sun工程师,Joyent创始人,现Oxide计算机联合创始人)不仅是互联网基础设施建设历史的亲历者,更是那个亲手修剪了硅谷黄金时代的观察者。本期播客的价值在于,它不仅在梳理从Solaris时代到光模块深槽的硬件演进史,更重要的是揭示了现代云经济座下的阴影——当AWS通过极致的 ruthless cost competition(无情的价格战)清洗零售业时,云厂商自己正深陷巨大的订阅成本地狱。对于正在为云账单焦虑、或在AI浪潮中感到劳动力过剩的技术领导者而言,Cantrill的论述提供了一个反直觉的视角:那些在AI辅助下感到被取代的程序员,可能是整个行业中最被“过度保护”的群体。
因为在一头扎进生成式AI狂欢之前,Cantrill指出了一个残酷的现实:硬件工程的复兴需要一种“傲慢的绝望”,这种在资源匮乏时逼迫出的纯粹工程直觉,AI甚至无法通过模拟来提供。当Oxide试图用裸机和盲插网络技术重塑机房美学时,这场对话不仅仅是关于服务器规格的讨论,更是对现代软件工程日益稀薄的“敬畏感”的一次尖锐拷问。
2. 核心观点
Brian Cantrill 的核心世界观是:硬件工程的困境正是软件工程师的应许之地——那种因为不得不解决信号完整性、电源管理和千分杯误差而在深夜里迸发出的“第一性原理”创造力,正是目前被标准化、参考化软件生态所扼杀的稀缺基因。这一观点极具争议性,因为它暗示了传统货架式服务器(Dell/HP)的消亡是因为工程师变得过于懒惰,而复苏的曙光来自于对基础物理规则的回归。
1. 崩盘时代的“技术红利”
- 断言: 真正的底层软件创新(如 ZFS 和 DTrace)往往诞生于经济衰退期,而非泡沫期。
- 逻辑: 泡沫期充斥着“因为我在这个行业,所以这就是伟大的时代”的幻觉,导致以追求短期融资快感和资源挥霍为特征的工程;而衰退期迫使工程师为每一纳秒的生命周期成本和每一瓦的功耗殚精竭虑,这种“绝望”倒逼出极致的优化。
- 背书: Cantrill 提到 Sun 在 2000-2001 年大幅裁员后,Sophon 的乔峰和审计系统(ZFS/DTrace)正是在那个“后泡沫”时期诞生的。在乐观期,如果程序员说“这是一个通用的操作系统”,没人敢反驳;但在裁员潮中,只有最务实的代码能留到最后。
- 逻辑链: 泡沫期 -> 资源富足导致视野狭窄 -> 忽视根本问题;崩盘期 -> 资源匮乏倒逼鲁莽尝试 -> 迫使解决核心架构债务。创新往往属于那些在绝望中寻找避风港的工程师,而非在顺风中航行的船员。
2. 云厂商的“零售商诅咒”
- 断言: AWS 的收益模型本质上是对接入者(尤其是其商业伙伴)的掠夺,这是其可持续的唯一商业模式。
- 逻辑: 为了对抗物流巨头(如亚马逊线上业务),AWS S3 必须保持负毛利运转来补贴入站运费。Joyant 曾亲眼目睹银行的巨额开支,意识到如果亚马逊用 S3 的钱来买服务器,他们会直接去消费银行;因此零售商唯一的生存策略是不用 AWS 的服务。
- 背书: Samsung 为了解决 Joyant 的天价账单而将其收购,证明了“用云而不是买服务器”在经济上是不可持续的,尤其对于大容量存储而言。亚马逊甚至不敢公布云端盈亏账目,就是利用了人们“这是一门糟糕生意”的慢性误解。
- 逻辑链: S3 负利补贴服务生态 -> 迫使竞争对手失去利润空间 -> 长期运营者(如三星)必须垂直整合以终���被剥削。云计算的繁荣建立在对云厂商经济模型存在战术性误读的基础之上。
3. “大盒子”服务器是被钉死的棺材
- 断言: Dell 和 HP 的服务器产品是为五六十人的小团队设计的,而非为涉及电列阵的服务器和数据中心级网络规模设计,它们在物理层面就限制了扩展。
- 逻辑: 现代数据中心要求采用直流母线、隐形布线和定制网口,而传统服务器厂商为了兼容性,必须在每个机架上浪费功率和布线空间。比如 Intel Tofino 可编程交换机,市场上只有极少数供应商,导致硬件创新受制于人。
- 背书: Google 和 Meta 从一开始就自行设计服务器(冷巷布线、非标准电源接口),卡内基梅隆大学也曾验证“盲插网络”的可行性。Oxide 因此决定放弃参考设计,自行设计散热、电源和交换机。
- 逻辑链: 货架服务器的设计哲学是“个人电脑的工厂化组装” -> 无法适应大规模数据中心对边缘效应(布线损耗、功率密度)的极致敏感 -> 必须垂直整合软件与硬件以控制物理边缘 -> 硬件复兴的必要性。
4. AI 是性能打磨砖,而非架构堆料砖
- 断言: 在硬件工程领域,AI 目前几乎没有生产价值,甚至连“智力辅助”都谈不上。
- 逻辑: 撰写 Rust 代码中的风格检查是 LLM 的强项领域(因为它有清晰结构),但以 0.9V 电压重启 CPU 为例,AI 模型无法理解物理信号时序、电源序贯或电阻容抗,它只能看到文字描述并未产生物理怀疑。
- 背书: Oxide 的首批 CPU 带起过程耗时数周,工程师必须通过观察波形分析协议层未回复的 ACK 包,任何 LLM 都无法指导如何手持示波器排查时序抖动。
- 逻辑链: 硬件工程高度依赖物理世界的感官交互与信号时序约束 -> LLM 属于高维统计连续空间的语言模型 -> 缺乏对低层物理参数的感知与微调能力 -> AI 只能作为文本编辑器,无法作为硬件架构师。
5. 团队“异常多样性”是解决复杂系统的关键
- 断言: 混合背景的团队(如 Oculus VR 工程师与 PC 硬件团队同处一室)比同质化团队更能发现工程灾难中的细微漏洞。
- 逻辑: 在排查 CPU 升级失败时,一位偶然进入会议的准入者凭直觉指出“虚拟地址相似”可能是线索,这种缺乏“既定偏见”的视角是资深专家容易失去的敏锐度。
- 背书: Oxide 特意招募了 GE 医疗级别的射频工程师,而非普通的 PC 电子工程师,这种互补性技能组合避免了教条式的参考设计。
- 逻辑链: 复杂系统容错依赖于非专家的“干扰观察” -> 专业化分工容易形成行业盲区 -> 混合文化迫使团队通过不同视角校准系统可靠性。
3. 批判与质疑
尽管 Bryan 对“痛苦驱动创新”和“硬件复兴”的论述极具煽动性,但我们必须审视其论述体系中的隐含假设与逻辑漏洞。
首先,“痛苦驱动创新”存在幸存者偏差。 Cantrill 举了 ZFS 的例子,但这更多是个人英雄主义与时代机遇(Sun 刚刚开放源代码政策)的叠加,而非单纯的经济窘迫。更多企业的崩溃是由于“经济窘迫”导致研发瘫痪,创新断档,最终引发现金流衰竭。将商业周期的波动直接等同于创新周期的波动,忽略了产品本身的市场契合度。
其次,Oxide 的“盲插”技术面临供应链与标准化双重博弈。 虽然“盲插”很酷且节省布线,但工业界的标准通常遵循“兼容大于创新”的原则。Oxide 的设计虽然重构了物理层,但其软件栈(如 Omicron 控制平面)是否足够鲁棒,以应对 Dell/联想服务器厂商数十年的软件积累仍存疑。如果遇到一个复杂的 Rack Level 底层 Bug,Oxide 开发者必须亲自去工厂排查吗?这或许��变成新的“技术锁死”。
最后,关于 AI 的判断存在认知局限。 Cantrill 似乎将 AI 视为单一的文本生成器,这在当前多模态(如电路仿真、热量模拟)和多行为 Agent(如自动化测试框架 Agent)的发展趋势下可能显得保守。虽然目前的 LLM 无法解决 CPU 带起问题,但如果有一种能够读取数字信号并分析时序图的 Agent,情况是否会改变?将“当前 AI 的局限性”等同于“未来的无能”,是一种典型的对抗性思维谬误。
核心悬而未决的问题在于:当 Oxide 试图将自己的软件栈推广到各类服务器时,是否愿意为了兼容性而妥协其极致的硬件设计? 目前 Oxide 的成功很大程度上依赖于在其“纯净”硬件上运行“纯净”软件,一旦硬件堆叠至数万节点,这种“干净”的架构在工业界的噪音中还能活下去吗?
4. 行业视野
将 Bryan Cantrill 的经历置于计算史的长河中,我们能看到一波深刻的产业洗牌。他对 Dot-com 崩盘的反思,实际上是对 90 年代末“黑盒系统崇拜”的纠正——那时人们认为硬件规范就是圣旨,而现在 Oxide 宣告了“白盒硬件”的回归。
与行业内其他声音的关系上,Cantrill 的观点印证了“云原生”在后期的消亡趋势:Google Borg 内部涌现并外泄出的 K8s,标志着云厂商意识到如果底层容器不能成为标准,他们就将失去控制权。这是一种从“基础设施即代码”向“基础设施即硬件”的下沉趋势。
这也与 80 年代 Carnegie Mellon University 的“端到端”网络设计哲学形成了微妙的历史互文。当年 DARPA 认为网络协议应放在端设备,以获得灵活性;如今云厂商将网络管理堆叠进交换机硬件中,而 Oxide 则试图把协议消解在物理盲插中——这种对网络控制权的争夺,正在从软件协议层回到物理介质层。
这场对话放置在当前 AI 狂欢的背景下,更显得意味深长。它提示我们,软件行业正面临一场极其罕见的物理分层回归。当 ChatGPT 能够写出 90% 的 CRUD 代码时,真正的痛点实际上变成了后端系统的低延迟物理连通性、芯片的能量耗散以及边缘计算的容错性。Cantrill 的 Oxide 很可能是下一波硬件复兴运动的发令枪——先有开源软件模型(Rust/Hubris),后有定制化物理设计,最后才回归到通用的云服务。
5. 启示与建议
这场对话挑战了两个核心假设:1) 软件工程师的不可替代性优于硬件工程师(实际上反之,硬件更新慢但门槛极高);2) AI 将自动解决所有的工程生产效率问题(实际上 AI 只能解决现有的文字熵增问题)。
目标是:基础设施架构师、硬件创业者和资深后端工程师。
-
给基础设施架构师的建议: 不要迷信单纯的软件抽象。在选择数据库、负载均衡或 CDN 提供商时,必须评估其底层硬件架构的合理性。建议评估策略从“功能完备性”转向“物理冗余度”——如果底层网络切换板卡出现单点故障,你的 Service Mesh 软件还能兜底吗?评估任何基于分散散件组装的新硬件厂商时,重点考察其是否拥有对底层固件和电源管理的深度源码访问权限。
-
给硬件/嵌入式创业者的建议: 寻找成功的捷径是寻找“软件工程师鄙视链”中的低谷。不要去卷路由算法这种已有成熟开源库的领域,而是去寻找软件世界里没人愿意碰的物理脏活——如“盲插标准”、“非对称直流供电架构”、“非标热流管控”。Bryan 提到的“射频工程师”留言家书正是好例子。你的护城河不在于使用了什么英伟达的最新芯片,而在于你定义了一种新的“组件交互语言”。
-
给程序员与职场人的建议: 驳斥“AI 会消灭软件工作”的恐慌。历史上,Soul of a New Machine 的那一代人面对 C++ 接管汇编语言时也曾恐慌,但结果是人类搬到了更高维度的抽象上。现在的任务是建立“人机隧协”能力。像 Bryan 建议的那样,不要把 AI 当作同事,而要当作为你“做作业的笨拙助教”,用来验证那些你还没能力完全理解的底层原理(如如何优化 Rust 的内存布局)。强信号: 李飞飞等人在 VQ-VAE 上的工作证明视觉特征提取对 LLM 是关键补充。推断: 如果你能构想出 AI 无法表达的物理直觉,你就安全了。
6. 金句摘录
“There’s a degree to which innovation requires some level of desperation that good economic times are kind of hard to summon that desperation.”
- 意译: 技术创新的土壤往往需要极度匮乏这种“绝望”作为催化剂;在富足顺遂的经济环境中,人们很难召唤出那种打破常规的求生欲。
- 语境: Cantrill 回忆 2000 年的互联网泡沫破裂期,往往是在经济衰退时,代码才会因为资源紧缺而从“花哨”进化为“极致”。
“AWS S3 was underwriting a war on big box retail. S3 was paying for your prime shipping. It was a genius move.”
- 意译: AWS 的 S3 服务实际上是在资助一场针对实体零售商的战争;亚马逊通过无偿补贴数据存储来支付零售客户包邮的物流成本,这是个天才般的战略。
- 语境: Cantrill 解释 AWS 如何利用云存储服务(S3)的极高利润率,为自家的电商业务(Prime Shipping)输血,从而通过经济手段扼杀竞争对手。
“People have different ways of approaching a problem. … someone will be like hey I’m just joining you know anyone joins and you get someone will be like hey just make an like hey I got like a dumb question… and you get something where someone’s making… is maybe less grounded… well that’s something to go check”.
- 意译: 人与人解决问题的方式各不相同。新加入者往往提出“无厘头”的概念,这种缺乏“行业包袱”的视角有时反而能切中要害。
- 语境: 讨论团队多样性时,提到一位非专家在观察 CPU 升级问题时的犀利直觉,打破了资深专家的思维定势。
“I mean, okay, zero is a bit reductive. Zero is a bit reductive. It’s just a different grammar.”
- 意译: 那是 0, 而不是 u。这就像是完全不同的“语言系统”,是底层硬件物理特性导致的指纹差异。
- 语境: Cantrill 在否认 AI 对硬件工程有零帮助时,以一个微小的物理信号差异为例,强调 AI 无法理解那些不在训练数据中的物理交互细节。
“LLMs which are nothing more than text prediction engines… are not artificial intelligence.”
- 意译: LLM 无非就是下一个词的概率预测机器,它根本算不上真正的人工智能。
- 语境: 他引用 Reinfocement Learning 的发明者 Richard Sutton 的观点,批评业界将“大语言模型”等同于“人工智能”是一种严重的泛化和认知混淆。