Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

FFmpeg: The Incredible Technology Behind Video on the Internet (2026-05-06, glm-4.7-flash)

1. 导读

在数字时代的肌理之下,仅次于骨骼层的其实并非硅基板的电路,而是代码编织的管道。这期播客将带你深入那个令人战栗的软件乌托邦——由 Jean-Baptiste Kempf 和 Kieran Kunhya 领军的开源多媒体帝国。FFmpeg,这个被低估到连 Lex Fridman 本人提及都充满敬畏的名字,实际上充当着互联网视频的“操作系统“。如果说传统软件业是商业利益的角斗场,那么这里就是纯粹工程师美学的修道院。

为什么值得读这期播客?因为在这里,商业狂热被按下了暂停键,取而代之的是对“代码质量“这一纯粹指标的宗教式偏执。嘉宾拒绝数百万美元的贿赂以保持 VLC 的纯净,坚持使用两百万行手写汇编来击败编译器。当我们习惯于用自然语言(LLM)与计算机对话时,这两位“顽固派“正在捍卫计算机最底层的对话方式——汇编与二进制逻辑。

这场对话挑战了一个反直觉的定律:在摩尔定律逐渐失效、AI 大模型呼风唤雨的当下,处理器的极限并非算力堆叠,而是对硬件指令的极致编程。更重要的是,我们可以从中预见一个危险的分化:庞大的“娱乐视频“产业链正在向“资源亏空“的 AI 学习(贪图精度牺牲速度),而极少数“控制想象“的工业领域(如机器人远程操纵)却需要回到最基础的硬实时优化。谁掌握的多媒体基础设施,谁就将在下一代人机交互中掌握定义权。

2. 核心观点

世界观的基石是“代码质量即道德“的闭门造车哲学。 Jean-Baptiste Kempf 敏锐地指出,FFmpeg 等开源项目并不在意你是谁,只在乎你的代码在 CPU 指令周期下是否高效。这种极端的唯结果论导向,建立了一个由数千名极端内向、背景各异的极客组成的“代码社团“。在这种文化中,编译器都不再可信,必须通过在汇编层面重写算法来榨干硬件每一滴残余性能,因为由于免疫系统(GPU 加速)覆盖率的不足,3 亿台设备需要依赖纯 CPU 解码,“每一个周期都至关重要”。这种世界观极具争议性,因为它与技术领域的渐进式优化传统背道而驰,也不符合商业公司追求“快速上线“的利益最大化逻辑,但它却是现代数字文明身体里的隐形血管得以保质的唯一保障。

手工汇编是对抗算力停滞的唯一抗体。 当前的软件工程主流正被高级语言(C++、Python、LLM 自然语言)统治,认为现代编译器已经足够智能。然而 Kieran 和 JB 展示了反直觉的现实:为了在 CPU 上实现像 “Glass-to-glass(玻璃到玻璃,指从摄像头到屏幕)四毫秒” 的端到端超低延迟,必须在吕洞宾对战机器人等场景中,以 240,000 行手写汇编代码来对抗系统调用、寄存器开销和现代编译器的抽象陷阱。Dav1d 编解码器的 Assembly 占比高达 79.9% 这一数据,不仅是性能的最优解,更是一种反讽:在 AI 试图取代编程的时代,人类在汇编层面的微操能力仍然是高价值薪火的最后堡垒。

开源生态正遭受“预期债务“的系统性挤压。 FFmpeg 和 VLC 并非在真空中运行,它们面临着来自大型科技公司的“隐形威胁“。Google 的安全团队利用 AI 批量生成漏洞报告,付诸医疗的传播却从公共卫生变成了政治作秀;XZ backdoor 事件揭示了极端脆弱的单点依赖风险(1 个维护者 vs 整个互联网)。大型科技公司试图将“志愿者“定义的职业服务体系和 SLA 引入开源项目,却往往只给予象征性的赞助。这种不对等的“依赖与供给“关系正在倒逼开源社区走向分裂或被迫商业化,导致了当前开源运动内部关于 Rust 重写与现有优化路径的激烈争论。

3. 批判与质疑

作者的论述过分美化了“英雄主义式编程“,忽视了现代系统集成与商业可持续性的复杂性。 虽然紧贴汇编代码的极致性能令人叹为观止,但在现实世界的商业应用中,过度依赖 240,000 行 ASM 的 dav1d 意味着巨大的维护成本和极高的技术门槛。如果未来硬件厂商推出 drastically 优化过的指令集,而不改变上层 API,开发者将面临推倒重来的巨大风险。此外,他们将开源视为高尚的道德实践,却对商业公司在某些特定领域中投入巨额资源进行深度优化的贡献视而不见。GPL/LGPL 许可证虽然赋予了自由,但也形成了一种脆弱的社会契约——需要收集 350 个逝者或隐形贡献者的同意才能改变路线,这种“民主化“的代价有时会瘫痪系统的进化能力。

关于“编译器无用论“的辩护可能存在幸存者偏差,且对开发者提出了不切实际的要求。 嘉宾反复宣称手工汇编代码速度是 C 的 10 倍甚至 62 倍,并以此攻击现代编译器的 auto-vectorization。然而,这种对比往往是在特定、高度优化的算法片段上进行的。对于大多数非关键路径的代码,人工汇编带来的维护地狱远超性能提升的价值。为了追求这种“速度魔法“而去让程序员深入学习 x86 调用约定和 SIMD 指令,实际上是人为制造了行业的准入壁垒,将多媒体领域变成了少数特种部队的游戏,而非面向大众的通用技术。此外,他们宣称“编译器无法优化它看不到的东西“,却忽略了现代高级语言特性在现代推理替代编译器逻辑方面的潜力,过早地否定了可能更高效的软硬件协同设计路径。

忽略了“跨平台安全性“架构变化的迫切性,过于自信地认为“不联网“就是安全。 在这个远程控制、供应链攻击日益复杂的时代,JB 对于 VLC“完全离线“就暗自庆幸,认为这是安全护城河。但他忽略了以 Google 同名恶意 DLL 注入者为例的供应链攻击已经能通过社会工程学和系统漏洞渗透。虽然他们试图通过高度复杂的离线编译制作流程来应对国家安全级别的后门威胁,但这种 100% 瘫痪的防御策略在面对不死不休的攻击时,不仅成本高昂,而且昂贵到理论上想让 VLC 跑崩消费者用户的流量都需要花费 200 欧元以上。真正的安全不应在需求层面“自我阉割“搜索服务,而应在架构层面实现沙箱化和模块化解耦,而非仅仅依赖代码的纯净度。

4. 行业视野

从“互联网霸权“到“机器人基础设施“的功能迁移。 这期对话的终极坐标锁定了多媒体技术的演进方向。如果说过去二十年行业关注的重点是“如何用 AV1 算法节省 YouTube 的带宽“以实现商业变现,那么未来五到十年的核心战场则是“如何用延迟擦除距离“。Kyber 项目将超低延迟视频流技术从娱乐领域剥离,倒插进机器人学、骨骼映射和云游戏的前沿。FFmpeg 募集的超低延迟技术,目前成为了连接人类操作者与伊朗无人机或火星探测器的神经接驳网。这意味着软件的开源里程碑不再书写在 YouTube 的服务器角落,而是记录在 DHL 物流无人机或灾难救援机器人的控制台上。

专利雷区下的格式分裂与版权责任的全球化。 现代多媒体技术正处于一个前所未有的分裂期。以 MPEG 为代表的传统联盟仍在通过专利池(MPEG LA, HEVC Advance)维持高额授权费,导致单一 HEVC 编解码器在某些场景下的授权成本可达数十亿美元年,迫使 Google 推出 VP9,联盟推进 AV1/AV2。这种“免费专利“对抗“收费专利“的博弈,本质上是由开源社区的强制力在推动技术标准化,防止了对话框般的互操作性崩溃。但这同时揭示了残酷的现实:专利既是技术交流的绊脚石,保护了既得利益者,也是开源项目必须跨越的政治鸿沟。欧洲软件专利的非法地位(如法国立场)成为了最后一块避风港,但对于全球化封禁,这一点显得越来越无力。

数字考古学的核心竞争力在于标准化与兼容性。 随着模拟信号源的枯竭和存储介质的淘汰,FFmpeg 正在承担起“数字考古学家“的关键角色。记录人类文明的 FFV1 无损编码器,不仅仅是为了保存画质,更是为了应对未来 1000 年可能已经失传的特定硬件读取头。在没有明确文档的情况下,通过逆向工程解码 “star wars game opening credits” 或 “CCTV 系统” 的私有二进制,体现了工程界维护生态连续性的最高尊严。当未来的 AI 是基于 10 年前的无意义数据(Slop)训练时,基于人类真实历史记录的 FFmpeg 档案,将成为唯一可读的文明基石。

5. 启示与建议

对硬件工程师与底层开发者: 拥抱“慢科技“的回归。在 AI 推理向上跑、LLM 向下压缩带宽的当前趋势中,GPU 的通用计算提升遇到瓶颈,而传统 CPU 依然需要处理海量实时解码工作流(如监控、工业推流)。深入研究 AVX/SVE/Arm NEON 等指令集的手写优化,并像吉林狼一样的开发者那样,构建抽象态的 SIMD 层以跨操作系统调用约定(calling convention),这将成为高阶工程壁垒。

对 VC 与创业者: 不要在目前还处于上层建筑的安全框架或又一个 LLM 框架上押注。投资的下一高价值领域在于**“多模态感知混部“与“影子设备接口”**。这包括低延迟遥操作的实时链路(解决 6DoF 机器人的远程跟随痛点)、面向 AR/VR 的体积视频压缩标准,以及对海量遗留视频库进行无损重组和数字孪生化的中间件公司。真正的机会在于如何利用开源底层的灵活性,将时间敏感型数据(Control data)与视频流进行内在的协议级绑定,解决物理世界的同步问题。

对大众用户与技术人员: 这期节目的最强信号是:对于绝大多数消费级设备(手机、电视、浏览器),你并不需要 Dolby、Apple ProRes 或 patent 式的高昂编码器。FFmpeg + x264 已经完美解决了人体感知视觉误差的问题。而去关注那些推动了 AV1 标准制定、坚持做开源无损编码和逆向工程公益项目的社区,才是对数字文明延续最有贡献的行为。

6. 金句摘录

  • “The important thing is, is your code good? We care about excellent code. We don’t care who you are.” (核心观点:批评家身边的强者对话)无论你是超级公司的核心工程师,还是叙利亚战区的志愿者,甚至是有人养的狗,只要代码不行,就一无是处。这份傲慢即是对程序员的终极推崇。

  • “Teenagers have written more assembly in FFmpeg than Google engineers.” (技术反讽:优化哲学的冲突)致那些为生成器代码而沾沾自喜的 AI 及其粉丝。在 x86/ARM 这座深谷中,人类少年积累的手写汇编字节数量,已经压倒了每年投入百万美元的工业巨兽。

  • “Je ne regrette rien.” (精神继承:对过去与争议的二元态度)用法国香颂《不后悔》来概括他们对技术路线的坚持——无论是暴力的 Twitter 风格,还是对编译器的藐视。除了从错误中学习,不要在情绪上消耗脑子。

  • “Everything matters where FFmpeg runs.” (行业狙击:服务器的庄严确认)不仅仅是安德斯·焦尔的火星探测器写了 Paper 论证使用 COTS(货架产品)FFmpeg 究竟是偷懒还是创新,而是这句话本身宣告了开源多媒体基础设施已经成为了算力的必选项。

  • “Compilers are not evil, but they cannot optimize what they cannot see because you hid it in intrinsics.” (理论升华:编译器的局限性)工程师将魔术金手指(intrinsics)塞给编译器以为拥有了上帝视角,殊不知这反而切断了编译器进行全局寄存器分配等超级优化的可能性。手工汇编考验的是对机器的绝对掌控,而非攻击编译器逻辑。