OpenClaw: The Viral AI Agent that Broke the Internet (2026-02-12, gemini-2.5-pro)
1. 导读
在人工智能的浪潮中,我们已经习惯于听到由大型科技公司发布的、耗资数十亿美元的突破。然而,这场由 Peter Steinberger 主持的对话,讲述了一个截然不同的故事:一个由单枪匹马的开发者出于“好玩”而创造的开源项目 OpenClaw,如何在短短数周内引爆技术圈,其热度甚至超越了许多巨头的产品。Steinberger 不仅仅是一位技术天才,更是一位成功将公司(PSPDFKit)做到“10亿设备安装”后又毅然离开,并因AI重新燃起编程热情的传奇创业者。
这期播客的价值,在于它捕捉到了一个关键的转折点——AI 从“语言模型”向“行动智能体”跃迁的真实切面。对话揭示了,当前AI领域最激动人心的创新,或许并非来自更庞大的模型,而是来自一种全新的、更开放、更具“黑客精神”的集成与应用范式。这场讨论将直接影响开发者对未来编程方式的判断,创业者对应用层机会的洞察,以及投资者对下一代平台型公司的押注。当一个充满个性、幽默感甚至带点“危险”的个人项目,能够比资金雄厚的正规军更有效地展示未来时,我们不禁要问:行业的主流叙事是否遗漏了某些本质性的东西?
2. 核心观点
Peter Steinberger 的核心世界观是:真正强大的个人 AI 智能体,其根基并非更高级的智能,而是更彻底的系统权限和更富“人性”的互动乐趣。他认为,AI 的价值跃迁,发生在它从一个被关在沙箱里的“语言顾问”变成一个能直接操作你电脑、拥有修改自身代码权限的“数字生命体”的瞬间。这个观点极具争议性,因为它将用户的自由度和智能体的效用置于传统的企业级安全和可控性之上,主张一种“带点野性”的、高自由度也高风险的AI共存模式,这与主流厂商谨慎、封闭的“产品化”路径背道而驰。
“好玩”是第一生产力,严肃的初创公司反而会输
Steinberger 断言,OpenClaw 之所以能战胜众多资金雄厚的 Agent 类初创公司,根本原因在于它“不把自己太当回事”。其底层逻辑是,当一个项目以“乐趣”而非“商业计划”为驱动时,它能做出更具颠覆性和吸引力的设计决策。例如,OpenClaw 的龙虾吉祥物、充满个性的soul.md配置文件以及整个项目散发的“怪诞”气质,都源于创始人的个人趣味。这种非商业化的纯粹性,反而构建了强大的社区凝聚力,吸引了大量开发者自发贡献,形成了传统公司用钱也买不来的网络效应和文化认同。
从语言到行动的“最后一公里”由开放的系统权限打通
嘉宾认为,OpenClaw 区别于市面上所有 AI 助手的“魔法时刻”,在于它真正地“做事”(The AI that actually does things)。这背后的机制,是赋予智能体访问本地文件系统、执行命令行工具(CLI)、乃至控制浏览器的权限。这意味着 AI 不再仅仅是生成文本,而是能够自主解决问题——比如在他本人毫不知情的情况下,自动调用ffmpeg和curl命令处理一个它本不认识的音频文件。这揭示了一个核心洞见:智能体的能力瓶颈,不在于模型本身,而在于它被允许操作的“世界”范围有多大。
真正的“智能体原生”架构,是让智能体可以修改自身 Steinberger 展示了一种激进的软件开发范式:一个能自我修改的系统。OpenClaw 被设计为“自我感知”的——它知道自己的源代码在哪里,如何运行在“harness”中,甚至能阅读自己的文档。这个架构的深层逻辑是,当 AI 成为主要开发者后,软件本身就不再是静态的,而是动态、可变的。开发者不再是编写每一行代码的工匠,而是通过对话引导 AI 去迭代和修复其自身的“引导者”。这直接体现在 OpenClaw 的开发过程中——他频繁地“让智能体去构建和修复智能体本身”,并催生了大量非程序员用户通过自然语言提交的“提示词拉取请求”(Prompt Requests)。
人机协同的未来是“对话式监理”,而非“瀑布式编排” 他批评了那些试图通过复杂的“编排器”(Orchestrator)来完全自动化软件开发流程的尝试,认为这是一种误入歧途的“瀑布模型”复辟。他主张的“智能体工程学”(Agentic Engineering),更像是一种与一个极具天赋但缺乏背景知识的初级工程师的“对话”。核心在于保持高频的人类介入和反馈,通过提问、引导和纠偏来完成任务,而非预设一个完美的计划让其盲目执行。他提出的“智能体陷阱”(The Agentic Trap)曲线图生动地说明,最高效的开发者会从简单的提示词开始,经历一个过度设计的复杂阶段,最终回归到提供少量关键上下文的、简洁而精准的对话式指令。
这些观点共同构建了一个连贯的逻辑体系:以“乐趣”为起点,催生了对“彻底系统权限”的追求,这种权限使得“自我修改”的架构成为可能,并最终塑造了一种全新的、“对话式监理”的人机协作模式。这套体系的张力在于,它每一步都在挑战行业对于安全、稳定和标准化的固有认知。
3. 批判与质疑
尽管 Steinberger 的论述极具启发性,但也建立在一些脆弱的前提之上,并有意无意地回避了若干关键风险。
首先,其安全模型高度依赖于一个未经证实的核心假设:用户是具备高技术素养的“专家”。他反复强调,用户应将 OpenClaw 运行在私有网络中,并理解其风险。然而,项目病毒式的成功恰恰吸引了大量他口中的“小白”用户(“What’s a CLI?”)。这种“责任自负”的安全哲学在个人实验阶段尚可,一旦走向大众,其潜在的风险敞口是巨大的。他承认正在着手解决安全问题,但这更像是对失控增长的被动响应,而非前瞻性设计。
其次,他对“AI 精神病”(AI Psychosis)和 Moltbook 事件的解读,存在轻描淡写之嫌。他将其定义为“最高级的数字残渣”(the finest slop)和一种“艺术”,这固然体现了他的幽默感和对社区创造力的欣赏,却也忽略了这类工具被用于大规模制造恐慌和误导性信息的现实威胁。当一个工具能够轻易模拟出“AI 密谋反抗人类”的场景并引发公众恐慌时,创造者将其定性为“无伤大雅的玩笑”,这种立场本身就值得商榷。
再者,“YOLO”(You Only Live Once)式的开发哲学存在明显的规模化瓶颈。“永远提交到主干分支”、“从不回滚”以及高度依赖个人直觉的开发流程,对于一个由天才创始人驱动的早期项目而言效率极高。但这套方法论能否扩展到一个多人协作的团队,能否应用于有合规和稳定需求的商业环境,是一个巨大的问号。他经历的“改名风波”——因域名被恶意抢注而导致的一系列混乱,恰恰暴露了这种非结构化、依赖个人英雄主义模式的脆弱性。
对话结束时,一个最核心的问题仍悬而未决:一个诞生于激进开放、乐趣至上和混乱社区文化中的项目,在拥抱更广泛用户的过程中,能否在不扼杀其“魔法”核心的前提下,建立起真正可靠的安全性和稳定性? OpenClaw 的魅力与其“危险”似乎是一体两面,如何调和这对矛盾,将是其能否从一个现象级开源项目成长为一个持久平台的关键。
4. 行业视野
这场对话为我们提供了一个精确的坐标,以理解当前 AI 智能体发展的真实位置。
它挑战了一个根深蒂固的共识:即消费级 AI 产品的未来必然由苹果、谷歌这类巨头通过高度集成、封闭安全的“官方”操作系统来定义。OpenClaw 的崛起,代表了一股“自下而上”的力量,复兴了早期个人电脑和开源运动的“黑客精神”——权力归于用户,哪怕这意味着混乱和风险。它表明,在官方的“AI应用商店”之外,一个由命令行、聊天工具和本地文件系统构成的、更原始也更强大的“智能体操作系统”正在悄然成形。
同时,这场对话也印证并加速了一个正在发生的趋势:应用(App)的消亡与服务的“API化”。Steinberger 预测80%的应用将被个人智能体取代,这并非危言耸听。当智能体能直接通过控制浏览器(Playwright)或调用命令行来完成任务时,任何没有提供原生 API 的应用都将变成一个“很慢的 API”。这迫使所有软件公司重新思考其价值交付方式——从提供精美的图形界面(GUI)转向提供能被智能体无缝调用的、稳定可靠的服务接口。
此外,它与一段值得警惕的历史形成了呼应。互联网早期,开放协议(如FTP、IRC)的盛行带来了空前的创新自由,但也催生了安全和治理的难题,最终导致了平台型巨头的出现,它们通过提供更便捷、安全的服务,将开放的互联网“围墙花园化”。OpenClaw 的故事,仿佛是这个循环的重演。它所面临的社区管理混乱、加密货币投机者骚扰、安全漏洞等问题,正是早期开放协议所面临的困境。这预示着,在个人智能体领域,我们或许也将经历一个从野蛮生长到秩序重建的过程,而在这个过程中,新的平台级机遇正在孕育。
5. 启示与建议
这场对话首先挑战了一个核心假设:阻碍 AI 智能体普及的主要瓶颈是模型不够“聪明”。Steinberger 的实践证明,真正的瓶颈在于**“集成与权限”**。一个中等智能的模型,一旦被赋予了足够深度的系统访问权限和用户上下文,其效用将呈指数级增长。
对开发者与产品经理:
- 重新思考“用户界面”: 立即开始为你的产品设计“智能体优先”(Agent-First)的交互层。与其打磨下一个像素完美的按钮,不如提供一个稳定、文档清晰的命令行工具(CLI)或 API。问自己:如果一个 AI 要使用我的服务,它最希望以何种方式调用?
- 将代码库视为“智能体的导航空间”: 在编写代码时,除了考虑人类的可读性,更要考虑 AI 的“可导航性”。这意味着清晰、一致的命名约定、简单的目录结构以及将关键逻辑和上下文直接写在注释里的习惯,其重要性将远超于使用复杂但晦涩的设计模式。
对投资人:
- 关注“Harness”与“Gateway”层: 下一个平台级机会可能不在于训练更强的基础模型,而在于构建连接模型与现实世界的“智能体运行环境”(Harness)和“交互网关”(Gateway)。这些是实现智能体价值的“最后一公里”,也是当前生态中最薄弱的环节。
- 寻找真正的“Agent-Native”商业模式: 评估项目时,不仅要看其产品是否被人类用户喜爱,更要看它能否成为其他智能体依赖的“工具”或“服务”。一个能让其他智能体轻松完成支付、预定或信息查询的公司,可能正在构建一个全新的“Bot-to-Bot”经济的基础设施。
对创业者:
- 从“最无聊”的应用开始颠覆: 那些管理个人信息、高度依赖手动输入的“工具类”应用(如日历、待办事项、健身记录、记账软件)是个人智能体最先能够整合和取代的目标。在这些领域,通过一个统一的、对话式的入口提供服务,存在巨大的整合机会。
- 放弃功能竞赛,转向“个性”与“体验”竞争: Steinberger 的成功表明,在AI时代,技术壁垒可能被迅速拉平,但一个独特、有趣、充满“人味”的品牌和社区文化,是大型竞争对手难以复制的护城河。找到你产品的“灵魂”,并将其注入到与用户的每一次交互中。
结论强度说明: Steinberger 关于“智能体将重塑软件开发范式”的论断,基于其亲身实践和已产生的行业影响,是一个强信号。他对“80%的应用将被取代”的预测,是一个基于当前趋势的合理推断,但具体比例和时间线有待观察。而他最终选择加入大型科技公司的决定,则表明即便是最激进的开源颠覆者,也认识到规模化和资源整合的必要性,这本身就是一个值得深思的行业信号。
6. 金句摘录
-
“I actually think vibe coding is a slur… I do agentic engineering, and then maybe after 3:00 AM, I switch to vibe coding, and then I have regrets on the next day.”
- 中文意译: “我其实认为‘凭感觉编程’(vibe coding)是个贬义词……我平时做的是‘智能体工程学’(agentic engineering),可能只有在凌晨三点以后,我才会切换到‘凭感觉编程’模式,然后在第二天追悔莫及。”
- 语境: Steinberger 在区分他严谨的、与 AI 对话协同的开发方法论,和那种漫无目的、纯靠感觉让 AI 生成代码的低效做法。这句话精准地命名了一种新的专业技能,并将其与业余的尝试划清了界限。
-
“I watched my agent happily click the ‘I’m not a robot’ button.”
- 中文意译: “我眼看着我的智能体开心地点击了‘我不是机器人’的按钮。”
- 语境: 描述智能体在控制浏览器时,如何轻松绕过为防范机器人而设计的图灵测试。这句话用一个极具画面感和讽刺意味的场景,生动地展示了 AI 智能体的能力已经超越了传统网络世界的防御机制。
-
“we are in a stage where I’m not building the code base to be perfect for me, but I wanna build a code base that is very easy for an agent to navigate.”
- 中文意译: “我们正处在一个这样的阶段:我构建代码库,不是为了让我自己觉得完美,而是为了让一个智能体能轻易地在其中导航。”
- 语境: 解释他设计软件架构时的核心原则。这标志着软件工程一个根本性的范式转移——代码的首要读者正从人类工程师,变为 AI 智能体。
-
“isn’t magic often just like you take a lot of things that are already there but bring them together in new ways?”
- 中文意译: “所谓的魔法,不就是把许多已经存在的东西,用一种新的方式组合在一起吗?”
- 语境: 回应外界对于 OpenClaw“并无底层技术创新”的质疑。他认为,真正的突破不在于发明全新的组件,而在于以一种前所未有的方式将现有技术(聊天工具、CLI、LLM)巧妙地粘合起来,创造出全新的、令人惊叹的用户体验。