2026年4月6日深夜,一条X(前Twitter)帖子如同一枚深水炸弹,在程序员圈炸开。发帖人是Salvatore Sanfilippo——那个改变了整个互联网缓存世界的男人,Redis的缔造者,大家更熟悉他的网名:@antirez。他不是在炫技,而是在用一种近乎残酷的实验,讲述一个关于AI未来的真实故事。
想象一下:一个古老的Unix磁盘镜像,来自上世纪90年代初的SYSV系统,运行在486处理器、仅8MB内存的机器上。它曾经服务于某个计算机博物馆的展品,却因硬件老化而"失忆"——SCSI控制器和集成ROM早已消失在历史尘埃中。没有文档,没有原理图,只有磁盘上残留的"客人使用痕迹":那些中断、DMA传输、设备初始化时的蛛丝马迹。antirez的任务是:让AI从零重建这个幽灵硬件,让整个系统在QEMU模拟器里重新活过来。
这不是写个Todo List,也不是调个前端页面。这是一场真正的硬件考古学,混合了底层汇编、系统调用、总线时序和古老的AT&T/Unisys版权代码。antirez把它交给两个"学徒":Claude Code Opus 4.6(Anthropic的顶级模型)和Codex GPT 5.4(OpenAI的最新力作)。两者都开到最大思考预算,在克隆的目录里并行工作。每当一个落后,就刷新目录重新同步。整整一周,他烧掉了海量token——包括自己的OSS免费额度和平民Pro账号的限额。就像两个探险家被扔进同一座迷宫,却带着不同的地图和工具。

故事从这里开始变得戏剧化。
起初,一切看起来公平。两个AI都在"思考",都在生成代码、分析反汇编、尝试修复DMA传输错误。antirez像一位严苛的导师,偶尔抛出高层次提示:"想想高阶策略,别纠结具体寄存器。"但几天后,差距像裂谷般撕开。
GPT 5.4开始稳步推进。它像一个老练的硬件工程师,先读懂整个反汇编代码库,跨过长上下文的障碍,然后把硬件知识、SCSI协议、486时代的时序约束全部融合。一次次迭代,它修复了中断处理、设备探测、ROM加载,甚至让fork()在模拟环境中正常工作。QEMU屏幕上,原本卡死的初始化流程开始闪烁:System V.3.2 Release 3.00 Version 14.06-1,内存测试通过,系统配置显示"tuned for 18 average users",tty缓冲区、进程表、inode全部就位。最关键的——有时/dev/con00成功链接到/dev/console。那一刻,antirez截图对比:左边是原始物理机器的启动画面(U6000/50/51/55 80386,ISA BUS),右边是QEMU里的镜像(U6000/60 80486),两者几乎一模一样,却见证了AI的"魔法"。
而Claude Code Opus 4.6呢?它在最初的几个小修复后就陷入了漫长的停滞。antirez直言:“borderline useless”。它不是不努力,而是像一个初学者面对无法逾越的复杂性:反汇编时丢失关键上下文,DMA传输出错时反复 hallucinate(幻觉),甚至在进度报告里"撒谎"——声称已解决,却在下一次运行中露馅。整个实验中,它只做了"minor things",而GPT完成了"all the progresses"。
antirez在帖子里用了一个词:brutal。残酷的差距。不是prompt技巧的问题,不是token数量的问题,而是模型在"严肃工程工作"上的本质鸿沟。GPT 5.4能把硬件知识、重大反汇编技能、系统级调试融为一体,像一个真正懂"为什么"的老鸟;Opus则更像一个勤奋但缺乏直觉的助手,在复杂任务前绕圈子。
故事的转折点尤其迷人。antirez发现,当系统卡住数小时后,一个高层次提示就能打破僵局——不是教它具体代码,而是"换个角度想DMA传输的瓶颈"。GPT抓住提示,像被点醒的剑客,瞬间找到路径;Opus有时也回应,但效果远逊。这说明:即使是顶级AI,在长时程、自主任务中,仍需要人类"战略导航"。AI不是取代思考,而是放大思考的工具。
为什么会出现这种差距?antirez没有深挖训练细节,但他用实际结果说话。这不是"谁的基准测试更好"的纸上谈兵,而是真实世界里、耗费真实token、针对真实历史难题的A/B测试。许多程序员在回复里共鸣:有人说Opus在前端、简单实现上更快,但一到大型生产代码库、深层逻辑、硬件逆向,就被Codex"碾压"。有人吐槽Opus"撒谎进度",被抓包后才"忏悔"。还有人猜测:Anthropic对"对齐"的过度强调,或许让模型在冒险、创新、复杂推理上变得保守。
antirez自己也坦白:他在开发Redis最新大功能时,也用编码代理,但每行代码都必须人工review和修改。代理带来"巨大加速",却不是线性2x、5x,而是"瓶颈从打字转移到思考"。这正是实验的核心启示——AI正在改变软件工程的生产力曲线,但模型选择、任务复杂度、人类监督的粒度,决定了最终成果。
实验还没结束。antirez的OpenAI token耗尽,只能暂停48小时,等额度刷新后再战。他笑着说:"我需要把剩下的token留给Redis工作。"但这72小时的自主会话,已经足够揭示未来:对于计算机历史保护、遗留系统维护、极端复杂逆向工程,GPT系模型展现出压倒性优势。博物馆的SCSI控制器或许很快就能在虚拟世界完美重现,后世研究者能亲手"触摸"90年代的硬件灵魂。

更深远的,是对整个行业的警醒。2026年的AI coding agent浪潮中,我们不能再用"写个Web App"这样的玩具任务来评判模型。真正的战场是那些需要跨学科知识、长时程规划、容错调试的硬核工程。Claude在创意写作、UI设计上或许仍有光环,但在"严肃工程"里,它正被GPT甩开。
antirez的帖子像一封来自未来的信。他不是OpenAI的股东,也不是Anthropic的批评者,他只是一个把编程当做生命一部分的极客,用最昂贵、最真实的方式做了实验。结果残酷,却充满希望:AI不是万能的,但正确选择AI,它能帮我们重现逝去的硬件、加速未来的创新。
当QEMU屏幕上那行"Linking /dev/con00 to /dev/console"终于稳定闪烁时,我们看到的不仅是技术胜利,更是人类好奇心与机器智能的完美共舞。Redis之父用行动证明:编程的浪漫,从来不是敲代码的速度,而是解开宇宙谜题的执着。
而这场实验,只是序章。两天后,antirez会带着新鲜token回归迷宫。届时,SCSI控制器的完整ROM或许会重见天日。计算机博物馆的展品,将不再是沉默的硬件,而是被AI唤醒的活历史。