Redis 作者分享的一个真实实验对比过去一周，他用 Claude Code Opus 4.6 和 Codex GPT 5.4（max thinking）进行了长时间的自主运行，在独立的目录环境中反复测试。任务非常复杂，从一个早期90年代的 Unix 磁盘镜像，反向工程早已消失的 SCSI 控制器及其集成 ROM。这是为了计算机历史和博物馆合作的项目，需要结合硬件知识、汇编/反汇编等深度工程能力。实验结果：GPT 5.4 ：在多次长时间运行中取得了所有主要进展，能有效混合硬件知识、反汇编技巧等，完成复杂逆向工作。Claude Opus 4.6：只取得了少量次要进展，在高难度任务上几乎一点用都没有。他的结论：对于高难度的工程工作，两者差距非常残酷。GPT 5.4 明显更强，尤其在需要深度推理和长时程任务时。

Timeline