感觉gpt-5.4在复杂任务场景下不如上一代gpt-5.3-codex？

qzero · 2026 年3 月 6 日 07:03

如题，交给codex一个构造测试用例尝试复现bug的任务，5.3-codex会尝试半个多小时最终完成任务。但是5.4只尝试了将近10分钟就宣布放弃了，而且有些指令也没有遵循。

感觉5.4有点“变懒了”，不知道大家有没有同样的感觉

lsamc · 2026 年3 月 7 日 05:00

啊?会这样吗
我codex一直只用*-codex模型, 到没试过
不过网页端5.4似乎还行, 是不是不太适合干活