感觉gpt-5.4在复杂任务场景下不如上一代gpt-5.3-codex?

如题,交给codex一个构造测试用例尝试复现bug的任务,5.3-codex会尝试半个多小时最终完成任务。但是5.4只尝试了将近10分钟就宣布放弃了,而且有些指令也没有遵循。

感觉5.4有点“变懒了”,不知道大家有没有同样的感觉 :thinking:

啊?会这样吗
我codex一直只用*-codex模型, 到没试过
不过网页端5.4似乎还行, 是不是不太适合干活