Codex 默认 medium,我后来还是切到 high

用 Codex 这段时间,有个问题一直挺别扭:默认思考档位是 medium,但网上一聊到 GPT-5.4,口气又都很猛。真到自己手里,mediumhighxhigh 到底差多少,官方也没给一张特别直白的表。

我现在的结论挺明确,日常编码我更愿意直接开 highmedium 不是不能用,快活、小修小补、试探方向没问题;但真到多文件修改、需求有歧义、还要边看代码边判断的时候,medium 很容易把算力省错地方。xhigh 我反而不会常开,留给卡壳的大活更合适。

先把 medium 说清楚

这事最容易绕晕人的地方,是 medium 不止一套含义。

截至 2026-04-08,OpenAI 公开文档里,GPT-5.4reasoning.effort 支持的是 nonelowmediumhighxhigh,默认还是 none。但同一套文档里,verbosity 也有 lowmediumhigh,而且 GPT-5.4verbosity 默认值就是 medium

所以你在网上看到一句“默认是 medium”,先别急着往“思考等级”上套。很多时候,说的根本不是一回事。

如果你是在 Codex 里直接用,看到默认是 medium,我更倾向于把它理解成产品层给你的预设,而不是模型文档里的底层默认值。这个区别不拆开,后面讨论就会一直打架。

官方其实没把差距讲透

再说官方说明。

公开文档现在能确认几件事:

  • gpt-5.4 是官方推荐的通用编码默认模型。
  • 代码生成指南里,官方给 gpt-5.4 的示例,直接配的是 reasoning: high
  • gpt-5.3-codex 这类 Codex 定向模型,公开页面明确支持 lowmediumhighxhigh
  • gpt-5.4-pro 是另一条线,不是普通 gpt-5.4 单纯把档位拧高那么简单,它本身就是“用更多算力想更久”的独立型号。

但官方没有给出一张特别实用的表,比如:

  • mediumhigh 到底差多少成功率
  • highxhigh 多花多少时间、多少 token
  • 在编码场景里,什么任务值得直接上 xhigh

也就是说,官方把旋钮给你了,没把经验曲线替你画完。

真正有用的,还是看排行榜怎么拆档位

灵光一闪,我去翻了 Arena 的代码榜,这下就清楚多了。

arena.ai 的代码排行榜把档位拆开写了。页面更新时间是 2026-04-01,截至我写这篇文章时:

  • gpt-5.4-high (codex-harness) 排第 6,分数 1457
  • gpt-5.4-medium (codex-harness) 排第 16,分数 1427
  • gpt-5.3-codex (codex-harness) 排第 18,分数 1407

这几个数放一起看,意思已经很直接了。

同一个 GPT-5.4highmedium 不是“差一点点体验”,而是已经能拉开一个明显档次。你要是只看“GPT-5.4 很强”这句话,其实信息不够,因为榜单自己都把 highmedium 拆成两条了。很多人口中的“很强”,大概率说的是高思考档跑出来的效果,不是在替 medium 站台。

当然,排行榜不是你项目里的真理。它测的是 agentic coding + harness 场景,不是你本地这一个仓库。但方向已经很明显了:编码这种事,推理档位真会改结果,不只是改速度。

我现在怎么选

说白了,我现在的用法很简单。

medium 留给下面这些场景:

  • 改几个小文件
  • 修明显 bug
  • 先让模型吐个草稿
  • 要速度,不想等太久

high 适合当日常默认:

  • 多文件联动修改
  • 需求里有一点模糊地方
  • 需要先读代码再下手
  • 要做判断,不只是补全代码

xhigh 我会留给硬骨头:

  • 高风险重构
  • 长链路排障
  • 架构改动
  • high 连着两轮都没把问题啃下来

这里面最关键的,不是 xhigh 有多神,而是别把 medium 用成“万金油”。medium 真正的问题不是弱,而是它太容易在复杂任务上给你一种“差一点就行”的错觉。结果就是第一轮省了点时间,后面返工更多。

说回 GPT-5.4,到底强的是哪个级别

所以最后回到那个问题:网上说 GPT-5.4 很强,说的到底是哪个级别?

我的判断是,没写清楚档位的“GPT-5.4 很强”,默认按高思考档理解更靠谱一点。至少在编码场景里,你别直接把它理解成 medium。如果对方说的是 gpt-5.4-pro,那就更不是一回事了,那是单独的更重计算版本。

前文写过 基于命令行的AI编码交互,那会更多还在聊交互方式的变化。现在回头看,交互变了是一回事,模型到底开哪档,其实已经变成另一个更现实的问题了。

我现在站得很明确:日常用 high 足矣,搞不定再试 xhigh。这样在速度、成本和成功率之间,平衡点更像是对的。

参考资料

写作附记

原始提示词

$blog-writer codex 使用期间,有个疑问,默认的思考等级 medium,那剩下的 high xhigh 能力差别有多少,我日常使用应该是用哪个?官方也没看到明确的说明,网上说的 GTP5.4 很强,说的又是哪个级别的思考?灵关一闪,我想到大模型的排名:https://arena.ai/leaderboard/code,在这里,明确的说明了大模型的思考等级,没错了 gpt-5.4-high (codex-harness) 排在第六,默认用 high 足矣,搞不定了,可以试试 xhigh,能均衡下成本和速度

写作思路摘要

  • 把“日常用 high,xhigh 兜底”作为主判断,没有写成档位百科。
  • 先拆开 reasoningverbosity,避免把公开文档里的两个 medium 混为一谈。
  • 官方资料主要用来确认支持档位、默认值和代码生成示例,没有硬编一张官方并未提供的能力差距表。
  • Arena 榜单用了 2026-04-01 页面里的名次和分数,给“high 明显强于 medium”补事实锚点。
  • 结构上先讲为什么会困惑,再讲官方口径的边界,最后收口到日常怎么选。
金融IT程序员的瞎折腾、日常生活的碎碎念
使用 Hugo 构建
主题 StackJimmy 设计