Categories

139 个页面

计算机

记录计算机相关的知识与实践,包括编程技巧、技术探索和学习心得

GPT-5.5 在 Codex 里更贵,问题不只在 token 数

傻眼了。

ChatGPT 官方这边一直不太好直接看 token 和费用,我就找了个三方平台,在 Codex 里拿 GPT-5.4 和 GPT-5.5 跑了一轮同类任务,思考模式都拉到 high。结果很直白,简单问题还算温和,GPT-5.5 比 GPT-5.4 大概贵了 30% 左右;一上复杂任务,费用直接干到 2.6 倍,连请求次数和 token 消耗都一起往上走。

我现在的判断也很直白:这不是一句“5.5 单价更贵”就能说完的事。简单问题里,贵主要贵在单价;复杂任务里,贵的其实是整条调用链。但是反过来看,5.5 也确实更像是在替你吃掉返工成本。模型更愿意多想、多做、多检查几步,最后账单不是按一句回答算,而是按整套动作算,人也少来回折腾几轮。

ChatGPT Images 2.0 之后,截图信任要重算

开始我其实没想着测。刷到 OpenAI 在 2026 年 4 月 21 日发 ChatGPT Images 2.0 的新闻时,我的第一反应是,又一个图像版本更新。直到我瞅了眼 Artificial Analysis 的榜单,GPT Image 2 (high) 已经排到文本生成图片第一,Elo 1332,我就有点意难平,还是去试了几轮。

结果挺直接,中文效果很好,漫画也能做,连续多张图的角色和叙事稳定性也上来了。但我后面越试越觉得,这次真正值得写的不是“它更会画了”,而是“它开始让一些原来默认可信的东西变得不太可信了”。这件事比排行榜更麻烦。

模型大战下一站:价格、芯片和供应链

今晚刷模型消息,确实有点傻眼。

按官网时间线看,这波密集更新其实是连着来的:2026-04-20 Moonshot 把 Kimi K2.6 挂上首页;2026-04-22 小米正式放出 MiMo-V2.5MiMo-V2.5-Pro2026-04-23 OpenAI 发布 GPT-5.5,API 定价也一起抬了上去;2026-04-24 DeepSeek 又把 V4 Preview 推出来。顺手说一句,群里常说的“小米 2.5”,严格点讲应该是 Xiaomi MiMo-V2.5 / V2.5-Pro,不是一个模糊代号。

我现在的判断很直接:这轮已经不是单纯的模型发版潮了,而是三条线一起打起来了——模型能力、API 价格、芯片栈归属。谁只讲其中一条,基本都容易看偏。也正因为三条线开始咬在一起,大模型这个赛道才会显得这么白热化。

顶级模型开始限流,AI 公司在卖访问权

这两天刷到 Anthropic 在 2026 年 4 月 7 日放出来的 Project Glasswing,我第一反应有点傻眼。不是因为又一个模型分数更高了,而是它把最强那档能力先锁进了一个小圈子里,先给 AWS、Apple、Google、微软、Linux Foundation 这些防守方用。

我自己的判断很直接:这事比又一个 benchmark 破纪录更重要。前沿 AI 公司现在卖的,已经不只是模型本身,而是“谁先拿到能力、能拿到多少能力、拿到之后要承受什么审计和约束”这一整套访问控制。模型越来越像危险工具,发布节奏也越来越像发放许可证。

换到联通之后,美国节点不再是默认最优

搬家以后,家里的宽带从电信换成了联通。刷剧、打游戏都没什么明显变化,我一开始也没太当回事。

真正露馅是在下载资料的时候。我习惯性切到美国节点,按以前的经验,美国机房带宽足,下载大文件通常能跑得很满。结果这次怎么切都上不去,反而新加坡、台湾节点顺了很多。

这一下把我原来那个很粗的判断拆开了:节点快不快,不能只看服务器在哪个国家,也不能只看机房带宽。你家宽带站在哪张网、代理服务商买了什么上游、回程更偏哪家运营商,最后都会落到同一个下载进度条上。

Hermes 和 OpenClaw 的 token 账单差在哪

写完上一篇 Hermes 和 OpenClaw 的对比以后,我又去翻了一遍两边文档。越看越觉得,如果只问功能像不像,很容易看偏。

更直接的问题是:它们把 token 花在了哪里。

OpenClaw 更像一个长期在线的助理工作台,默认就要带身份、工作区、消息面和记忆边界。Hermes 更像一个本地 agent 内核,默认先把上下文压住,需要时再发现、再注入、再展开。一个把成本前置,一个把成本后置。最后账单长得当然不一样。

Hermes 不能按 OpenClaw 平替来估

这两天我把 Hermes 和 OpenClaw 的文档来回翻了一圈,越看越觉得,很多人把这两个项目放在一起比,其实一开始就比偏了。

它们当然都在做“个人 AI 助手”。都能接消息、调模型、跑工具、留住一点上下文。Hermes 甚至还专门做了 hermes claw migrate,摆明了是知道自己会接到一批 OpenClaw 用户。

但是说白了,Hermes 不是换皮版 OpenClaw,OpenClaw 也不是多了几个消息入口的 agent framework。一个是从 Gateway 往外长,一个是从 AIAgent 往外长。这个差别不先看明白,后面谈架构、设计理念和生态,基本都会越聊越乱。

让 AI 写 Demo,检查点要比代码更小

AI 写 C++ 小项目,最吓人的地方不是它写不出来,而是它太快写出来了。

你只是想起一个最小 Demo,它三分钟给你铺好目录,接好三方库,补上日志、配置、异常和几个看起来很专业的类。项目甚至能跑。问题是,等你开始认真接业务,才发现自己还没搞清楚新库支持什么、构建链路怎么走、哪些抽象是必要的,返工已经排着队来了。

我现在对 AI 编程的态度反而更保守:不是少用 AI,而是每一轮都把检查点压小。尤其 C++ 这种没有统一脚手架兜底的语言,前面让 AI 多做一点,后面就可能多还几步。