谷歌这次把 Gemma 4 放开了(一)
首发当天我本来想干的事很简单,找一个和 Gemma 3 对应得上的升级版,先下下来跑。
结果一圈看下来,人先有点傻眼。以前熟的 4B / 12B / 27B 那套名字没了,冒出来的是 E4B、26B A4B、31B。怎么说呢,这次谷歌真正改的,不只是模型大小,而是连“你该怎么理解这批模型”都一起改了。
首发当天我本来想干的事很简单,找一个和 Gemma 3 对应得上的升级版,先下下来跑。
结果一圈看下来,人先有点傻眼。以前熟的 4B / 12B / 27B 那套名字没了,冒出来的是 E4B、26B A4B、31B。怎么说呢,这次谷歌真正改的,不只是模型大小,而是连“你该怎么理解这批模型”都一起改了。
用 Codex 这段时间,有个问题一直挺别扭:默认思考档位是 medium,但网上一聊到 GPT-5.4,口气又都很猛。真到自己手里,medium、high、xhigh 到底差多少,官方也没给一张特别直白的表。
我现在的结论挺明确,日常编码我更愿意直接开 high。medium 不是不能用,快活、小修小补、试探方向没问题;但真到多文件修改、需求有歧义、还要边看代码边判断的时候,medium 很容易把算力省错地方。xhigh 我反而不会常开,留给卡壳的大活更合适。
翻了一圈现在仓库里的配置,我反而更确定一件事:这套东西最后拼的不是单个模型有多强,而是每一层到底该让谁来承担成本。
最明显的一个信号就是,当前生效的 published.runtime.json 还是 2026 年 4 月 2 日生成的 minimax-m2,但 2026 年 4 月 3 日 16:38 的 5f17088 已经把 blog-style-suite 的默认 provider 切到了本地 LM Studio 里的 gemma-4-26b-a4b。这看起来像前后不一致,其实不是,它恰好说明了这条流水线开始有了分工。
如果 token 足够,最省脑子的办法其实很粗暴:把历史文章直接塞给模型,让它自己学。
问题在于,这种办法只适合偶尔来一篇,不适合反复写。你要是真把博客写作当成长期工作流来做,生吃历史文章这条路,很快就会从“简单直接”变成“又贵又乱”。
去年写了不少 AI 稿子,那会最土的流程就是,自己先整理个大纲或者问题清单,让大模型把正文吐出来,然后再把内容复制到本地 md 文档里,补 frontmatter、标签、分类、标题,最后再发布。
这套流程不是不能用,是很烦。真正费时间的地方,不是正文,而是正文外面那一圈重复劳动。尤其是最近 Codex 用多了以后,这种别扭感更强了。它能读仓库、能改文件、能补资料、还能直接把文章写进目录里,我要是还手工复制来复制去,反而像是人把工具的腿绑住了。
今年春节看国内几家 AI 厂商撒钱,我的第一反应不是热闹,而是眼熟。
腾讯元宝 2 月 1 日开了 10 亿现金红包,百度文心从 1 月 26 日一路发到 3 月中旬,拿出 5 亿元红包,阿里千问 2 月 6 日又直接上了 30 亿元“请客计划”,豆包则借春晚和 AI 互动往里冲。我的判断很直接,这还是上个时代互联网留下来的惯性动作,先把人拉进 App,先把使用频率做起来,剩下的以后再说。
但 AI 这门生意,没那么像流量生意。
这几天看 AI 编程,前脚大家还在聊 MCP,后脚又开始聊 Skill。很多人第一次看到这个词,会本能地把它当成又一个新协议,或者又一种高级提示词。
我的判断很直接,Skill 不是来抢 MCP 位置的,它更像是给 agent 配一份工种手册。MCP 解决的是“让 agent 能连上外部世界”,Skill 解决的是“连上以后,按什么套路把活干稳”。这两者不是替代关系,更像是一前一后。
说白了,MCP 让 agent 有手有脚,Skill 让 agent 别乱来。
最近把一些边角活往 MiniMax 和本地模型上迁,越用越觉得,这事不能老拿“最强模型”那套标准去衡量。
我的判断很直接,弱模型别硬上强活。MiniMax 这类模型,能力弱是弱,拿去做复杂编码、长链路推理、模糊需求拆解,确实差点意思。但如果你让它做数据清洗、文档编写、方案资料搜索,这类活它是完全能接住的。同样的逻辑,本地 12B 左右的模型也一样,翻译、格式改写、批量清洗,反而是它们真正适合待的位置。
说白了,不是模型没价值,而是别把它放错工位。