谷歌这次把 Gemma 4 放开了(三)

显存不够为什么会断崖,Mac 为什么能兜底却快不起来

这次刷论坛,最让我长记性的不是哪家又发了榜单,而是一句很土的话,显存不够,参数再大也白搭。

以前我总把“模型慢”理解成算力问题。后来越看越明白,很多时候根本不是 GPU 算不动,而是数据没法待在对的地方。只要内存路径一变,token 速度就不是慢一点,是直接掉下去。

谷歌这次把 Gemma 4 放开了(二)

3060 12GB 本地跑下来,26B A4B 才是更现实的那个

如果只看榜单,最容易心动的肯定是 31B

但真把机器搬出来,还是那台没升级的 RTX 3060 12GB,判断马上就会变。怎么说呢,本地部署这件事,最后拼的不是谁最风光,而是谁最像能长期相处的那个。对我来说,这次真正值得先跑的,不是 31B,而是 26B A4B

谷歌这次把 Gemma 4 放开了(一)

先别急着跑本地,型号和协议得先看明白

首发当天我本来想干的事很简单,找一个和 Gemma 3 对应得上的升级版,先下下来跑。

结果一圈看下来,人先有点傻眼。以前熟的 4B / 12B / 27B 那套名字没了,冒出来的是 E4B26B A4B31B。怎么说呢,这次谷歌真正改的,不只是模型大小,而是连“你该怎么理解这批模型”都一起改了。

零食很忙开到松江大学城,不是偶然

平时宅在家里,2026 年清明假期难得出来走走,晃到松江大学城文汇路,第一反应其实不是风景,是店。

好特卖不稀奇,上海这些年已经铺得到处都是。让我愣了下的是,我居然在这里看到了 零食很忙。这个牌子以前在老家见得更多,我一直以为它离上海还有点距离。结果一条文汇路,先把我这点刻板印象打掉了。

我现在的判断挺明确:零食很忙 这类店能开到松江,不是因为上海突然“下沉”了,而是因为松江本来就不是很多人想象里的上海边角料。你把这里当郊区,它偏偏有足够密的人流、足够年轻的客群、足够长的停留时间;你把它当纯睡城,它背后又站着松江府的历史底子、大学城的科创资源,还有上海西南门户的新定位。

Codex 默认 medium,我后来还是切到 high

用 Codex 这段时间,有个问题一直挺别扭:默认思考档位是 medium,但网上一聊到 GPT-5.4,口气又都很猛。真到自己手里,mediumhighxhigh 到底差多少,官方也没给一张特别直白的表。

我现在的结论挺明确,日常编码我更愿意直接开 highmedium 不是不能用,快活、小修小补、试探方向没问题;但真到多文件修改、需求有歧义、还要边看代码边判断的时候,medium 很容易把算力省错地方。xhigh 我反而不会常开,留给卡壳的大活更合适。

AI 写博客这件事,后来还是得做成工程(三)

本地模型、在线模型和 Minimax 最后怎么分工

翻了一圈现在仓库里的配置,我反而更确定一件事:这套东西最后拼的不是单个模型有多强,而是每一层到底该让谁来承担成本。

最明显的一个信号就是,当前生效的 published.runtime.json 还是 2026 年 4 月 2 日生成的 minimax-m2,但 2026 年 4 月 3 日 16:38 的 5f17088 已经把 blog-style-suite 的默认 provider 切到了本地 LM Studio 里的 gemma-4-26b-a4b。这看起来像前后不一致,其实不是,它恰好说明了这条流水线开始有了分工。

AI 写博客这件事,后来还是得做成工程(二)

blog-style-suite 怎么把风格学习和 token 成本拆开

如果 token 足够,最省脑子的办法其实很粗暴:把历史文章直接塞给模型,让它自己学。

问题在于,这种办法只适合偶尔来一篇,不适合反复写。你要是真把博客写作当成长期工作流来做,生吃历史文章这条路,很快就会从“简单直接”变成“又贵又乱”。

AI 写博客这件事,后来还是得做成工程(一)

blog-writer 为什么会长出来

去年写了不少 AI 稿子,那会最土的流程就是,自己先整理个大纲或者问题清单,让大模型把正文吐出来,然后再把内容复制到本地 md 文档里,补 frontmatter、标签、分类、标题,最后再发布。

这套流程不是不能用,是很烦。真正费时间的地方,不是正文,而是正文外面那一圈重复劳动。尤其是最近 Codex 用多了以后,这种别扭感更强了。它能读仓库、能改文件、能补资料、还能直接把文章写进目录里,我要是还手工复制来复制去,反而像是人把工具的腿绑住了。