上一篇 谷歌这次把 Gemma 4 放开了(一):先别急着跑本地,型号和协议得先看明白 把发布和协议讲完了。当前这一篇就只说本地体验本身;最后一篇接着写 谷歌这次把 Gemma 4 放开了(三):显存不够为什么会断崖,Mac 为什么能兜底却快不起来。
为什么我先跑 26B A4B
原因其实很土,就是硬件现实。
31B 当然强,官方榜单和社区第一波反馈都挺猛。但你把它放到 3060 12GB 这种机器上,问题马上就不再是“它强不强”,而是“它值不值得你等”。一旦模型和 cache 往系统内存回退,速度很容易直接塌掉,这件事我放到第三篇详细讲。
26B A4B 不一样。
它虽然总参数是 25.2B,但每个 token 真正激活的大约只有 3.8B。说白了,它就是这次 Gemma 4 里最像“专门留给本地玩家”的那档。
所以如果你的机器和我差不多,还是消费级老卡,判断可以直接一点:
- 想看榜单,上
31B - 想真本地长期用,先看
26B A4B
五角星这题,这次终于有人看懂我在挖坑
我自己一直有个很土的测试题,让模型写一段 C++ 代码,在控制台输出五角星。
这题看起来像玩笑,实际挺坏。因为很多模型会把它理解成一个纯数学绘图题,接着就开始上坐标、三角函数、循环,最后在纯文本控制台里输出一坨根本不能看的字符。
去年很多小参数开源模型,基本都死在这里。
Gemma 4 这次第一反应,反而让我很意外。它没急着装懂,而是先识别约束,给出了这段判断:
由于在纯文本的控制台(Console)中通过数学逻辑直接绘制一个具有精确几何结构的五角星非常复杂(涉及到坐标系转换和像素填充),最经典且视觉效果最好的方法是使用 ASCII Art(字符艺术)。
说白了,它先看懂了题目背后的环境限制。控制台不是画布,字符网格也不是像素网格。你要先把“怎么稳定给出一个五角星”想明白,再谈数学绘制。
然后它第一版直接给了一个硬编码的五角星字符串。
这个动作特别对味。不是为了秀推导,而是先把题做对。
更让我意外的是,它还能继续往下走
如果只是停在 ASCII Art,这题还只能算它识别了陷阱。
真正让我高看一眼的是,后面我继续追着要求它用数学计算,它也没有露馅,而是能顺着往下做,把几何关系映射到字符网格,最后把五角星算出来。
这说明的不是“它会写一段代码”,而是它知道这题其实分两层:
- 第一层,控制台里最稳的答案是什么
- 第二层,如果你非要做计算,怎么把几何问题降到字符网格上
以前很多本地小模型一上来就冲第二层,最后第一层都没做好。Gemma 4 这次反过来了,先把边界认出来,再决定怎么解。
我觉得这件事比单独一项 benchmark 分数更值钱。
这次 coding 提升,不只是“更聪明了”
五角星这题之所以好用,就是因为它不只是考语法。
它真正考的是:
- 能不能先理解输出环境
- 能不能承认直觉解法不合适
- 能不能在“最优展示效果”和“用户强制要求计算”之间切换
这种题一旦能做对,说明模型开始更像一个会处理现实约束的开发助手,而不是只会补全代码片段。
这也是为什么我对 Gemma 4 的第一印象会比去年那批小参数开源模型好很多。去年很多模型属于能聊天、能补全、能凑合,但一碰到这种稍微带点边界感的问题,就容易露底。
这次谷歌起码把这个短板补上了。
翻译这条线,反而不能简单说“Gemma 4 全面接班”
你前面提到一个点很关键,以前常拿 Gemma 跑本地翻译。
这件事到 Gemma 4 这里,其实没那么线性。因为谷歌在 2026 年 2 月单独发了 TranslateGemma,而且还是建在 Gemma 3 那套尺寸上。
这意味着什么?
意味着如果你现成的本地翻译链路已经跑顺了,短期内不一定非要全部切到 Gemma 4。尤其是那种目标特别单一、只想稳定多语言转换的场景,专门的翻译模型还是有它的价值。
但如果你想要的是一套本地模型,尽量兼顾翻译、问答、代码和一般文本任务,那 26B A4B 这种更全能的路线就很顺。
它未必是最专的,但它更像现实世界里“只想先跑起来一个够用主力模型”的选择。
为什么我不想在第二篇里继续吹 31B
不是因为 31B 不行,恰恰相反,它太行了,所以很容易把注意力带偏。
你一旦一直盯着 31B 的榜单表现看,很容易把这篇写成“强模型真强”。但本地部署最怕的就是这种话。因为真正决定你每天会不会继续用它的,不是榜单,而是:
- 启动是不是太慢
- 回答是不是掉速严重
- 长上下文是不是很快就拖垮体验
- 自己机器到底撑不撑得住
在 3060 12GB 这种机器上,这些现实问题比榜单重要多了。
所以我对第二篇的收口很简单。
31B 值得看,26B A4B 值得用。对本地玩家来说,这两句话不是一回事。
我的本地第一结论
如果让我用一句话概括这次实测感受,那就是:
Gemma 4 终于开始像一个会看场景的本地模型了。
尤其是 26B A4B。它不是那种最能拿来晒榜单的型号,但在老机器、消费级显卡、本地长期使用这些现实约束下,它反而更像真正的主力选择。
至少这次五角星测试,谷歌是过关了。
参考资料
- Gemma 4: Byte for byte, the most capable open models
- Gemma 4 model card
- google/gemma-4-26B-A4B-it on Hugging Face
- Gemma 3: The Developer Guide
- TranslateGemma: A new family of open translation models
- Gemma 4 31B on FoodTruck Bench
写作附记
原始提示词
$blog-writer 谷歌时隔一年,发布了 Gemma4 模型,老规矩,尝试本地部署,还是那台没升级的台式 3060 12GB 英伟达显卡。这次赶上了首发,但是没找到以前常用 Gemma3 的升级版本,但是多有个类似的版本 GemmaE4b,你先搜索介绍下,本次发布了的所有型号,里面的缩写字母什么意思,然后搜索下网上关于 Gemma4 的评价,关键是,本次谷歌更新该了模型的协议,大家用起来的限制更少了。最大的惊喜,我常用的测试题:写一段 C++ 代码,在控制台输出五角星,去年的小参数开源模型都没搞定这个问题,谷歌这次搞定了,第一版给出答案,完全超出我的意料,它知道了我的陷阱,控制台输出五角星很麻烦,它直接硬编码了一个五角星的字符串,控制台直接输出。这是原文:由于在纯文本的控制台(Console)中通过数学逻辑直接绘制一个具有精确几何结构的五角星非常复杂(涉及到坐标系转换和像素填充),最经典且视觉效果最好的方法是使用 ASCII Art(字符艺术)。在我去强制要求进行计算以后,它也搞定了,通过数学计算,成功的绘制了五角星。以前常用 Gemma4 进行本地的翻译任务,当前博客很多历史文章的多语言版本就是这样来的。本地测试用的:gemma-4-26b-a4b 模型,31b 版本属实太慢了。但是看测评 31b 效果很不错,排行榜的成绩很好。同时刷论坛,我认知到了,显存如果不够,模型参数上去了,生成 token 的速度会断崖式下降,你解释下为什么?Mac 不会有这个问题,它走的是统一内存,解释下技术原因。还有就是,如果需要速度,那还是 英伟达大显存的显卡才行。Mac 的方案能兜底,但是速度上不去。本次的内容很多,你评估下是否拆成系列文章。
写作思路摘要
- 第二篇只保留本地体验,不再替第一篇做总述,也不替第三篇讲显存原理。
- 先给出“为什么先跑 26B A4B”的硬判断,再展开五角星测试。
- 五角星题被当成主轴,是因为它比跑分更能说明 coding 场景里的边界感。
- 翻译任务单独收一节,避免把
Gemma 4写成对所有旧流程的线性接班。