AI 变“笨”了吗?揭秘参数精度与推理成本的博弈
近期混迹在各个编程大模型的交流圈,模型降智是大家吐槽最多的事情。
- 本地台式机部署的都是量化以后的模型,可以说是降智后的版本
- vibe coding 这么热门,有没有可能当前大模型输出的内容,代码是最值钱的产物?
近期混迹在各个编程大模型的交流圈,模型降智是大家吐槽最多的事情。
前文提到 Gemini Cli 登录的时候需要配置谷歌云的项目 ID,这里就已经不对劲,如果是个人账号不会有这个限制,能出现这个限制,已经开始进入谷歌的风控系统,认为你不是个人账号。
update: 不知道是谷歌自己修复了,还是由于切换港区绑定了信用卡,账号又能正常使用了
阿里巴巴(阿里)发布众多大模型,并非简单的“刷数量”,而是一种精心布局的**“模型即服务”(MaaS)生态策略**。这背后有多重考量,可概述为“对内赋能、对外建生态”:
现在用下来并没有哪个大模型特别好,各家都有自己的优势场景。
博客翻译项目最初设计过于复杂——先解析 Markdown 格式,再用占位符保护内容,最后送给大模型翻译。其实这完全是多此一举,大模型本身就具备识别 Markdown 语法的能力,可以直接处理原始内容并在翻译时保持格式完整。
我们的工作就从调试代码,切换到调试大模型的提示词。
模型:google/gemma-3-4b
硬件:Nvdia 3060 12GB
没错,选的非思考模型,思考模型在执行翻译任务时,效率不够高,对比了 4b 参数和 12b 参数的效果,针对翻译任务来说 gemma3 的 4b 参数已经足够了,12b 的参数在翻译任务上并没有明显的优势。
12b 参数的速度:11.32 tok/sec,4b 参数的速度:75.21 tok/sec。