Tags

1 个页面

Mac

谷歌这次把 Gemma 4 放开了(三)

这次刷论坛,最让我长记性的不是哪家又发了榜单,而是一句很土的话,显存不够,参数再大也白搭。

以前我总把“模型慢”理解成算力问题。后来越看越明白,很多时候根本不是 GPU 算不动,而是数据没法待在对的地方。只要内存路径一变,token 速度就不是慢一点,是直接掉下去。