Tags

2 个页面

英伟达

ChatGPT 之后,英伟达数据中心 GPU 其实是两条线在往前走

先把时间点钉住。ChatGPT 的公开研究预览版发布于 2022 年 11 月 30 日

这个时间点之后,英伟达数据中心 GPU 的主线其实并不乱:H100 把生成式 AI 的训练卡时代真正推开,H200 补显存,B200 开始卖平台,B300 则把 Blackwell 往 reasoning 和大规模推理再推一步。中国特供线则是另一套故事,它首先要满足的是合规可交付,而不是旗舰性能最大化。

谷歌这次把 Gemma 4 放开了(三)

这次刷论坛,最让我长记性的不是哪家又发了榜单,而是一句很土的话,显存不够,参数再大也白搭。

以前我总把“模型慢”理解成算力问题。后来越看越明白,很多时候根本不是 GPU 算不动,而是数据没法待在对的地方。只要内存路径一变,token 速度就不是慢一点,是直接掉下去。