ChatGPT 之后,英伟达数据中心 GPU 分成两条路线

整理 ChatGPT 以来的英伟达数据中心 GPU,不能只做型号清单。真正的变化是两条路线同时加速:一条追最高训练性能,一条追可卖、可交付、可合规的市场覆盖。

训练路线看的是 H100、H200、B200、GB200 这类旗舰产品。它们不断把算力、显存、带宽、互联和整柜方案往上推。大模型越大,单卡性能已经不够,系统级连接、集群效率和能耗控制变得更重要。

另一条路线是特供和区域合规版本。给中国市场的产品,不只是简单“阉割版”,而是在出口管制限制下,重新平衡性能、带宽、互联和可销售性。它们的意义不是代表最高技术,而是说明英伟达要在规则缝隙里保住客户和生态。

先看全球主线:H100 起跑,H200 补课,B200 开始卖平台

这条线只看大模型训练和核心推理主线:A100 作为基线,H100、H200、B200、B300 依次往后排。

型号 发布时间 架构 显存 显存带宽 互连 最该记住的点
A100 80GB 2020,作为基线 Ampere 80GB HBM2e 2.039 TB/s NVLink 600 GB/s ChatGPT 前的大模型基准卡
H100 SXM 2022-03-22 Hopper 80GB HBM3 3.35 TB/s NVLink 900 GB/s 真正把生成式 AI 训练卡时代推开的产品
H200 SXM 2023-11-13 Hopper 刷新版 141GB HBM3e 4.8 TB/s NVLink 900 GB/s 重点不是 core 大跃迁,而是显存容量和带宽补课
B200 SXM 2024-03-18 Blackwell 180GB HBM3e 最高 8 TB/s 单 GPU NVLink 1.8 TB/s 重点转向平台级训练与推理吞吐
B300 / Blackwell Ultra 2025-03-18 Blackwell Ultra 288GB HBM3e 最高 8 TB/s 延续 rack-scale 互连路线 更明确地往 reasoning 和 test-time scaling 推进

如果只想记一个判断,大概可以这么压缩:

  • H100 是“训练卡暴力拉升”的一代。
  • H200 是“显存补课”的一代。
  • B200 是“AI 工厂平台化”的一代。
  • B300 是把 Blackwell 更明确推向 reasoning 时代的一代。

也就是说,英伟达卖的东西其实在变。

H100 还很像“这张卡有多猛”。到了 Blackwell,英伟达卖的已经越来越像“这套平台能把多大的模型,以什么吞吐和什么功耗跑起来”。这就是为什么 B200、B300 的叙事里,单卡 TFLOPS 反而没以前那么像绝对主角。

H200 为什么不是“算力暴力翻倍卡”

很多人第一次看 H200,会本能地去找“它比 H100 快了多少”。

但 H200 真正要解决的,不是 dense 算力数字不够好看,而是大模型一旦进入超长上下文、巨型 KV cache、MoE 和更大 batch 之后,瓶颈越来越像显存和显存带宽,而不是单纯的 BF16 峰值。

所以 H200 的升级重点是:

  • 显存从 80GB 拉到 141GB;
  • 带宽从 3.35 TB/s 提到 4.8 TB/s;
  • 官方直接用 Llama 2 70B、GPT-3 175B 这类推理 workload 去强调收益。

它更像 Hopper 时代的一次补课,而不是全维度换代。

再看中国特供线:它的目标函数从来不是“旗舰最强”

中国特供线一定要单独看。

因为这条线不是在和全球旗舰卡同场赛跑,它首先是在美国出口限制框架里争取“还能卖、还能用”。这就决定了它的设计目标,不是技术最优,而是合规边界内的商业可交付。

型号 首次公开时间 对应母体 公开可确认参数 主要削减点 最该怎么理解
A800 2022-11 A100 80GB HBM2e;公开报道称互连较 A100 下调 互连 本地算力接近,但大规模扩展能力被压
H800 2023-03 H100 公开报道普遍认为本地 HBM 能力仍接近 H100 级别 互连 典型的“单卡不至于太差,横向扩展受限”
H20 2024-02 预售 Hopper 中国合规版 96GB HBM3、约 4.0 TB/s;公开渠道价约 1.2-1.5 万美元/卡 计算能力与其他受限项继续压低 不是 H800 的自然升级版,而是更严规则下的折中产物

这张表里最值得记住的一句话是:

A800 和 H800 更像“削互连”,H20 则连计算能力都继续往下压。

所以如果只看显存,会很容易误判。H20 比 H800 更新,不代表它按全球旗舰口径一定更强;它的商业意义首先是满足更严格规则之后还能卖,其次才是尽量保留一些可用性。

哪些升级可以直接算,哪些不能硬算

这一点最好先讲清楚,不然后面的百分比都容易变成假精确。

最稳的计算方式是:

\[ \text{升级率}=\frac{\text{新指标}-\text{旧指标}}{\text{旧指标}} \]

但这个公式只适合口径一致的指标,比如显存容量、显存带宽、NVLink 带宽。它不适合把平台级推理吞吐、整机 token 产出和单卡 TFLOPS 粗暴揉成一条线。

全球主线里,能直接算的几组数字

代际 最适合直接算的指标 大致变化
A100 80GB -> H100 SXM 带宽、互连、Tensor Core 峰值 显存带宽约 +64%,NVLink 约 +50%,BF16/FP16 Tensor Core 峰值约 +534%
H100 SXM -> H200 SXM 显存、带宽 显存约 +76%,带宽约 +43%,NVLink 基本不变
H200 SXM -> B200 SXM 显存、带宽、互连 显存约 +28%,带宽约 +67%,单 GPU NVLink 翻倍到 1.8 TB/s
B200 -> B300 显存、平台级推理能力 显存约 +60%;平台能力更强调 FP4、reasoning 和 attention 吞吐

从这个角度看,代际节奏也很清楚:

  • H100 主要把训练卡拉到一个新高度。
  • H200 把显存短板补齐。
  • B200 开始把“单卡升级”转成“平台升级”。
  • B300 再往大规模推理和 reasoning 方向加码。

中国特供线里,只能谨慎算一部分

这里更要保守。

因为 A800、H800、H20 的完整官方公开规格并不像全球主线那样整齐,很多关键参数主要来自 Reuters 报道和可追溯硬件媒体转述。

能比较稳地说的是:

  • A800、H800 的主要削减方向都集中在互连;
  • H20 显存比 H800 更大,但这不等于它在全球旗舰意义上“自然升级”;
  • 中国特供线每一代首先是在适应规则,而不是按性能最大化去延续旗舰路线。

所以这条线最好不要硬写成“每一代全面提升多少”。它不是那种代际关系。

价格部分,只能保留公开可追溯样本

数据中心 GPU 最容易写假的,就是价格。

因为英伟达并不总是公开单卡 MSRP,公开世界里更常见的是:

  • DGX 整机官方起售价;
  • 第三方整机挂牌价;
  • Reuters 或供应链转述的特供版渠道价。

所以价格这里我只保留几个样本,不伪造一张看上去很完整、实际口径乱掉的价目表。

对象 公开价格样本 怎么理解
DGX H100 2022 年发布时官方起售价 19.9 万美元 这是最干净的官方锚点
DGX B200 公开挂牌价大约比同阶段 DGX H100 高 40%-50% 说明全球旗舰平台确实继续涨价
H20 单卡 Reuters 报道约 1.2 万到 1.5 万美元 这是渠道样本,不是全球旗舰口径
H20 八卡服务器 公开报道约 140 万元人民币 不能拿来和 DGX 体系直接硬比,只能说明合规线的商业定位

所以“整体售价提升了多少”这个问题,最稳的回答是两句:

第一,全球旗舰主线确实在涨,而且涨得不小。

第二,中国特供线未必一路更贵,甚至可能出现“更晚出的卡更便宜”的情况,因为它首先在追求合规可卖,而不是旗舰性能和定价不断上探。

最后收一下

如果把 ChatGPT 发布之后的数据中心 GPU 变化压成一句话,我现在会这么写:

全球主线是 H100 起跑、H200 补显存、B200 平台化、B300 往 reasoning 时代再推一步;中国特供线则是 A800、H800、H20 在越来越严的规则里尽量保住可用性。

这两条线不要混着看。

混着看,最后很容易得出几个大差不差、但方向不对的结论。英伟达在全球卖的是训练与推理平台,在中国特供线卖的则首先是“还能交付、还能部署”的折中产品。目标函数不一样,升级逻辑当然也不一样。

参考资料

写作附记

原始提示词

整理自从 ChatGPT 发布以来,英伟达发布的显卡型号和对应的性能参数,前一代对比上一代升级了多少,整体售价提升了多少,我要的是数据中心用的显卡,包含给中国的特供版本。

这篇从上面的原始提示词出发,按第一次写稿的方式确定主线、材料密度和结构。date 字段沿用原发布时间,其他内容只服务当前文章承诺。

金融IT程序员的瞎折腾、日常生活的碎碎念
使用 Hugo 构建
主题 StackJimmy 设计