先看全球主线:H100 起跑,H200 补课,B200 开始卖平台
这条线只看大模型训练和核心推理主线:A100 作为基线,H100、H200、B200、B300 依次往后排。
| 型号 | 发布时间 | 架构 | 显存 | 显存带宽 | 互连 | 最该记住的点 |
|---|---|---|---|---|---|---|
| A100 80GB | 2020,作为基线 | Ampere | 80GB HBM2e | 2.039 TB/s | NVLink 600 GB/s | ChatGPT 前的大模型基准卡 |
| H100 SXM | 2022-03-22 | Hopper | 80GB HBM3 | 3.35 TB/s | NVLink 900 GB/s | 真正把生成式 AI 训练卡时代推开的产品 |
| H200 SXM | 2023-11-13 | Hopper 刷新版 | 141GB HBM3e | 4.8 TB/s | NVLink 900 GB/s | 重点不是 core 大跃迁,而是显存容量和带宽补课 |
| B200 SXM | 2024-03-18 | Blackwell | 180GB HBM3e | 最高 8 TB/s | 单 GPU NVLink 1.8 TB/s | 重点转向平台级训练与推理吞吐 |
| B300 / Blackwell Ultra | 2025-03-18 | Blackwell Ultra | 288GB HBM3e | 最高 8 TB/s | 延续 rack-scale 互连路线 | 更明确地往 reasoning 和 test-time scaling 推进 |
如果只想记一个判断,大概可以这么压缩:
- H100 是“训练卡暴力拉升”的一代。
- H200 是“显存补课”的一代。
- B200 是“AI 工厂平台化”的一代。
- B300 是把 Blackwell 更明确推向 reasoning 时代的一代。
也就是说,英伟达卖的东西其实在变。
H100 还很像“这张卡有多猛”。到了 Blackwell,英伟达卖的已经越来越像“这套平台能把多大的模型,以什么吞吐和什么功耗跑起来”。这就是为什么 B200、B300 的叙事里,单卡 TFLOPS 反而没以前那么像绝对主角。
H200 为什么不是“算力暴力翻倍卡”
很多人第一次看 H200,会本能地去找“它比 H100 快了多少”。
但 H200 真正要解决的,不是 dense 算力数字不够好看,而是大模型一旦进入超长上下文、巨型 KV cache、MoE 和更大 batch 之后,瓶颈越来越像显存和显存带宽,而不是单纯的 BF16 峰值。
所以 H200 的升级重点是:
- 显存从 80GB 拉到 141GB;
- 带宽从 3.35 TB/s 提到 4.8 TB/s;
- 官方直接用 Llama 2 70B、GPT-3 175B 这类推理 workload 去强调收益。
它更像 Hopper 时代的一次补课,而不是全维度换代。
再看中国特供线:它的目标函数从来不是“旗舰最强”
中国特供线一定要单独看。
因为这条线不是在和全球旗舰卡同场赛跑,它首先是在美国出口限制框架里争取“还能卖、还能用”。这就决定了它的设计目标,不是技术最优,而是合规边界内的商业可交付。
| 型号 | 首次公开时间 | 对应母体 | 公开可确认参数 | 主要削减点 | 最该怎么理解 |
|---|---|---|---|---|---|
| A800 | 2022-11 | A100 | 80GB HBM2e;公开报道称互连较 A100 下调 | 互连 | 本地算力接近,但大规模扩展能力被压 |
| H800 | 2023-03 | H100 | 公开报道普遍认为本地 HBM 能力仍接近 H100 级别 | 互连 | 典型的“单卡不至于太差,横向扩展受限” |
| H20 | 2024-02 预售 | Hopper 中国合规版 | 96GB HBM3、约 4.0 TB/s;公开渠道价约 1.2-1.5 万美元/卡 | 计算能力与其他受限项继续压低 | 不是 H800 的自然升级版,而是更严规则下的折中产物 |
这张表里最值得记住的一句话是:
A800 和 H800 更像“削互连”,H20 则连计算能力都继续往下压。
所以如果只看显存,会很容易误判。H20 比 H800 更新,不代表它按全球旗舰口径一定更强;它的商业意义首先是满足更严格规则之后还能卖,其次才是尽量保留一些可用性。
哪些升级可以直接算,哪些不能硬算
这一点最好先讲清楚,不然后面的百分比都容易变成假精确。
最稳的计算方式是:
\[ \text{升级率}=\frac{\text{新指标}-\text{旧指标}}{\text{旧指标}} \]但这个公式只适合口径一致的指标,比如显存容量、显存带宽、NVLink 带宽。它不适合把平台级推理吞吐、整机 token 产出和单卡 TFLOPS 粗暴揉成一条线。
全球主线里,能直接算的几组数字
| 代际 | 最适合直接算的指标 | 大致变化 |
|---|---|---|
| A100 80GB -> H100 SXM | 带宽、互连、Tensor Core 峰值 | 显存带宽约 +64%,NVLink 约 +50%,BF16/FP16 Tensor Core 峰值约 +534% |
| H100 SXM -> H200 SXM | 显存、带宽 | 显存约 +76%,带宽约 +43%,NVLink 基本不变 |
| H200 SXM -> B200 SXM | 显存、带宽、互连 | 显存约 +28%,带宽约 +67%,单 GPU NVLink 翻倍到 1.8 TB/s |
| B200 -> B300 | 显存、平台级推理能力 | 显存约 +60%;平台能力更强调 FP4、reasoning 和 attention 吞吐 |
从这个角度看,代际节奏也很清楚:
- H100 主要把训练卡拉到一个新高度。
- H200 把显存短板补齐。
- B200 开始把“单卡升级”转成“平台升级”。
- B300 再往大规模推理和 reasoning 方向加码。
中国特供线里,只能谨慎算一部分
这里更要保守。
因为 A800、H800、H20 的完整官方公开规格并不像全球主线那样整齐,很多关键参数主要来自 Reuters 报道和可追溯硬件媒体转述。
能比较稳地说的是:
- A800、H800 的主要削减方向都集中在互连;
- H20 显存比 H800 更大,但这不等于它在全球旗舰意义上“自然升级”;
- 中国特供线每一代首先是在适应规则,而不是按性能最大化去延续旗舰路线。
所以这条线最好不要硬写成“每一代全面提升多少”。它不是那种代际关系。
价格部分,只能保留公开可追溯样本
数据中心 GPU 最容易写假的,就是价格。
因为英伟达并不总是公开单卡 MSRP,公开世界里更常见的是:
- DGX 整机官方起售价;
- 第三方整机挂牌价;
- Reuters 或供应链转述的特供版渠道价。
所以价格这里我只保留几个样本,不伪造一张看上去很完整、实际口径乱掉的价目表。
| 对象 | 公开价格样本 | 怎么理解 |
|---|---|---|
| DGX H100 | 2022 年发布时官方起售价 19.9 万美元 | 这是最干净的官方锚点 |
| DGX B200 | 公开挂牌价大约比同阶段 DGX H100 高 40%-50% | 说明全球旗舰平台确实继续涨价 |
| H20 单卡 | Reuters 报道约 1.2 万到 1.5 万美元 | 这是渠道样本,不是全球旗舰口径 |
| H20 八卡服务器 | 公开报道约 140 万元人民币 | 不能拿来和 DGX 体系直接硬比,只能说明合规线的商业定位 |
所以“整体售价提升了多少”这个问题,最稳的回答是两句:
第一,全球旗舰主线确实在涨,而且涨得不小。
第二,中国特供线未必一路更贵,甚至可能出现“更晚出的卡更便宜”的情况,因为它首先在追求合规可卖,而不是旗舰性能和定价不断上探。
最后收一下
如果把 ChatGPT 发布之后的数据中心 GPU 变化压成一句话,我现在会这么写:
全球主线是 H100 起跑、H200 补显存、B200 平台化、B300 往 reasoning 时代再推一步;中国特供线则是 A800、H800、H20 在越来越严的规则里尽量保住可用性。
这两条线不要混着看。
混着看,最后很容易得出几个大差不差、但方向不对的结论。英伟达在全球卖的是训练与推理平台,在中国特供线卖的则首先是“还能交付、还能部署”的折中产品。目标函数不一样,升级逻辑当然也不一样。
参考资料
- OpenAI:Introducing ChatGPT
- NVIDIA H100 GPU
- NVIDIA Announces DGX H100 Systems
- NVIDIA Supercharges Hopper With H200
- NVIDIA H200 GPU
- NVIDIA Blackwell Platform Arrives
- NVIDIA DGX B200 User Guide
- NVIDIA Blackwell Ultra AI Factory Platform Paves Way for Age of AI Reasoning
- NVIDIA DGX B300
- Reuters:Nvidia starts making new chips for China to comply with new U.S. limits
- Reuters:Nvidia tweaks flagship H100 chip for export to China
- Reuters:Nvidia’s new China-focused AI chip set to be sold at similar price to Huawei product
写作附记
原始提示词
整理自从 ChatGPT 发布以来,英伟达发布的显卡型号和对应的性能参数,前一代对比上一代升级了多少,整体售价提升了多少,我要的是数据中心用的显卡,包含给中国的特供版本。
这篇从上面的原始提示词出发,按第一次写稿的方式确定主线、材料密度和结构。date 字段沿用原发布时间,其他内容只服务当前文章承诺。