TA的每日心情 | 怒 2025-8-7 11:56 |
|---|
签到天数: 1132 天 [LV.10]大乘
|
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
4 C {$ g, F5 C8 O* i1 r; U8 b/ N( j3 P" d
一、总体分析框架与核心结论; t `( }& \6 x) L
1.1 分析框架概览
9 c4 n% Y& O9 ]5 {. Y' _" p拆分维度
* }/ ^7 d6 _, Z' Z9 M7 W9 [* t* f; L. Z! X0 y2 Y
阶段:
" N5 _5 w% v7 x' a/ w) ?建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施* ^" U B4 v/ S" A
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等: B* R H4 B0 i0 s2 X8 ]+ L
区域:
3 A6 n( E7 M' v# Z& Z3 X中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
( D* I8 A# R) F) w& Z J; |技术方案:& h) b" K& _: X3 C: d
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)# {9 b* C( Q, C4 j) K% j% P$ l' ?7 g
Google TPU(v5e/v5p/Trillium 等)
" M: K0 {& y. l中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)2 v, f7 p# n* W s
算例基准& O5 H) P0 J; l: e" b* u5 V
% y: L* I, l! X以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:# b1 A- V+ t/ E% P; D' [- N
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW$ a2 ~, [! Q Z+ ]1 Y" Y% R
PUE 假设约 1.11(高效液冷场景)[1][29]
( z1 U) t5 D# t时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]! E+ R$ v9 J, d: i( y
关键指标2 C9 c. w" I. v, I! |: q j
% Q5 {4 H4 o* E: x# o& q; `, m$/MW 建设成本(含/不含 IT 硬件)2 X8 N0 L+ X( X/ {% }' T" R9 N4 l
$/kWh 电力成本、L/kWh 水耗
9 c. ^% E, R; k; ^, x4 t$/token 或 $/百万 token 的综合成本
# K& `: e) U8 l5 G7 ~. ]Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
0 C& k- f! W9 O8 u% o& e! [项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
R* t9 @" J; F# S1.2 高层结论(供决策快速参考)
( @; y9 Y7 f+ N7 \/ Q建设成本:AI 数据中心相对传统云数据中心成本翻倍; L0 m9 o( F* Z- v4 r' @
) e3 m; d- I/ ?1 `, W& Y传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。7 f7 Z' O) J$ l, f2 U4 R9 g
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
' y( {: [7 X! w7 R按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
. ^! I' |9 J# J' H5 Q p. r& {4 r0 n区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
. q. O3 A& A. y% m1 E d% A. R' M) Y+ d& @7 U
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
( S+ d- Q0 J5 ]; m! Y美国:$8–12M/MW,400 MW 约 $4.0B[1]5 Z0 W, S# B/ G
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
9 P* v* ^( N2 w. \" J* |, |- ]0 S9 G中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]0 I+ x4 i5 x' z: w# B! |
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
4 d0 X8 y0 ?* c, f; {( y& jOPEX:电价与人工决定区域优势
3 Q/ Q2 ^: w% D; r- H. i) d- X8 G5 k) g/ d/ W, T
电价(2025–2026 工商业大致区间):, H2 o% i2 t0 Y
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
4 x5 e, J6 [3 O' v" L美国:工业用电约 $0.085–0.09/kWh[44]
! J, z: M1 C, B- C4 m5 V, s& X0 g# R欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
J3 H2 k5 Z$ X% r4 A8 ~8 @% t中东/UAE:工业用户 $0.07–0.13/kWh[47]
; n7 j. L% k8 {% ^. P: g人工:
+ m, T- E+ E) {% y3 |% _3 a中国数据中心运维:约 $22k/人/年; f6 [/ n @. E" K
美国数据中心运维:约 $120k/人/年[1]! k4 Z3 a) h" b2 R
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
' p1 s. k2 G; }2 b4 g* A& f6 m$ I能耗与每 token 能源成本:能效差异远大于电价差异
# Y3 C# p1 N' ?2 t+ E; u/ |. |9 c" V6 X! L1 u1 }; i+ q
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
b- i) G4 o8 x* z) v8 H3 B% K6 L大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
0 B8 t" `4 N" s- y& X! s$ o1 l将 token 能耗约化为统一口径:
) h+ P. w# u! E# J9 T; G4 G% m粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
8 V& w0 Y# }9 b% p9 v9 J) s$ M' M中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
4 Y2 \9 r2 W9 Y7 t- m) t美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token2 y* j- N5 \. [5 {
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。' V. O1 E( l+ o3 N. n
不同芯片方案的核心差异+ O- c/ ~* N. Q! L- \; X9 x# h- v
+ d% h$ V8 w8 A; O; F
NVIDIA Blackwell/B200 & GB200 NVL72:
; U5 w! a! s2 V; `$ x单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
. C6 c) l7 k# r3 m* r4 p# V3 SGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
$ C2 C; R( `/ K. ZGoogle TPU v5e/v5p/Trillium:4 t. s- X* N) h g
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。( M+ F8 Y v/ A, G# R
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
% ^6 N' U2 o1 i6 D1 J华为昇腾 910B:- R$ Q! G) P8 C$ l6 H% Z2 J T6 g
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。: a* k$ ~9 ]( H& Z4 s% K
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。3 n3 ?( D+ o' L
阿里平头哥真武 810E(Zhenwu PPU):
3 `/ l& [ c) x$ X. ?8 K* _+ |96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
" w, ~$ n, w5 N& f结论:
& L, @. S4 w7 l9 c: g9 n! i能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。5 k4 Y9 Q+ \5 V( Q+ T) k( Z( x0 a
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。1 U# I6 T0 X/ h2 z
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。( P7 `2 t$ z n" C, a D4 T+ W
自建 vs 云租的 TCO 与 token 成本
% [1 Q" q. b" _4 t0 B
! S% o: k! x, \3 z! G3 T; | C3 E* oLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
8 G1 D: ^* e1 }' a: x: r8×B300(Config D)自建 5 年 TCO ≈ $1.01M;; V/ a3 Y$ n+ `- u$ s) O# o5 v
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
% q0 X }6 T1 R0 E4 G8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
9 q& a6 _# d8 W, |8 tToken 成本对比示例(LenovoPress 场景)[28]:' o9 D- e8 A8 c1 @
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token) r( P7 x' s% L5 {% r8 a5 i! g
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
5 g6 T0 O6 F$ {/ r同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
( y) C4 M& |& G; [Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。9 j& F# J% ~1 y$ `" v: @: \$ `( A
结论:5 B+ h6 ]3 F5 w/ _
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
4 y6 j3 C+ `& @5 q' {Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。* ]. R) Z+ G2 D% M6 X
二、建设期成本分布:区域对比
. @8 y. p1 S4 z5 d6 `' D以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
7 K( ~" H2 ?1 c( _* r, c
1 B8 J: o6 k) w5 O8 K2.1 全球/通用结构(以 1 MW 为单位)
6 z9 B/ t# B" e6 Q5 j: n综合 JLL、ConstructElements 等[2][41][40]:
+ m0 V! h; p* k# A ^5 C
$ O5 e4 h1 f* s" u壳体+机电(Shell & Core)5 \( _9 }0 A" \8 p0 w% n; m4 o
1 _; z9 C3 j! g* P; d全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
( \9 ^! z; ?( x$ j a3 D7 }+ s( X其中按成本构成[40]:$ V% ^7 J; x- n; K3 H* S2 u
电力系统(变电、配电、UPS、母线等):40–50%' e" j1 o9 B9 H2 Y% P0 Q. l
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
+ K. x! K7 S M8 r1 h# N3 ]建筑与土地、结构:约 15–20%9 `6 k0 E$ `, Z) U" Y. A6 ^
其他(消防、安防、楼宇管理等):约 10–15%
9 {4 s5 Z# _* T0 C0 d4 [- L k: iIT 内装与 AI 基础设施(不含芯片)' P4 D3 E! h5 O& y% F
: W/ m9 k: h8 e. m高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。: f$ b# Z% e& C2 c
GPU/加速卡硬件 CAPEX
; `# n9 }: q! g0 f7 ?( i+ G A' I, Z$ Z# l
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。7 U6 h" v* y8 M. a/ `
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
. j4 _# q v) h! {结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):0 {* |% P+ z8 A0 V \
* r; F3 o9 g1 O& V+ S' i; `# O区域 典型建设成本(壳体+机电,$M/MW) 备注/ A1 J. D. T) s& e2 j) G) Q! P$ `
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]$ ~. y7 V2 w4 ]( g6 z
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
. c1 ]% w2 o2 D' m u欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
% Q3 c6 O t; W* b6 J$ F T中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
6 O2 F) D. }( ^8 ^6 g2 I结论:
, L: J6 R1 y+ S+ W, ?: K$ k
: ?# p/ u4 p; }& s# G; h" d7 E单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
3 O6 B$ S+ ^! C6 [+ H若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。' T/ [0 e5 z6 j' ^$ u2 R3 u
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
7 c) t; T6 V7 o0 n! ]以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
# h& y+ ?7 y. Z* r0 s2 R5 z5 F7 U- g1 B. P7 s7 F
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
) k5 `8 w7 g/ z/ LGPU 配置:+ p8 l2 C9 n* l! {& p
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
! {# ]8 {% }3 ^每 rack 成本 ≈ $3.0–3.35M[34][69];& b3 \) f) q: P
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。+ L* D$ w8 A' E" W4 R
与不同区域壳体+机电组合:
$ S. |5 Y* A: E5 O1 \
3 ^/ [$ U, {% u6 _8 O" x) j9 c以中值估算:- e9 Y1 @# z/ }$ ?! F; N& E
5 H9 ^+ l# n3 |; @3 S) Z/ b) {
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B* A8 e1 e' l! E/ L9 N% e8 G. U
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B! u: F- F) P4 O
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
% m0 }& G& {8 W: ]: p! w/ j' ~中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B& c. G) n/ A- u$ @1 u$ m& y7 C$ C: ^
可见:3 H& `" f3 g8 m" ]
! ~1 v# n- X y
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
7 b" J6 T5 B# w' E& Z" m+ e相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
. B- S9 w! D/ }6 Y三、运营期成本结构与区域对比7 E" x4 B! n2 g. h5 e# Z, d
3.1 通用 OPEX 结构(高密 AI DC)
3 T# A. w* }1 q s结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
4 P/ r2 w) S, ] Z- I. I8 u. q d2 b' B
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。5 |" _; K3 r3 c
冷却与水资源:4 k6 c% @# f4 b( \/ D% x
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
- P* c7 X, b$ R9 w, {" b- e水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。* G1 v. w; `! A3 q9 r
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。) @: Y# k$ z+ [1 J8 z4 w
托管/物业与维护:
3 a5 `* l+ j! l, }0 p9 F托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
9 ~" f7 G! B! \# }3 N硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
. X; T, N; e- Z7 w' w3.2 区域差异(以 400MW / 3 年期为例)
; W1 u# _% M3 \& K使用 ChinaTalk 的电费与人工估算[1]:$ u# S, z* `1 \1 |7 F, V
+ G4 S' m/ J) Y; R0 W电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
8 i& d3 A* {' S1 n) M) K中国:约 $0.06/kWh → 3 年电费 ≈ $350M
) r1 ]0 S8 `, M$ a, J& k3 h7 p美国:约 $0.09/kWh → 3 年电费 ≈ $600M
: x& O/ r+ x/ a, @中东:约 $0.07–0.10/kWh → $400–550M! h3 |% g6 J1 j4 x# M: T
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)+ R/ r! f% w; ^* b
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]: u3 }' _( t1 a8 L+ Y! h4 I
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]. E( j C' \! u! Z8 m- _0 u
三年水费级别:
- ^$ d2 `7 }# t X0 G3 F美国:$40k+7 c. s; D% p# t5 l
中国:$20k+' ^ i% g$ J2 d; g# w5 r- I
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
5 z$ l: _0 o$ T% F3 G4 Q+ @+ Z- W人员成本(3 年) – 假设 500 名全职运维:
. U, E/ | s1 ?" ]美国:500 × $120k × 3 = $180M+6 Q3 R) |. ^, y2 }' x
中国:500 × $22k × 3 = $33M+2 D1 `% [% o g0 ^
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
* d- j4 M5 C) I+ e s1 I1 O0 e6 c整体 OPEX 粗算(3 年) – 400MW 场景下:
6 ~! B' B3 v& Q M$ K% e, }
4 |: _) {! s* P1 v3 ~$ ^% ^项目 中国 美国+ r y9 l3 ~- T
电费 $350M $600M' n6 a& W% }% ^2 q Y# C, M
水费 <$0.05M <$0.05M$ K* \) @7 i$ w: b
人员 $33M $184M
& r8 Q/ Q, W: v3 H; R, H其他维护/托管 同比例估算,地区差异主要体现在人工与地价 2 u% V7 F7 N0 x3 _! L Z
结论:, z9 A9 D) s( x: o5 _
( p; B' k8 M t* R2 W就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。) B5 {- L+ Y+ n2 [
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
5 L' j0 I U7 u4 _2 g/ f2 W四、基于 token 的成本与利润推演6 l* s8 j' S; r5 `3 ^9 P: K
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
" u. v- I6 a5 Y; M; [统一假设:$ o4 M1 w q$ Z& g9 ]+ I9 F
& \% N0 [8 f$ R典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
1 U( q7 x8 A+ Y9 v* z1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh4 l1 P$ P7 |' |9 L
1 百万 token:278 Wh = 0.278 kWh0 H7 ~" y* h/ m6 U( q; B0 w& }# W9 ]
场景 A:美国电价 $0.30/kWh
1 l [( |4 w5 M W+ g/ W电费/百万 token = 0.278 kWh × $0.30/kWh, |- M, _! }& I' E
≈ $0.0834 / 百万 token0 f- L6 X5 U8 P1 W' M& s
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
1 \( |* \- L5 N, p4 Q电费/百万 token = 0.278 kWh × $0.042. D5 G* L0 z% Q" ?# O, l' K9 U
≈ $0.0117 / 百万 token( W$ n) Z% H2 [# p5 ]2 i( p
对比当前 API 价格(OpenAI 2026Q1)[62]
4 ^$ _4 K9 b* s' {2 b以输出侧为主(成本最敏感):
. u5 t+ k2 P) o5 w& n8 B @: U
4 X# h/ [5 l+ y+ I. I Z模型 输出价 ($/百万 token)
- E& s, h4 W3 W# W% v; e2 g8 d1 ~3 D7 ?GPT‑5.2 $14
9 F$ A" x7 {8 e6 p3 bGPT‑5.2 Pro $1685 I) r( k6 h) K: V( g+ Q" q- ^
GPT‑4.1 $8/ o. O2 ^& N" K/ e, w: D2 ^1 D
GPT‑4o $10# k; l- C+ w d+ x/ S: X
GPT‑4o mini $0.60
% j, H5 T, D$ U3 P1 \; o) s- n则:7 K# C9 L/ L3 H: d+ W& w
3 i& r( x, H) J3 P$ w
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。- D! B7 i2 b0 U+ P
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。2 q+ R# l9 x6 e1 v
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
, M% o; i4 V+ j5 M6 ~1 g8 z5 T结论:
5 s2 }, R8 l L5 _3 A8 \' \即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。$ y/ Y9 r6 b, L! \
2 d0 w. p, Q8 j l/ D# K4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
* L" u' Y& E" n% b0 V* d9 C以 LenovoPress 的 8×H100 Config A 为例[28]:
4 O' w: `/ H. U. I, n1 D2 V1 L0 L5 b# I0 d6 m
5 年摊销下,8×H100 本地推理 70B 模型:
4 I- u q8 z* Q) w' C小时综合成本(CapEx摊销+Opex):$12.08/h1 u2 u4 C8 I8 Y4 X" U
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
0 g: T }$ K4 o: ?* h- i2 ^ G成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
7 A: ]- h* T( \4 {+ K5 a# v% A电费在其中的占比:) I; }% w$ C1 l3 \2 o% s
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
/ P& S8 w+ ?) P9 B- N* x; k电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token0 q. D" w8 z/ r, A! S/ K
电费占 总 token 成本 ~7% 左右。9 o( o3 j$ b1 c
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。, j, p3 G) l, t" { x9 C* X
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
5 B. E9 k% b8 q) K- X) A/ g& L' I: h1 A1 h& F
因此:
3 w2 |8 X2 }6 C$ R- T& l* y8 {$ D- j" _5 A7 c' n- B% s: Y
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。/ ]6 k3 q0 T/ g/ K) |0 \
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。4 K4 e6 G) |, p' z9 W
五、不同芯片方案的建设与运营成本对比# E% @$ P" `9 {( V
5.1 NVIDIA 方案(H100/H200/B200/GB200)
3 l3 W2 O; w! B- u; `CAPEX:
3 [3 t Z6 E. k0 w& X$ i9 s6 H* J
9 K+ j: G1 P& d, xH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。$ `1 x& }/ C# w, V7 u
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。; f+ l% i* U# P7 k, N+ ^, x" F" ~2 V
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。0 E8 T+ g9 p/ @/ T& E; m! x
GB200 NVL72:
/ }3 U6 L/ f# i4 `每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。$ e1 s/ W8 l* ]( b
冷却系统每 rack 额外 $50–56k[35]。3 I3 ]+ F" i( z c; m
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
" o+ Q5 i+ q6 o2 xOPEX & 能效:. s P8 C2 u3 r% H+ D3 `2 T; X
* a4 W! _1 n# y8 ]: F
单 GPU 功耗:
% d7 ]0 E$ a/ }: z+ n) gH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
: W2 ^$ c# K4 dH200:功耗类似或稍高,但性能/W 提升[9][10]。 R. M. i# B: `8 q( K: L0 m; p
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
7 Y. G7 h% a0 H" u' \* LToken 性能:
1 q+ n$ E5 K: u' {- k; s8 ~9 CB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
' I& Q5 D3 B# FNVIDIA 的优势:8 ?/ g# z- k4 r3 I% a
& j0 A& [$ f7 I* b5 t软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
7 [( S0 Z1 D/ {0 g& l+ V但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
6 y& A7 ^ R a7 g, |5.2 Google TPU 方案
4 o7 l) e. t6 i' g/ F/ uCAPEX:
) v8 N. F {7 m" d' S& m# J/ v$ z$ P7 m) s5 T# }
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
1 `7 |% w: V; H( Y! aGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。% p8 n9 u( O2 j# g( c/ ?1 w4 _
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。4 {5 [+ L6 J/ X D/ Y6 o4 n
能效:; m0 C6 c) E) T
a. a$ {, i4 ^, I0 XTPU v5e vs H100:0 H9 d* m& h# @! R4 w, J
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
! L% X; K, ~* r& u, M# h测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
2 u( |; O6 I, F2 [, w# g* t新一代 Trillium/TPU v7:. q% J( ?& R7 g" ~8 X
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
8 p; [7 ~3 @5 M' I0 B. S7 tGoogle 方案的特点:
r7 |8 g1 o; I. T: _8 l- S& ^, D0 p8 ?( i% S
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
+ n3 {. I0 Q' |" F对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。8 K1 p) y ]9 V; u. B+ b
5.3 华为昇腾 910B / 910C 方案: W4 A& h/ v2 j- b2 I2 ]
CAPEX:3 v/ u. _( }4 O8 l( N+ ?
% p, b, _( v2 r$ m6 @% o* F2 T单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。' o1 Y, l/ W4 v
与 A100 对比:
& T6 K" ~& W% ?FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。% }4 X, q- n/ n) S
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
# ]1 `7 i) \: }9 W) d使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
9 Q) c9 _* Q; @7 kOPEX & 能效:
/ @0 H1 r6 ] D9 g! ^0 X5 z" N2 F
! C. P) z- m0 }910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。; n& M0 Q2 W( U, \! o% K
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。0 t- j2 j4 W0 \8 p P0 z, K- F
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
% L2 J8 s& a. T5.4 平头哥真武 810E(PPU)方案
0 J% q2 Z" q2 |2 e; O6 wCAPEX:! z' m/ T# H `* N- A( ]
7 @ J$ F, U1 \1 E S
技术参数:
k' I1 z" @/ Z96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
8 R Z' ?! ]- `& D# l性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。& G5 p* B9 G4 Z
价格:
$ {% l. N! |$ F9 d7 c; }+ W4 |+ x未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。) C# ~7 R+ g9 W) w
结合国内报道:3 e+ L/ M1 p/ r* E; ?2 v8 x
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
! Z- K! a# c8 |, C数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
2 g3 B. i. ]6 d5 i$ Y+ i: \OPEX & 能效:
- f$ G6 }& a. m
# c( p" ^) I8 }% J, ]* u+ b8 c400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;6 A9 e$ ~2 c" K3 J" n& @
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
. _7 K2 H( ?6 L) i6 P; {六、综合比较与策略建议
5 L9 r6 k" X. a, M6.1 区域维度:在哪里建 AI 数据中心?
% E& p, N5 d& n n0 e2 Y纯经济性(TCO/tokens)排序(假设无政策/合规约束):. w6 Z. m; x4 i( ?6 Y. g( ~
9 C$ Q0 R8 r; _* Y
中国西部/北部(电价低、人力低、建设成本低)
9 K' t7 G6 I- ?- q. Y" o( |中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
f9 |& m8 v- g% G3 L& t& Z- l美国电价低但人工高;东海岸/加州电价上涨压力大* v. o; R Z. t/ M7 p1 H$ C5 ]0 ~& W( t
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求2 M" g: m' y! X9 M
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:# G1 w$ @) e% c1 P# ?# r
" a, n+ E: O# k7 x7 D6 P4 {纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;' G8 u2 [2 r2 C$ d
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;* B' H8 n$ K. E& O
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
" f" y- b: m: N" B" `2 ^' U6.2 技术栈维度:选哪家芯片/云栈?6 S( I" _1 O! k2 x. k
若目标是全球最优 tokens/$ 且不受出口管制:9 _5 n7 X5 p. N0 V1 g" g0 c+ P7 A
& ]$ s6 D0 ]. t4 c8 U# Y5 y" mGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
3 f4 E9 ] A2 ]4 G3 v若在美国/欧洲,能自由采购 NVIDIA:3 y1 j$ I, q& C$ [) m, |
- T2 I" R( y& n9 x
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:0 z& T6 h7 V, R T0 D
成熟的软件栈与生态,极高的 tokens/s/GPU; J, z; V: Y) U9 S% e
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
2 |3 t+ ]( B" {& ?* P9 S9 |; Y但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
5 q% p2 L+ U6 r0 x4 c若在中国或存在出口管制约束:
|: u) W0 N! s
2 D+ D& p) f! D8 q3 n/ ^昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:* ?& q4 I; E1 E/ s6 J
性能上已能覆盖大部分 GPT‑4 类推理需求;
0 D7 K( V+ r( {, b5 l4 O+ k单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
/ ~& v( ]. @2 Q7 t% F软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;- O( ]5 s: J9 F0 W, ]
建议配合:
5 x! E( Q3 H* ^2 U2 n7 f高效液冷(PUE~1.1)、4 D, W* k8 G4 P, M* R+ K( t" V# |% y: e
大 batch、路由(浅层任务走小模型/低成本芯片)、% ]% d2 B3 s3 Q
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。: ?3 w# C* g& l0 R3 x: g; l- d
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:5 ~$ v4 s7 n5 @# y
, z, M* j, z$ \6 T3 ~4 X5 [
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];/ w# k1 E+ L) p' }
这意味着:! t! q8 ^ H$ p
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
7 E) P* {( ^4 R+ E精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
3 J5 c" A% g7 O" O$ L$ Z6.3 针对你关心的具体问题的简要回答
3 n# c: k" V Y: {; i- n# z: v3 s% X/ WAI 数据中心建设 vs 运营成本的大体比例?
' o* k& L5 I# o: @# K' R% Q5 J6 ^* F4 ^( y
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
! L7 u6 l! t0 |' h其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。2 W7 h. o" O8 _& R& N, i2 z
中国、美国、欧洲、中东的成本结构区别?" i( u& M: [: J6 b; J
2 l4 P# J$ [# X6 B建设期:! R& {) W# F3 l% U& R# K
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
( r+ Z' r- C1 X* A* G' f运营期:
5 B& z/ B4 _: ?5 `+ u电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
- T! x9 k! f, O2 Z' u- O人工:中 国 ≪ 美 欧,中东居中。. H4 y) s! o* S9 w( d* E
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?/ }( w9 B/ P3 f4 D' Y
1 i @: e$ q0 O+ C7 A I
对于典型 1 J/token 推理负载:
5 L- ?7 K y4 U) ~0 E6 i美国 $0.30/kWh:电费约 $0.083/M token$ u6 x* V) h) T% U, V$ w
中国 0.3 元/kWh:电费约 $0.012/M token, E. u5 @: H1 O/ G6 v( D9 @
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。7 E, J& `4 d! Y* S% |3 i9 ?3 w
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
/ `" T, l" z7 _: D4 a8 k6 a6 M1 n/ p) M+ {1 J) R2 m2 _
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
: o: d: i! b9 q$ b) L全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
4 T* \+ w4 a' Q0 P9 A; @3 {中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|