TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:' _5 L. d6 w0 H3 f4 C: g
& G2 M- H! s7 P7 C" T8 z0 H一、总体分析框架与核心结论6 Y- v2 v& A: x! ~* ^
1.1 分析框架概览
- G+ y4 h" o/ @" v* Q$ B拆分维度
' k$ Z6 Z: U% G4 t+ P6 N6 X8 S' t& U. J8 F2 @+ L* i
阶段:
1 H. v, o, e4 |3 c, i9 ^2 x建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
" V" M0 C, ]6 r运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等& F- n- e9 u+ P% Y& b# u+ T R7 `( k
区域:. p# @" j6 A- ^6 w" l" z, P3 d6 C1 ]
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)- K1 S. @. ?; Y, B+ _, }9 I
技术方案:; u; [2 m& |7 b1 T4 J
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
5 f5 D7 t) q( w, M2 w. @. NGoogle TPU(v5e/v5p/Trillium 等)
# }6 g( j1 W( {' O; M% E# i中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
5 m: ]7 d! ^, B* n算例基准
: D0 b1 Z7 F ]3 S8 T" I) R% K8 ? c
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:% @$ z2 c" ^+ u5 R
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW& z6 @0 b8 \( o5 Q0 r5 V. r
PUE 假设约 1.11(高效液冷场景)[1][29]
8 r' E$ u R' @8 `. ?$ \时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
. }: \# y/ h8 [) A1 z! v4 `: w关键指标
$ g9 m6 D; M: F# k# k' e
& C$ s/ e1 o b; _% S$/MW 建设成本(含/不含 IT 硬件)
|/ v7 [) N. c! F/ Y- d' [$/kWh 电力成本、L/kWh 水耗' }3 b7 s+ I: h: d. p/ w
$/token 或 $/百万 token 的综合成本8 S2 z# B5 X" e7 [; |0 ~
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]' |, x; {6 o6 A& g( x3 C7 K: [
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租): j C8 z/ N% p9 [3 G. F+ [+ n
1.2 高层结论(供决策快速参考)
2 {; s6 g& i) y; k9 `建设成本:AI 数据中心相对传统云数据中心成本翻倍$ ]2 Y5 M3 `& [) _, i
' R( V- X8 s. J- i传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
7 n- N4 b* C$ z2 t% `AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
& a/ M7 L8 j: T按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。; D. Z, q; ~3 W) ?& k- @: g
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
* [9 }+ @: Z5 E# m- |& {( ^! j1 o# u1 N
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
, B# B) w4 N; w# T美国:$8–12M/MW,400 MW 约 $4.0B[1]
. d3 ^& S: u0 j欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
, V9 _- |( g3 n# e中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]4 c: o# _( ?+ H9 @
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
$ V# b+ G+ c v; l1 w. HOPEX:电价与人工决定区域优势' z7 m0 H* `6 F& |
& Q1 r. p7 x+ ?3 W' ~2 c电价(2025–2026 工商业大致区间):
+ K6 W: m+ E1 @中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
5 Q4 N2 M, N' {: D美国:工业用电约 $0.085–0.09/kWh[44]
' T; \- b( e7 h: k, Z0 D, G# S欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
) H4 K! M1 A# A7 }2 N中东/UAE:工业用户 $0.07–0.13/kWh[47]
6 J# M: s8 p) N% l1 D' j5 i( g0 e人工:
8 ^; @5 C; T' n% w- ^中国数据中心运维:约 $22k/人/年
* _* e$ }" y' `) k' |) }美国数据中心运维:约 $120k/人/年[1]
: r3 @( Q! Q7 i- w) z7 y; o, n结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。1 f* Q, N; o" T" B$ n k5 D) ^: O( u5 Z
能耗与每 token 能源成本:能效差异远大于电价差异
' K% j' Y4 r5 ?; B- K4 _/ m" [, Q4 {( z, s3 n+ Q7 a
IEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
' H* ~6 b) H, s- h5 ~) X8 k: ]# s大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。, M2 o# m- R. T) C5 h
将 token 能耗约化为统一口径:
# g6 b- F) h& I4 @0 H% y% Q1 J粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:* L1 `8 }& f' G" P# I! y r
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
, B6 \% j" N" ?( V1 r美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token6 m' r8 t- u+ ^$ P% _9 x
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
1 f: E, i( t3 O8 i/ V" B: K不同芯片方案的核心差异
6 y( E& K) A$ V3 B- L, I f
) p5 W! g% \% o7 Q; [" F/ K- m. B+ ZNVIDIA Blackwell/B200 & GB200 NVL72:
: V+ D |8 y# U: n% A7 A- J单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
8 I3 G3 u7 X* L+ zGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。; g, [7 h# f P8 ]3 e0 j6 X6 e0 b2 n
Google TPU v5e/v5p/Trillium:" k) X+ n1 X1 h) h$ x" }
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
: k6 ?; I; Q3 K4 {) tGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。5 G4 e0 }* g _) C/ P+ C
华为昇腾 910B:
( P: ^0 N- `, L5 t; t! GFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。' y; I' S* T; B4 n6 H- ~4 v: r7 K) D
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
, I) {1 W, V+ T5 w$ F阿里平头哥真武 810E(Zhenwu PPU):
2 G: I" A9 J1 F% w8 t& W) j96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。 m, L' H6 k, o
结论:
7 t7 D' e) T o' Y6 r能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。/ m; H' R% X$ \0 j
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。6 n3 H! K; I f
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。# K* @' D" i, t- ]7 `
自建 vs 云租的 TCO 与 token 成本, D5 W' F! a5 q! W
9 ^! K# p" l' ^. f6 P( s8 d* BLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]: b" c+ [6 H( w) s% B0 B
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;( ^: @# y/ z) ~% e; o1 `
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。, ~" X+ E/ ?( Y8 N+ c
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。: l' H& ^+ V% z3 `/ l# I
Token 成本对比示例(LenovoPress 场景)[28]:
) T8 v5 d: `- ]. x8 BLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token$ P* Z& h; x! z* O2 P% o1 L, {9 L
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。1 O7 \5 I q* z5 ?
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。( s5 [" o% O7 C* T3 b9 V: t3 y& P
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
' ^6 m. t* }. g4 C$ c: [& T结论:% L1 K4 k( t6 n* W2 \
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
9 _: P& n* a2 w- j0 f8 w; [Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。 v7 v& v' @7 _
二、建设期成本分布:区域对比
- @) z2 e! r N1 V% x4 \6 K+ \4 o* i以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
+ d2 n4 K6 I1 y0 B( d4 k# @* r, X. d5 h. [4 i) {
2.1 全球/通用结构(以 1 MW 为单位)
: M2 ~- w& z' x+ P% c, L; A: _: V综合 JLL、ConstructElements 等[2][41][40]:
( B5 D5 U- m4 J: [/ z) j M5 R" @% _& `) g
壳体+机电(Shell & Core)
0 z5 N4 W, z& q' _% z! [5 Y' `' z4 R% [+ I9 \; P& c8 y8 ?2 c8 ]
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]4 T: A. O! L8 {- C3 b; u/ o+ j
其中按成本构成[40]:4 [% m( f0 [6 I& l' Y
电力系统(变电、配电、UPS、母线等):40–50%$ [; c/ ?- Y/ B- a8 g7 m
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%6 n3 a" M" T @0 p9 f8 Q
建筑与土地、结构:约 15–20%# P% u% a5 O, m2 X! q- t
其他(消防、安防、楼宇管理等):约 10–15%
" `$ X3 J0 y* f# K6 @IT 内装与 AI 基础设施(不含芯片)
: S8 c* z0 Y( I* |( N/ W: k' S( z* @- p
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
( z L- l# ` _GPU/加速卡硬件 CAPEX7 |7 I# M# Q0 f( |8 V
" G B; F' U) w$ K0 n
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
4 n+ {; F( J& ]( z$ r6 p2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
# m! U y7 {7 X2 |. T8 G7 M; h结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
- h Q+ e' S/ Z! D @. L/ s$ W& o. ]
区域 典型建设成本(壳体+机电,$M/MW) 备注
$ z' f. C, }* p5 \1 [8 I: I中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
7 s/ b8 {" S: u6 x美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
0 e, `" o9 f; R A! U! t欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]5 ~& l1 m5 ?! @# |
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
8 z2 ^! T$ n% a7 i+ v; G: s6 k; B* M结论:
3 V0 ^7 C& k1 @- p9 A. f$ K# c4 A( v. `% ~5 m
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
* F$ p" r9 l4 r% r$ w4 V若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
& j, Z+ ` S& W0 _- T& _2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例). C- ]6 w9 G& a
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:. `- l) Q* B/ u$ S- f9 G( ~3 f
5 H" T& K1 D5 \2 ?* M
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;2 x& Q8 h5 Q# P
GPU 配置:
7 p* a" M3 V0 j7 p. A* _- N T有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
; q& G. V+ y7 R1 Z每 rack 成本 ≈ $3.0–3.35M[34][69];1 d" Z& B# p M; I' C0 y
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
7 P" e( `+ y- s5 }4 I与不同区域壳体+机电组合:
3 N% Y- s, e- z( C' k! R2 k; N$ e$ z! d* R
以中值估算:
+ b& x, Q! l4 E/ d
8 s# u/ h: y6 H. ^0 S0 L% g中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
0 _! [: B! l9 l$ w. H美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
* r* p. U! @. S M: A i5 m欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B( `- M* ?% r; |; _9 H
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B! S) G1 M1 I/ s! W: r8 w
可见:
+ }& b- W b# J: V
3 T+ B& m3 B" B% W6 `( o, wGPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
0 N% E% i7 b! _% Z) d% E相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
: E( d0 z( w4 F: ? X4 j三、运营期成本结构与区域对比
5 v' N0 k8 B& C: o3.1 通用 OPEX 结构(高密 AI DC)" @; V: y, F; p/ Z7 S% R
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:# u( H5 w/ H9 f5 m4 v
1 S& ]! C( O+ c0 E
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
- l$ S' S. ?4 p! W, K3 S冷却与水资源:
8 q ~5 K! z# ~5 }能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。: s4 e V. `9 C' s# ]
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。5 I' a4 r1 o+ L+ W6 u
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。$ U' w4 n# C$ l; U/ R; W7 x% E
托管/物业与维护:
& C# A0 |2 |' S- p托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];: F _2 u/ j6 G' D6 V7 @; W% c A
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
; h |4 m: y- r1 I1 h( P, a" \3.2 区域差异(以 400MW / 3 年期为例)
1 F& t( K1 _) {# b0 Z3 @使用 ChinaTalk 的电费与人工估算[1]:
% ~6 f8 |' V4 O# ~! ^
" h& i- z, }* |. y0 L电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
$ R- @' p; b) j0 R I中国:约 $0.06/kWh → 3 年电费 ≈ $350M4 R7 l* b3 P. U8 s9 b# e
美国:约 $0.09/kWh → 3 年电费 ≈ $600M
$ O4 w$ W, H2 |中东:约 $0.07–0.10/kWh → $400–550M& S1 u. A: ?6 W: O& S
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
8 X; p" `! X9 {水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
) v. s2 O/ q: B: b! r+ w美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
2 E9 H" u3 B: M( K, V# c三年水费级别:
& p1 v" `5 J" a+ B' d美国:$40k+% e5 B. Q: O3 B* d3 D
中国:$20k+( M/ R/ N7 @7 g! q7 R: v: g! r: ~
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
5 r& q1 s# A3 A* |+ n3 u2 x6 j人员成本(3 年) – 假设 500 名全职运维:
- X0 F4 o4 p5 \; m. j美国:500 × $120k × 3 = $180M+- T4 M' [7 J+ j4 U9 |0 A
中国:500 × $22k × 3 = $33M+/ Y3 R( A$ Y: N5 `/ Y8 N5 F
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。% R' E" o# D$ l3 P0 @; g5 i: D; P
整体 OPEX 粗算(3 年) – 400MW 场景下:/ G. T: n$ s# s' l. z3 j
9 {! Z9 b6 D2 i/ r/ ~7 L9 M
项目 中国 美国' F+ w* Y E) l, |3 B! _0 d
电费 $350M $600M/ Y8 r4 f$ R* n: {& t; P* e
水费 <$0.05M <$0.05M
- U' x6 ^7 C( d5 E7 ~2 F* E人员 $33M $184M
# n" r; ] ?! R$ Y; b% f其他维护/托管 同比例估算,地区差异主要体现在人工与地价 % l) S6 S+ m: S
结论:
& q; s+ q& X* ?' ]* Z. f# M' h) ?* a- d# G/ W2 M7 [& e
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。* q" Q6 z7 p8 O+ {) R9 C
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
% d+ m& A* y3 l0 [; x. |4 y- W四、基于 token 的成本与利润推演
+ d% N0 E+ Z0 b3 M4 K+ O" l' U# `4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
$ ~/ E" {1 l) G9 r; n: i K统一假设:
+ J7 y+ A' C3 z( h M% _- ^2 u+ w
5 _/ D- e; t3 u3 U5 Q典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18]) g K& a6 m. r6 s! y' R+ q
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh% {; J* Z [4 ?) t" G
1 百万 token:278 Wh = 0.278 kWh
' E% F2 @6 G4 y7 g- R& ?场景 A:美国电价 $0.30/kWh
( a6 S4 T# s5 j电费/百万 token = 0.278 kWh × $0.30/kWh
3 L* a+ D1 s4 h/ ~% L) t" n6 d9 Q≈ $0.0834 / 百万 token
* ?, y2 m" k) J7 O场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
) _& C2 W* J/ a! y4 L电费/百万 token = 0.278 kWh × $0.042. B9 g' v9 y# x. U' T! K
≈ $0.0117 / 百万 token6 T$ j; ^4 Q# P$ ~7 E/ N4 }
对比当前 API 价格(OpenAI 2026Q1)[62]" B, C! ^5 H( K, u' R+ Q4 m
以输出侧为主(成本最敏感):" T% T, F# f9 h6 ]4 S+ W3 @' f' @
4 V: i; F- u5 L* ^4 I
模型 输出价 ($/百万 token)
5 a* C. U$ ^$ {, V+ D* [ [GPT‑5.2 $14
) C; s3 v( K" J4 {( \1 YGPT‑5.2 Pro $168
, Z( Z( O0 z' CGPT‑4.1 $8
/ F7 L7 v2 D m. A( QGPT‑4o $10
# L9 h4 J$ y& K6 T" |GPT‑4o mini $0.60
$ g+ Z- |( t: Q& C4 d则:6 ^' l3 x: |) Y9 R5 U& s! ~
* z- V" o% I, a' X2 p3 R5 T8 V
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
0 Q$ S) k' o8 R9 k在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
0 k3 `& j' g' M A7 P+ s" g; d相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。- u2 C, q1 i' Q5 @& L! r9 l
结论:
# Q5 ~* X+ H: N" r' q/ P% i( b, t+ N. N即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。$ ~! z) {- V5 K' `- [" u* I5 J
' l9 a7 Z% _2 ]7 n) C/ C
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
: `' |5 H3 P: y4 O% s5 S, c# r; \以 LenovoPress 的 8×H100 Config A 为例[28]:. k) x! T& q+ o) g- ?, _' U
5 l% s1 P* q# q" P) D$ O2 |: _
5 年摊销下,8×H100 本地推理 70B 模型:6 n, n7 v2 _. w( H& H# m8 P
小时综合成本(CapEx摊销+Opex):$12.08/h
5 _* r& X. O# t1 K吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens5 N1 p7 m( h, d1 J; T6 E$ E
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token) g) e5 a/ W2 E4 B* C" B
电费在其中的占比:- ?* ]- h5 r* V. G5 l5 h
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]* G' Q2 Q0 T' M+ p3 v. V3 u, S9 M
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
" q- |5 U; H& e# g7 I; m' T, y; w) d& \ F电费占 总 token 成本 ~7% 左右。6 H! y" |: `* x5 l
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。# O) t( K2 s4 X' z
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
& {$ C$ d+ g8 b' v
' `: M$ b0 G* C {/ u因此:
* F d6 I7 F. A2 r6 e1 j8 N) ^& f% A" T. `- o& ^
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。% ]/ E, q" c7 a; U
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
1 i _/ H7 N* h, t+ t% c五、不同芯片方案的建设与运营成本对比
! W3 [/ k5 y& H/ C5.1 NVIDIA 方案(H100/H200/B200/GB200)
; B( ~/ u' C/ G. l3 kCAPEX:
' ^4 L: V8 l3 P; m% k4 [( ^
7 q4 ?: j f; b. N, _H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
' g- G+ G! ^5 `H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。/ y+ y4 A5 o2 a
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。0 n$ q7 m/ ]- d! e# c( d1 }( E) u
GB200 NVL72:
4 n& l7 l/ W9 R! B5 r每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
2 q0 _, Y& k% C6 `冷却系统每 rack 额外 $50–56k[35]。" \ e4 G$ `$ O! e1 E' F. ]
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。) P+ L D) [( w
OPEX & 能效:+ o/ O& |, n# p3 `/ O) D
4 b6 j) J$ {6 {2 }' B7 Y1 j
单 GPU 功耗:
2 e- e, H' f1 [. LH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
) Q8 f6 J7 h+ O( W [* g: yH200:功耗类似或稍高,但性能/W 提升[9][10]。
" H' X9 X/ A+ h" D& c) I( SB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。7 L' ]' ~; B9 g" V! |
Token 性能:; r* ?3 l7 _, j' ~6 B) z
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
- U; [' u9 i5 }/ _NVIDIA 的优势:
: z) c7 x( }5 \" h, x N& B. v* x& j$ t' [6 Y
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。# f3 r. m2 l8 g. u
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
4 A+ j3 {: M2 K9 G( w5.2 Google TPU 方案$ }) M" y2 ]0 Y
CAPEX:
4 _6 S" N0 _! K* F+ v5 b6 R" _( o1 Z
4 m" }5 P) ~0 e单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
+ S1 }. I5 `' l3 L( J8 eGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。; Z1 R2 O7 P Y4 a
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
6 Q% X& h* l% L1 c7 C3 z能效:) S4 i4 n. Z9 x7 T
/ M- V7 p% ^4 M' k( p, b( l0 M3 ^
TPU v5e vs H100:# h- B6 c- A# E. T2 K3 a; \+ M
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
5 L9 d9 _/ B8 c H2 H& i4 V测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。( {9 G3 Q$ T0 F. ?
新一代 Trillium/TPU v7:2 N: d# h# p4 r1 ~# z* w4 v' Z
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
# o! A: I1 a/ F+ CGoogle 方案的特点:3 B! m' Y+ N7 P( |9 U: q S3 p
- W+ [. Q. h8 d7 w4 q0 x& s. B
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
! B) o4 V1 n/ Y) Q/ L F/ @' Y对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。- q% H) E3 r4 H, L
5.3 华为昇腾 910B / 910C 方案
! ^" c6 i" c% c0 Z6 X# l4 wCAPEX:
& W9 x8 E7 d, k. M: m1 p7 Z+ h
! L/ h' t" O3 P单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
$ w% H9 T' i+ ~9 P5 p5 }与 A100 对比:; m* ]6 [- T7 ~9 Q9 W5 e4 m! _+ G
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
5 ^- d& s5 k* }& Q3 S市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。- ^ m/ m; |( L) J! G; w Z( `
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。# N3 b3 B2 h# ~, O3 E2 u
OPEX & 能效:4 v; u+ [ p, F8 S# \
, B! k& E2 X" J H7 V8 ~' S5 ^
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。1 O5 s0 p, O$ S/ p* n
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。! Z$ r: n) ~% p3 `$ }
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。! U. r% s# G) W1 I- }8 S
5.4 平头哥真武 810E(PPU)方案
[% c' S6 E! c* P/ `CAPEX:
: S! [7 u( J1 g' w4 Q4 a! I
( ^" o# k1 g4 J8 L技术参数:* S; {% }' C) T
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。 k. |3 G; v4 v! V! Q9 M
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
" A! @# v6 d- ?; ^% j( m价格:: G% c$ R) R; B7 A
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。0 G4 x; v& _; H s8 l( ]
结合国内报道:/ {9 [7 E) f5 }2 P t
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
( M2 u: r. X) T数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。3 |# v2 k" S" x
OPEX & 能效:
8 `: N+ D" ]$ ]4 j/ P' y5 H) L: }# e# i0 ~: T% J1 x$ \, L: r
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;: F3 d, l$ ?# m; Z1 F& ?5 \
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
0 g4 m& W, P- x3 v0 e& R4 a* h! e, C六、综合比较与策略建议, n# {$ j% F8 t% i( W
6.1 区域维度:在哪里建 AI 数据中心?
% M! r! ]3 B" p% ]纯经济性(TCO/tokens)排序(假设无政策/合规约束):: ?: B$ Y' g( Q, S! i
, R7 @/ V, r% ]. A中国西部/北部(电价低、人力低、建设成本低)
& H* x% M8 s- m% U中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)( M, L' ~6 v* a, b* L* {
美国电价低但人工高;东海岸/加州电价上涨压力大, I2 ~8 t o0 ?0 H5 ]2 |# f. m7 B/ B
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求2 e% t- o0 M. Z. e/ o
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
$ m9 |8 u( q! O& o; }. X; O! T- [: j% J6 F5 h
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
7 U+ r2 ]* q- _对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;4 m. s$ D) t r0 Z5 f
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。, ^# B% ?2 f$ ]. ]+ N- E) t* g
6.2 技术栈维度:选哪家芯片/云栈?
* j4 u9 a! D8 B若目标是全球最优 tokens/$ 且不受出口管制:% a1 _* d5 ~$ [% V
2 v$ M' z _4 R9 m1 l1 t& z
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
, L+ T) \ A; y: a A9 ^若在美国/欧洲,能自由采购 NVIDIA:; c. r+ l0 E" r
* W$ K3 O, C r9 I# {. a
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:) l2 U4 N o5 L J3 ^
成熟的软件栈与生态,极高的 tokens/s/GPU;
7 u9 a9 j7 l8 G2 W在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
3 m' x( p0 b9 f7 z4 m9 u" t但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。7 c2 F2 y5 `, O/ J% o. k. T* N
若在中国或存在出口管制约束:
# ]$ t! c* R: T$ M3 G
* W8 d: r$ w ~/ l! k; X昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:1 Z" P* L" P, ]3 G' Y" T
性能上已能覆盖大部分 GPT‑4 类推理需求;4 _) y. E. C# U& _. a
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;, [9 q \- }9 q+ P& R: g
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;# c s; P; b6 t! H h: J
建议配合:9 D- j6 k0 r8 L6 g
高效液冷(PUE~1.1)、, v( A& u2 F+ d7 [+ a( S0 l
大 batch、路由(浅层任务走小模型/低成本芯片)、+ ~2 ] k4 H$ {0 D4 ?( i
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。6 c* D# u7 T a
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
. I h7 i3 _$ E% w, u8 F M" r {' N" c" d2 d( r
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];/ V- ^2 U2 e' w
这意味着:4 Q# a8 E4 E( k; j$ p
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片); Q0 m! @8 ~0 c
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
8 Q" \' \& |! Y6.3 针对你关心的具体问题的简要回答
3 o; }* d% \+ Z" p/ m8 o9 TAI 数据中心建设 vs 运营成本的大体比例?
: @" `7 ~# b+ }$ T5 | e- i/ d) h8 A4 g
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
1 i' o$ H' S- w6 d( |% `" X+ j- e7 H其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
0 M; e: i9 ]' d( [% F. n中国、美国、欧洲、中东的成本结构区别?
' J, y# M! W" n, t& y6 c" j3 @* K# F0 U
建设期:, `+ u0 q8 G' i
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
) B, ^! g q! P1 Y6 f运营期:
- G: L* ~* p. q) C+ f; H2 [电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
3 k5 S2 k' o, v4 c5 N; ^人工:中 国 ≪ 美 欧,中东居中。
1 a7 W; Q, y( k: d" ]在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?; ^- y% M Q) H" Q8 B6 P: Z
t# X1 o+ I1 J/ y
对于典型 1 J/token 推理负载:' u) A/ l# e7 U/ F
美国 $0.30/kWh:电费约 $0.083/M token, p. x3 g& I# E5 p. X |; r0 P
中国 0.3 元/kWh:电费约 $0.012/M token
3 Y5 a! ]: ]+ S2 _2 h# I对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。" p# I3 ?" C+ C$ H! V$ F! L, a
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?1 D0 o! Z5 i! X# D( `; G! Y
8 f5 i* `, e* c, U0 n在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;9 Q I5 a% R. F; Z
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
: Y* o( `6 q& Y中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|