TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:3 W4 u$ v3 j x# W
8 M; t8 r* { M0 W- e8 N- e k( N
一、总体分析框架与核心结论
5 @; W& R4 T2 L0 H; x1.1 分析框架概览
$ v$ U7 n+ A% p* ~0 a* b拆分维度
+ s/ l7 m4 F. |, g$ y" Y2 v0 W8 c$ e& y% ~" l+ m# }
阶段:; m* u$ Q: y: G r( [; s6 C
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施 ~+ S4 f0 t' [# c
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等& }% E5 a% G" }
区域:
% a# u5 @4 L4 w: N6 L中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
9 i j' m7 k2 s技术方案:
1 g8 _" E+ J- K8 W: b0 N3 o8 XNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)* J: r+ u/ A; F% x! G3 E& E
Google TPU(v5e/v5p/Trillium 等)6 Y5 L- E ^7 n! W
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)7 n+ R' G# U% c4 M( R* u
算例基准
8 W9 Q5 p" |" X6 N8 y" g6 B1 {1 I
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
, z0 j. z2 L9 L( e3 `3 p' @其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
) _2 W9 E/ k4 V+ kPUE 假设约 1.11(高效液冷场景)[1][29]
$ S- n+ t; G# i- p1 f时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
; K7 c# f/ i( H9 r2 q% b关键指标9 n. Y$ J/ w4 {/ x6 L2 N1 \
* V' c' j7 W. \3 k# r% r+ z F$/MW 建设成本(含/不含 IT 硬件)0 P0 y, x& } M( u7 E6 i& A
$/kWh 电力成本、L/kWh 水耗 c6 b! w& b0 y9 P% h
$/token 或 $/百万 token 的综合成本
. Z) ~# T0 Y7 e+ xToken-per-watt / Joule-per-token 作为能效基准[17][18][26]
2 d, M" V$ I% k ^7 j项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
7 u, @) V& z0 ^% K6 q1.2 高层结论(供决策快速参考)
. c# b) b6 B3 G( y( w, h. {- X建设成本:AI 数据中心相对传统云数据中心成本翻倍* H# U: @( f# s% P4 Z
$ Y5 Y. X3 ?& y6 {6 r) r/ f" \传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。4 j+ e. F% P P" n: a+ K' j
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
4 ^" ?5 s! J! H3 M$ h. g按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。/ u9 F1 J# E8 `' A
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
/ ?$ o2 t& N3 S/ M: c; D4 u6 l
6 j( \$ A# Z- B2 L中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
9 ?* J4 v9 i$ u l* n: G- `! N美国:$8–12M/MW,400 MW 约 $4.0B[1]1 m' P0 a+ h# _
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
: k5 B$ ?, h0 S8 b" J中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
! f/ l. ^+ {& ~3 K: \结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。5 F( i, p3 B) `
OPEX:电价与人工决定区域优势5 A3 N5 c8 j8 N- R
, `) N; Y( I# ]3 M. i% |电价(2025–2026 工商业大致区间):; C: R i; U( Q5 i# w" h" D
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
* r6 y- l' y# ?% C( C# o7 `3 R美国:工业用电约 $0.085–0.09/kWh[44]
, I+ F& R( O' l1 Z! d. a欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]8 G7 H2 H' Y U1 a8 e) B9 p- @, O
中东/UAE:工业用户 $0.07–0.13/kWh[47]( a. k% q. s3 L, k0 i+ Z
人工:8 I, V" f. X: `- |5 `4 k) H+ i7 x
中国数据中心运维:约 $22k/人/年
1 A8 Q; T( Q$ I2 ~6 r& D美国数据中心运维:约 $120k/人/年[1]
" ~6 ]" Y3 G3 c5 a8 {3 z+ p" v结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
: R0 y" a( n: o* R& ?; f能耗与每 token 能源成本:能效差异远大于电价差异
/ ~" H& a& w& M7 _* e% L
* `3 W* t, T* t7 {1 EIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。) V: y& t5 {6 ~1 m% T
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。7 ?+ ^4 l. r: e3 I0 @5 q: L* C& v
将 token 能耗约化为统一口径:
+ ]+ Y% y* {- T粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:/ s8 L" f( d1 z" x/ [
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token7 m" z+ y" D1 }1 }: W" }
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
$ o, J1 J2 D$ c, B2 i对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。% ~0 B. B1 L6 m7 N6 v! I! X+ E8 }
不同芯片方案的核心差异8 J6 @- r- R, G4 Q; ~
/ x8 c/ D, S- [! eNVIDIA Blackwell/B200 & GB200 NVL72:
% D9 y5 I; y0 N; P {' O" K5 I# m单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。$ C+ {4 Z9 J7 k2 r
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
2 d; Q9 E7 \* ?$ f1 w& gGoogle TPU v5e/v5p/Trillium:
1 u v; c/ M5 `1 ^TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
3 r3 s4 P- w/ T3 f0 W S; DGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
2 @# f# M0 N: a4 Z* Q& w3 i5 o- z华为昇腾 910B:
8 g) m" t4 a* I3 e! |) VFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
7 N( V4 ]" l+ Z& v; O单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
; L/ c- V3 l0 g+ c8 G4 Z1 l阿里平头哥真武 810E(Zhenwu PPU):
2 u7 e! p3 C7 q( v5 b96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。9 a. b* I. l; E' H$ J
结论:* V( I1 j" e3 Y% J) D
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。% k4 ^& P# P1 `; e; G) v' {
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。# K. ~. [# v& L+ T8 @ q b, `
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。4 o6 l( [3 D/ @) P* i; `8 `
自建 vs 云租的 TCO 与 token 成本; c. o# I( _3 ]( v& x
! B8 r) {" |6 G$ ]3 s5 f' ]% V" |9 dLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:3 {8 m7 E, S, c) B
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
5 H7 B/ a% s. @8 y等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。$ Y$ D( m! l( T5 j
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
) G. J& U4 x: ^9 H( j; FToken 成本对比示例(LenovoPress 场景)[28]:
5 v7 K2 e7 d: V" sLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
2 L0 L0 n( ^& k2 F3 [6 a1 uvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。& G0 G6 J& P- B8 N
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
+ |" C S) s- F: ]9 p% [; w5 xLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
9 s- e+ W# C0 w结论:" H$ F+ g& C5 G; _
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
+ w5 A) w2 U. hToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
' }1 u; M( [( ^2 i8 Q二、建设期成本分布:区域对比! U% A) u1 m1 P8 V8 @- P
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。# w' ~+ F X5 _0 Y; o; s3 ?6 E
/ U& v4 t) L. {+ z2.1 全球/通用结构(以 1 MW 为单位)
2 j, x% B O2 k6 ^/ M综合 JLL、ConstructElements 等[2][41][40]:* m; Z z7 d+ e1 S( K/ s
* u/ Y9 K! B6 n8 s
壳体+机电(Shell & Core)
3 r6 H0 ?+ B3 y) ]) L
5 b" g& H1 b' H全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]: Y- T# I( E* h3 C; i- }4 G: h* N
其中按成本构成[40]:& R0 f8 f, z- Z8 F: K8 S9 @
电力系统(变电、配电、UPS、母线等):40–50%! A8 h* P; {$ R/ V& F
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
8 l# }; f9 g+ r- N# c. d建筑与土地、结构:约 15–20%; ^( q( Q- S# z/ U; |8 p7 E% `. G
其他(消防、安防、楼宇管理等):约 10–15%% ]0 p% e# X5 X6 X% f
IT 内装与 AI 基础设施(不含芯片)
7 V( x* H0 E6 U5 G, y c5 ~
6 }& q4 p% S% ^高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
* \/ i0 C% |) W: D& XGPU/加速卡硬件 CAPEX" J; v7 V; d2 b" {! a
% O! C1 v- E* z _
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。+ F& B: P7 f0 |, w3 C' W- e
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX# p, E7 I$ R7 m. n8 h' }
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
) G( R3 e+ b+ C' N4 H' G5 W2 \8 U- R3 P6 }/ B
区域 典型建设成本(壳体+机电,$M/MW) 备注
% s$ ?- W$ z% a& J中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
7 W0 K9 C1 F2 J' v美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
7 Z( Z; g2 H/ `& O; k) Z+ s欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
, r r& F. t6 A1 K中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]# j% `, d# c% h
结论:) Z4 c; t1 n9 T$ G& i# |4 {
6 U; G5 z5 f- d7 G
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
8 j9 Q. q! F! W% T; m3 Y$ j, @若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。/ A! _/ {$ Z6 u" ]* m
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)) ^! D# w& c; {$ q, `1 D
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
$ `3 _$ D6 e! p5 Y" {' R7 e5 w7 ~6 H' Y9 E
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
! C* V8 x; I6 x- WGPU 配置:
9 ]/ W' _ f! Z6 a4 x J有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);' x. Y. r6 A8 j' O3 W+ F& u ^% ~
每 rack 成本 ≈ $3.0–3.35M[34][69];. F! }5 o3 s7 o8 F( }
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
. ~6 t9 r- F* `( a4 O) c% o与不同区域壳体+机电组合:
$ i2 O0 @ l- R3 R: Q, V3 [
! c5 B$ e" ]) k U! t1 A: F以中值估算:
3 m6 d! Q1 h# \& P; s7 M+ J5 D
& T3 M& w9 I+ \. P t中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
3 l9 Y% o: E0 p: Z f4 }美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B) d0 O; C( l. S2 f2 ?4 O
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
: _7 {7 n( E% U9 _+ c* ~中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B2 O, K* y/ P5 [ o Q6 o9 ~! W2 O
可见:' a; e& F# y) {* N5 g7 E
9 u# c1 S0 N0 h7 D2 {; m5 o" Y+ [2 D
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。" Q- y- \$ G4 S
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。) X! l( ^, Q; v9 g l4 v
三、运营期成本结构与区域对比
! E& m' d( a; U+ }" x" r! D# n3.1 通用 OPEX 结构(高密 AI DC)
! Y* A3 d7 Q- f, M0 n: M结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:* \3 u% M: `3 x2 U4 f1 ~+ N
4 T" t5 V- k, q1 }. B
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。) `3 T% i3 J% ]' C& L9 [
冷却与水资源:
3 Y, O$ n; V9 C! i能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。: L8 o {0 M. ^* e
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
0 {* `7 J, r$ O2 @4 J( T/ ]# P! i9 J人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
6 f Z5 y+ p( C5 X+ j托管/物业与维护:1 f3 ~6 Y5 O: } H0 Z
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
3 d- G1 S& r8 t0 S. z8 b: ~硬件维护:LenovoPress 模型中按设备价 12%/年[28]。0 L7 l h9 n- M" N. `# t, b4 Y( |
3.2 区域差异(以 400MW / 3 年期为例)- i* D7 ?6 t+ j8 M
使用 ChinaTalk 的电费与人工估算[1]:
) R- \5 M* a) E3 _6 [& n$ G; p' ~6 U& ]
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
0 V1 [; E1 u7 F% S中国:约 $0.06/kWh → 3 年电费 ≈ $350M
& S$ s6 s6 `# a/ o美国:约 $0.09/kWh → 3 年电费 ≈ $600M
, l% P- y7 K$ B/ B4 N3 l5 Q中东:约 $0.07–0.10/kWh → $400–550M
, K! t, g: e7 U! c! ^欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
$ n S1 I4 s2 w水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:) H' m. x% a5 U* L6 i
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]& Y* _7 s1 N; \$ }5 i2 P8 }+ ]
三年水费级别:5 s! I$ t8 Q5 d1 c! @! N( d
美国:$40k+3 g1 d& O( e6 P0 S L
中国:$20k+) N% p- j4 J! `& X& `/ |
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
4 U1 d: p- f2 `1 z+ _人员成本(3 年) – 假设 500 名全职运维:. W9 d( W3 E4 e
美国:500 × $120k × 3 = $180M+' n( r7 ]3 K2 e, f9 C
中国:500 × $22k × 3 = $33M+
2 j! g( m! w: K7 ?, b差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
- j8 J8 v. o) I( O5 V, x- `& I4 e, Z整体 OPEX 粗算(3 年) – 400MW 场景下:
, h2 o* ?& T4 y1 h1 e u J6 i' h
/ \3 e9 f% G* ^项目 中国 美国 O3 X( J/ N! v( ^& U1 ~/ H# d
电费 $350M $600M
1 y( z+ q* Q/ N8 {$ Q9 Y水费 <$0.05M <$0.05M; P* I, G7 k& u5 f
人员 $33M $184M1 Q+ w5 v6 o z' Z( E
其他维护/托管 同比例估算,地区差异主要体现在人工与地价 3 f! s7 Q3 y4 x- N. g" S( f# K
结论:
- X2 b0 ]% D" h, F/ ~/ H2 d: ~- a, D
/ t/ U2 M4 v7 Z就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
7 @7 } J; a. H6 s9 u对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
( l, E' G9 u Y% X Y. z0 i四、基于 token 的成本与利润推演# O% H5 D- s) `. a; w' {+ R
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)% _& i) q' ^$ C4 f
统一假设:
* v V: s: h+ A+ X
" m2 V9 D$ _6 g6 G- a典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
3 p5 D$ b' R' X J1 R1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
! @% u: | Z! S+ | C; q$ ]* D1 百万 token:278 Wh = 0.278 kWh, Y4 ?' m3 d; F* y8 X
场景 A:美国电价 $0.30/kWh
# j/ |; [( j0 k0 v电费/百万 token = 0.278 kWh × $0.30/kWh C2 J" Y2 Y6 E/ Y
≈ $0.0834 / 百万 token
0 q* D3 H7 F! {, h3 M+ O/ f场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
& H' Y+ f W) k6 s: n9 x电费/百万 token = 0.278 kWh × $0.042
8 y+ v9 s2 C) Z1 d- R≈ $0.0117 / 百万 token; c! O4 N) ^. W( W
对比当前 API 价格(OpenAI 2026Q1)[62]
! A: u7 H, v. } c, z$ H以输出侧为主(成本最敏感):0 ~& Y) n7 K2 x5 _% x
; p! q; e- n \# j N模型 输出价 ($/百万 token)
3 t' O; w2 X- S' EGPT‑5.2 $14
6 N U& S) Z: U/ hGPT‑5.2 Pro $168
/ Y6 f0 B5 r9 u* \* ?GPT‑4.1 $8
# T8 {2 V o# }8 s. d0 d5 G# _GPT‑4o $10) A& p6 M% \# \& e; o" d) O K
GPT‑4o mini $0.60+ g$ m8 X: u, K, l
则:, [" A( K0 Z3 O% C
9 {, S0 e' z. @% y+ O* U
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。: Q8 B7 S# R+ I/ C) s9 e# `
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。: G3 K8 [8 T% w; F/ I, j. D
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。$ p) |* }# i( ?+ _( u' y) J
结论:
4 N D# }8 O/ V l即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。5 ^' v5 S v" `7 L# c
' _. O- a/ R, ?- l+ q* q
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
$ I O$ c4 A' W1 K# I以 LenovoPress 的 8×H100 Config A 为例[28]:& m8 G; J: w- J8 P, t
2 ^- K1 @; D" ]) @; x
5 年摊销下,8×H100 本地推理 70B 模型:
! C) M- n( H' l小时综合成本(CapEx摊销+Opex):$12.08/h
F+ q6 k; x3 V2 ~& J吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens. d2 n; I7 q8 ^! E$ p4 f
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
$ i6 [8 B3 N6 u& j7 a; e; U电费在其中的占比:% n! x! T P- k3 o1 q' C- Q
Opex 6.37$/h 中电力+冷却约 $0.87/h[28] q% w w1 H7 S: K, j, C8 A) u
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token+ K" q- h8 B1 I
电费占 总 token 成本 ~7% 左右。& F4 Q9 I. `* l
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。/ |2 h8 b8 z5 S3 p1 Q1 e5 W
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。, K/ l/ O3 h9 M/ y: U5 E
4 @4 v" n) _0 W0 X/ f3 ^. o4 v4 d
因此:4 C/ J- d, |$ S. t) t
4 z/ h1 \5 B" D3 @" A1 A
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。2 L* p) E3 ^. a9 C
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。/ {6 u; W! W+ X/ ]5 x
五、不同芯片方案的建设与运营成本对比
6 a+ A/ |) A7 N7 J' f. g0 o5.1 NVIDIA 方案(H100/H200/B200/GB200)1 a* [ K# h |' p
CAPEX:6 T+ o# c3 r) r2 i! ^% N0 C( L
" e/ K) n* J. N! p! u( u
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
) a+ p: r. p6 ^% |7 C( K! R* mH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。" k6 H' i( R) w
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
L, |8 y2 p8 e9 ]GB200 NVL72:
+ V" \# ~2 |+ @; ^1 Y. S每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
5 M5 @5 S5 r7 I5 A1 H' ]: s冷却系统每 rack 额外 $50–56k[35]。
6 K l2 \* B. D7 e( t" I; ]7 M在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
# R0 p! m3 I3 C3 q7 v# \' hOPEX & 能效:* C% A: [6 }1 @' _; W3 w9 G) h
* r1 J, U. Q+ ?0 K9 O# [
单 GPU 功耗:
. f7 z p. }% F# WH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
. n1 K b2 `5 M* tH200:功耗类似或稍高,但性能/W 提升[9][10]。
2 s4 O% x2 [3 Q" Y$ g; `B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
1 I4 P6 N4 K- U$ Y' M# r E! lToken 性能:8 R( h/ v W3 G) C2 ]
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
: Q: m$ F! s0 f, ONVIDIA 的优势:4 s8 H* J. ~& b9 b0 e
2 z, I$ Q5 u8 U$ V" Y
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
; m8 a# z ~% W( K' u但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。0 ]- w' K, _) O0 C
5.2 Google TPU 方案* C- D! y; B; ^( ]1 L
CAPEX:
- W% _! c8 T& R
$ B1 \6 x% n" \6 P# R0 L单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
' {) V* _: W9 G" ?1 V" f, S% tGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
( I- D( r b" q0 d2 i# a( D8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。4 `* N' ]1 A8 i4 {4 F
能效:# }( h! Z+ n. m" I1 |2 I* u
$ L' K. W. \7 ^' h5 J* Q/ Q- o
TPU v5e vs H100:+ m" i3 p. E4 Y2 D+ o6 R
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
$ z) {/ n9 X4 c& G5 g' N测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
+ k( q+ |" c8 [1 H& ~ n' s新一代 Trillium/TPU v7:( y5 |; }0 n% n4 _+ J2 H5 c% _
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。. [6 T$ W3 f5 h0 m2 P( |7 j l
Google 方案的特点:4 n6 b/ D3 ?: L! T+ |) ^8 r$ J4 `0 [
. I9 [6 u/ [' G: t$ g) B( K自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
3 S$ R+ z# Z: A! M7 ^5 L# l对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
! ^/ P+ r+ C% y: u6 R& D) r5.3 华为昇腾 910B / 910C 方案
" Z* S# M6 q" J0 E( \2 bCAPEX:- Q% f: K. X4 ^, Q$ C
2 S7 {) ]1 t) V+ O- R
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
8 u0 u2 k, X' k! ?与 A100 对比:
0 c! S/ a7 w6 ^FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。) U; U: Q" J9 t( k
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。; ]4 ~) m! D5 _7 V
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。; K+ \/ z% d" {1 s3 k, e# p
OPEX & 能效: x8 p3 V/ j2 t9 {% j& a& M) A
* b, z6 [8 V$ u) i4 a) y910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
/ E% F8 {0 W, F, i部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
" p! a; w9 L4 F1 T4 H5 e在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
( C- s3 [" s* Y$ N) G( `5.4 平头哥真武 810E(PPU)方案6 [2 N a" `$ a! \6 d. p
CAPEX:
1 l9 s& ^* u# C4 Y1 u- T. U( b, V% B" ?$ g! ]& V5 z3 }$ \3 ]
技术参数:; W2 b' J; ?* o% B; f
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
' S3 ~" P, L& z! `, L3 d0 }性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
/ e1 g$ [. {- f4 U7 R7 ~价格:: i( {! c {) \/ t3 e/ a+ o& k( w
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
# X( N; o2 t/ t. P! M! v结合国内报道:
6 N1 Z3 r7 f. G/ H2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。! x# O2 s+ p2 h% I# p: ]; p0 G
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
. l- Y6 F# v4 P: Y& SOPEX & 能效:
, f- W$ j: |4 u N7 R: K' m" A! h; M3 D4 t8 p
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
1 D. d- r' a3 ~' R在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
) x: d& N$ d5 T3 _5 D六、综合比较与策略建议/ t2 d7 @# z& U- u( r
6.1 区域维度:在哪里建 AI 数据中心?
( z- \$ w A( O" p; h) L纯经济性(TCO/tokens)排序(假设无政策/合规约束):! y. P9 H7 _4 u
+ h+ [) u4 F2 `! s中国西部/北部(电价低、人力低、建设成本低)0 _; i2 O' w+ |' ]1 c/ s* X
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)$ }: w0 ~$ a, M) s
美国电价低但人工高;东海岸/加州电价上涨压力大 f4 p: a8 M, E' ^6 u# {# ~( X; u
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
$ p. \2 x) d* o4 Z5 t若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
* G- S/ S/ n$ D& I( }0 r. G! W% Q
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;6 {3 N' g! f* |8 j4 ?
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;; g1 W2 p6 e% n! R; I3 o U8 x, B" C
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。5 e% F6 m( m, G- x
6.2 技术栈维度:选哪家芯片/云栈?
3 B$ S: Z* n2 h若目标是全球最优 tokens/$ 且不受出口管制:$ x5 Q9 m- ?; }5 s8 d: L7 P0 P
$ E. D- i: @! `9 f/ T& H
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。# {- i( I0 Q* |% j2 Z5 T& R( S
若在美国/欧洲,能自由采购 NVIDIA:
+ z" n2 ]8 L4 w; l$ U" ]* F9 g# x/ S( a
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
( a: U$ S- q7 C8 A2 w. P; b7 I5 U成熟的软件栈与生态,极高的 tokens/s/GPU;, \/ f4 o8 G; n6 n
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
; }$ V. H% c0 p! @8 P但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
! W0 C; ?6 @( M2 z/ D$ |' v& O9 U若在中国或存在出口管制约束:
3 \$ E( o3 G4 F$ H' q! Q5 e* V& z/ }/ m# ^* v8 _9 N) l
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:. i7 Y! t) z4 w. F
性能上已能覆盖大部分 GPT‑4 类推理需求;
1 y/ r5 c. R0 D4 p# \单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;2 e7 _% C9 t- }
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;+ Y0 r! s9 z0 u+ l' h2 l( Q" t) u# _
建议配合:
- G, i; S1 b9 w4 R2 @高效液冷(PUE~1.1)、+ C& g: E9 p( u4 }2 h+ B
大 batch、路由(浅层任务走小模型/低成本芯片)、! Z1 w* e' A( F% w8 J
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
4 [( b7 C+ f% j0 c) ]长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:! r6 ?& T* a4 n# M, ]! A; j; w
( `; a2 w0 r! {! b( B8 m% B数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];% [6 R/ Y/ `5 t' s
这意味着:
6 W! Q' A) T" K2 t% B优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);+ u; n! w# d+ F! \% ^
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。' ]* z3 S- [. P2 ~
6.3 针对你关心的具体问题的简要回答
3 I- z# O" a* y8 r6 y( j6 MAI 数据中心建设 vs 运营成本的大体比例?
8 q6 L3 e+ @$ n, V W
; c7 O# S+ o! O; J$ t( Q' P! R在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。$ d4 p6 I+ |. t7 l- `
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。- m4 s5 p1 B8 x$ b
中国、美国、欧洲、中东的成本结构区别?
* t9 R' A2 z+ w& G& d
8 ^$ f8 [" ] ]4 s# d3 y( g建设期:3 y6 B) r5 W/ d7 p3 l6 C2 A; }
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。$ F2 E6 M5 F: Q, v
运营期:' g0 X: ` P A. W
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲4 l& d5 ?3 V9 L; K' j4 |) B# b* n% O
人工:中 国 ≪ 美 欧,中东居中。
. [8 }- W4 D) D, k* |在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?$ Y$ z9 T5 p8 ^& w
+ k. n G0 n W) K1 s& u' b
对于典型 1 J/token 推理负载:/ u, G( V) ]/ p4 S! k8 c
美国 $0.30/kWh:电费约 $0.083/M token
! k. M( T. |2 ~/ g! R3 R中国 0.3 元/kWh:电费约 $0.012/M token
5 w0 F* Q) _5 s0 r; S" O对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
n/ k! l$ L4 |6 m5 }0 t不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?. k1 W8 B( Z" |* D- w
! R1 }+ h2 z& m1 ]9 N$ a9 p1 g
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
* `% t$ [( G9 s! u. i& e, i. E全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;9 V# d* N9 y4 C; Q
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|