TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
% ^4 i% Q: l. w7 ?
1 x; `% V3 r5 A& P6 \ G- r一、总体分析框架与核心结论
7 v" o6 D6 L2 c1.1 分析框架概览3 Z% d1 ^& Q8 V% v. F1 x( ]
拆分维度
) I$ X8 R: V; m. A0 s! z( F/ m8 m+ R
阶段:
- t# k0 |( \ U( h- ]/ T7 c! n: V建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
3 R/ w8 w+ S8 V) O运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等' W; U9 j9 x+ W5 `1 C' z0 p2 q
区域:3 ~$ V% ^5 m# d9 d5 }+ a
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
6 b) n: q( W3 _技术方案:
. Z7 v6 i- W. Q( iNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)! o5 L7 T( o! r ?+ p) C+ C
Google TPU(v5e/v5p/Trillium 等): {( W# n6 u' O. ]
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
8 m: f( l1 X- T% O M8 R) r2 y& ~算例基准* l" N1 Y) i7 O& c5 [( f6 x; K
. A+ o$ i- ]( n2 z
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
( E4 Z" m; o4 P# E3 F其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
/ C. @! ?! _$ \+ ^! i& c; ]1 rPUE 假设约 1.11(高效液冷场景)[1][29]3 h* p }; \/ c1 f2 X/ P4 U
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]6 f( f" [$ ?* G0 I) |$ X8 F2 z
关键指标9 X% h% g8 y& N, T3 F0 h& c2 _
$ J# v/ g1 W( h$/MW 建设成本(含/不含 IT 硬件)6 j+ `" r0 w7 Q/ p# s5 O# |
$/kWh 电力成本、L/kWh 水耗) q/ L( Y' r2 a# j4 r7 o
$/token 或 $/百万 token 的综合成本; T: y, {3 m7 K% k- b T3 N
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]2 Z X8 H3 n7 m0 n7 X, h
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
! ] s2 D; t$ h1.2 高层结论(供决策快速参考)
, v, K {& y" m" D8 S. Q3 M# H, \: J建设成本:AI 数据中心相对传统云数据中心成本翻倍
" J# `- A, o2 j/ e8 a$ W
4 \( O" _) j1 H; a# n' V传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。" F, k8 e7 u- @
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。0 F# d' n5 V ~/ l3 X% s0 }
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。) q' N7 A, S1 d) R
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区2 b6 A5 [3 q5 [9 S7 V0 i9 q5 d
0 r' v9 ?" D& H. l中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]6 e2 ?5 e3 r/ R! r, R7 u# z
美国:$8–12M/MW,400 MW 约 $4.0B[1]
! F* M. W% g) M9 h' R欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
' p% I" |% M; G: z: w+ u. d/ p中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]
3 B% @/ P* w% K5 O: ?# ?结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。6 }4 a7 f) n% {
OPEX:电价与人工决定区域优势
" h% X4 n. P$ h3 o* Z2 ^4 Q1 j g! K5 b
电价(2025–2026 工商业大致区间):
" r7 T8 U I5 [% j中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]/ [1 d0 v/ O3 S" g
美国:工业用电约 $0.085–0.09/kWh[44]) s7 V7 a! D8 g
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]% z3 m A3 L! Q; c
中东/UAE:工业用户 $0.07–0.13/kWh[47]
( L2 E% u- m7 d5 \4 P& {人工:6 m5 k ~" y7 Z0 {% e
中国数据中心运维:约 $22k/人/年8 p9 Y1 _; u( I a' S) R% H( ]8 O
美国数据中心运维:约 $120k/人/年[1]5 k7 K5 @: g" r# I
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。2 K% j* }/ q' \7 H6 F1 J0 X
能耗与每 token 能源成本:能效差异远大于电价差异
' }% F& J; z* g# T
! Q0 v* E3 [# P8 O6 F% n* rIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。( P( E7 \- B1 r. I5 S/ w z# [
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
$ C9 T/ B+ v5 M! J7 {" E将 token 能耗约化为统一口径:
* p( |& ~6 @% E& u2 U: }2 [粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:' w. ~ x3 ]+ y$ k( i' I
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
% {( F$ G) q% G! g美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token! I1 T& e% U$ |& T3 k* h
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。8 Q& P+ j# x/ U2 G5 W$ n
不同芯片方案的核心差异
' J; F2 a- b7 p& k' f
+ d _5 g( v/ W* ^NVIDIA Blackwell/B200 & GB200 NVL72:
( q! b: ^2 y& k: f5 i单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。2 M6 |; w- [. _' k
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
7 h+ H' X8 T2 p& NGoogle TPU v5e/v5p/Trillium:
2 l. r8 y2 F( n: i- q2 GTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。& m( q1 L; s1 ^" E# V# H; c+ j/ W
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
# M1 I" z! r8 i% I8 t# R* \5 g) g华为昇腾 910B:6 p0 G$ s. G+ e9 d6 j0 f+ ?
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。$ G q9 y9 S! U2 D: K
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
' i; J. h4 g* ~阿里平头哥真武 810E(Zhenwu PPU):( i+ b4 ]: t$ e, {
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
: p" ^3 y5 @2 [3 t; t结论:1 B5 i" I( r$ b% s1 _
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。6 ?8 `: Q1 s5 f& `
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
4 T& o, v$ j* Z- h对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。* i0 P& l# A) k2 S" h! ~
自建 vs 云租的 TCO 与 token 成本
J# K& y: v) O+ ]: @& i' E8 E" C4 V. F% l
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
) n# V2 G8 s$ J i Q1 d3 {8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
" E! B' v2 D2 { u, h0 x8 M等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
5 }5 c S/ n: A& [8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
0 J1 z& s5 w' x( i, ]* UToken 成本对比示例(LenovoPress 场景)[28]:
0 R- J2 R% e( \; PLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token$ r3 M p' C% J2 u
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
: b- D6 N, D' b5 N% \7 s同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
; Y2 ^( O7 G" k% m# r `% [Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。8 X& A) i7 P, y: E) d8 e! u u
结论:
1 U) V" Q! c4 s* B, [$ G0 _高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
2 s$ B' V! [- G! T1 J% g. aToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
0 J, M4 X, h* L3 n二、建设期成本分布:区域对比- z5 w( t9 [) r6 W; a% \
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
3 B8 o# S* d( A' R2 t' o$ v! A
: W- T0 C# Y/ K/ K% A2.1 全球/通用结构(以 1 MW 为单位)8 K$ v# r' a. D% C
综合 JLL、ConstructElements 等[2][41][40]:
% R1 L5 @6 b7 d
0 l9 v, `7 v* T7 J; g" c壳体+机电(Shell & Core)6 s/ L* q* d6 b0 b1 E8 u
) j, x/ i6 u1 t& I' f全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]) I% b& Q* Y! z. z5 u( X
其中按成本构成[40]:
8 D) E$ z) |7 [' N, Y3 ]5 f电力系统(变电、配电、UPS、母线等):40–50%) X9 a. E, R2 l$ q2 D: q; R7 m
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%: s" Z" o( A) z! q; K5 F7 o
建筑与土地、结构:约 15–20%
5 w1 ^# W/ }! o9 y8 Q* S其他(消防、安防、楼宇管理等):约 10–15%, J6 n9 e* v: ?6 _# G7 V
IT 内装与 AI 基础设施(不含芯片)
1 _3 S- {% [- y9 ]
y5 r/ R' `# P1 S高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。, x' C1 Z7 O2 W) n5 \. S
GPU/加速卡硬件 CAPEX
$ i* ?0 q7 X6 i# j; p1 m7 `8 F4 [1 Q) o4 R. H. {
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
, F! A7 X* L) f. T8 A2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX/ C2 Q. v4 O" j. b& |# O* m
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
# B. w5 X, N" c8 `/ u
8 w/ n: ^: W, p$ D6 [3 z% K区域 典型建设成本(壳体+机电,$M/MW) 备注; R7 B. {7 r) G
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]" x1 \+ x7 ^5 z
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]/ z# H" Y$ h4 h& f
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]! i6 M5 D" q9 n' ~
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]3 Q7 G; y3 B& ? _# C% |# u
结论:& t% i; m- {9 x; P% k
P s& n6 [9 l( L* @' }( D! C单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。7 M2 X1 h2 T, l6 E' W
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
8 f5 P8 Q1 C0 U j# L. f2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
& a2 L' k) b% N( ~7 r! L以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
& ?# E5 {8 N% |/ l
2 W8 Y6 C) d1 a }/ R假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
3 v5 N z- }4 O2 e8 A% |GPU 配置:
) z* m0 b' ?; F& Z, S$ r有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);4 A' P7 n- ` O) ^( W0 K$ T
每 rack 成本 ≈ $3.0–3.35M[34][69];3 T- ] s* r1 Z8 T! c& {5 a
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
5 I. H% r6 i7 {9 E与不同区域壳体+机电组合:
' }8 h& ^( ^/ Y: Q
5 t& I) t7 r" H, J以中值估算:% y7 a4 x- k) n! @1 T
' P4 W; U. h& G- @" M2 U' G, g! J
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
$ M* e: `2 S* [6 P: {# f) f8 m% G美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B) Z+ ]5 J6 @: @( ]$ e
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B* G2 q# B- ^2 J: d) s8 ]+ J& K! z
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B3 V: O! F' A9 i. U, s7 u2 s6 v
可见:
6 Q8 _1 w: i2 Y! J. R/ @, U
- D b! k& [. w, o0 _GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
. J. C, ?( v) W- M3 ]7 Q: Z相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
7 [7 @9 z5 g, v- F三、运营期成本结构与区域对比9 c0 [; y% f4 l) N5 b4 {* ^
3.1 通用 OPEX 结构(高密 AI DC)
0 O; P; ?2 d" _( m1 W, V8 Y结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
( a* Z8 @0 E5 m$ ?5 _: ] c+ z; @( `
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
1 Q$ ~* D. d3 G, g* D- x+ R冷却与水资源:7 P; t& o% \- | h
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。9 n- R9 p7 H" F8 o1 [0 R
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。% n! s7 \+ J0 x1 n0 S/ H8 w& k* ~
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
Z/ s6 C9 T- {1 V* c- z$ Z& S托管/物业与维护:; E$ D$ E! ]: i* `
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];' n) s2 Q- b% j
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
/ _' c) d0 ^' S, Y) [3 j3.2 区域差异(以 400MW / 3 年期为例)% O, l& C3 C1 b1 D% U
使用 ChinaTalk 的电费与人工估算[1]:, E; |8 f( G w5 d9 z! s
, k# H/ @! b1 G电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
7 U% o8 T3 Z) s中国:约 $0.06/kWh → 3 年电费 ≈ $350M" l2 {* B7 {, e2 Q5 e
美国:约 $0.09/kWh → 3 年电费 ≈ $600M+ V! Y- g4 T5 \/ z+ ^( w* I& e2 b
中东:约 $0.07–0.10/kWh → $400–550M
; ^+ C' H7 ]) c( O' c6 w( B欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
6 o' P( E, M( x水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
" @* L9 i; Q" s: i4 v$ {美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]6 W0 l+ Y, x* y' ~
三年水费级别:& } e8 e) J( t7 U$ z$ @
美国:$40k+. j/ @2 Y2 b3 j' ?$ P) E
中国:$20k+6 }2 O: a. G+ o j* A3 b
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
, c! f% g# e; x2 x V h人员成本(3 年) – 假设 500 名全职运维:
* h7 b# N9 M- q2 S3 b5 s美国:500 × $120k × 3 = $180M+1 M5 @/ C) d* A7 q4 g; v
中国:500 × $22k × 3 = $33M+& t7 [3 {" Q0 ]" C" ?
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。# `0 ^5 F9 q+ h! P; B4 t
整体 OPEX 粗算(3 年) – 400MW 场景下:
; m* @4 h& B o' K& o- P h
4 c& H3 [5 @2 q项目 中国 美国! _4 r/ G/ W0 H" H5 \$ W8 O
电费 $350M $600M9 n* [* ?& T3 W3 d! t
水费 <$0.05M <$0.05M
" ^, b5 T9 C1 c; I3 H E6 {人员 $33M $184M$ K# E4 a( P4 s
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
& n$ }3 E G# T; [结论:
6 h: R# m0 B$ T, P* s" c: \* w- i: b0 P5 V5 }! J2 _2 {+ J
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
( X/ F K4 j9 ?! B2 f, V9 S对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。' E; {7 } w3 L6 R
四、基于 token 的成本与利润推演) w( j! h# M- \3 X
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)9 S$ q$ c7 Z- d# e0 F7 X* ?- X2 \% A
统一假设:* B' Q' i; C3 {9 `, w! ~
; o# N6 I) N" X2 I* w典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18]) a9 J& W( y* ^5 y
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh9 L. d' t7 U6 ?$ U
1 百万 token:278 Wh = 0.278 kWh
% |, F$ | T2 @" h5 O2 K0 P场景 A:美国电价 $0.30/kWh
7 E) J# w0 C2 \& t* N3 A电费/百万 token = 0.278 kWh × $0.30/kWh
_0 ?: A9 E0 B≈ $0.0834 / 百万 token$ H+ H9 R; ^! f5 j$ w5 L4 ~: N$ }" {
场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh5 _- r6 C8 @ U! G! J
电费/百万 token = 0.278 kWh × $0.042- F! F. U" [* X5 l6 @, `
≈ $0.0117 / 百万 token
0 d! B: c& A* W对比当前 API 价格(OpenAI 2026Q1)[62]+ A& [6 |: z8 _2 Y: U$ C* e% y
以输出侧为主(成本最敏感):
9 [$ B' g5 l# p1 H$ E$ J1 P
$ y# z' B! m0 H: J模型 输出价 ($/百万 token)4 \- F4 S3 n5 |; G
GPT‑5.2 $14+ D5 c! X7 v# z% W, j% W; Y! T, f
GPT‑5.2 Pro $168
$ C* A. A! N# \; I4 J! JGPT‑4.1 $8* _' E* d. A9 B. Y. x! X% K' e, F
GPT‑4o $10
" R) |8 c v/ U z9 F. [7 pGPT‑4o mini $0.60& g- _3 M" Z' Y {7 a
则:
( M5 R+ u. w& [ U/ v
$ ^+ g8 C, _6 v3 N0 G& l. n在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
R0 m' n6 e* n T在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。9 v: O& x7 M. T
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
9 A2 ^ @* z! B4 Z结论:$ I0 k" S i. y v8 O: u% A6 X2 R
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。7 X) ?9 [1 q4 M
4 {) G2 z! _. ]4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
. m- k# u. K( s+ X, t4 }$ }1 o( e以 LenovoPress 的 8×H100 Config A 为例[28]:! b4 M+ d9 w6 u( _8 X. ?5 o
$ o$ H! x- m( G$ F: o& {
5 年摊销下,8×H100 本地推理 70B 模型:
, k3 \- g: V9 n* `% o, c! u小时综合成本(CapEx摊销+Opex):$12.08/h
F' X% m1 d3 ]" V- [吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens% x6 N' w4 X3 ?9 c! d. ^
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token' `* |* h: ^$ z/ |+ S6 w
电费在其中的占比:
* a- @! q( N0 M$ AOpex 6.37$/h 中电力+冷却约 $0.87/h[28]# q9 N( o5 D$ o( M, I
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token9 ~& O+ ]9 b9 E# f
电费占 总 token 成本 ~7% 左右。
/ K, S3 O/ T! N7 W若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。* A2 ~8 T) T- w
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
% s8 [; H e, X0 s+ S( c5 o- ^# t
因此:
' x7 `2 G5 F8 s( ^
7 @5 Y% \7 N9 y# S在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。& m/ s4 l: L8 w2 k
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
& L" H. Z1 t( s五、不同芯片方案的建设与运营成本对比
/ c4 _( Q+ L1 w) p5 }5.1 NVIDIA 方案(H100/H200/B200/GB200)1 f6 V7 l9 @" c* M2 J
CAPEX:
* g) J0 |# a+ K1 g+ ^8 M
! {) T( c# F7 S5 K, p0 WH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
0 S+ e) c, F: ?, ~1 v6 g9 @" @. XH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。3 H! D3 z7 C7 L1 Z6 F: m ^
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
+ K0 z" g( ~4 R# b) q" K/ w5 `GB200 NVL72:
6 I2 B. E5 x1 x0 o' l每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
$ |% x- v, ?; q3 z& }4 x* b; F冷却系统每 rack 额外 $50–56k[35]。
7 f; M7 N! ^0 h+ U* K( E在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
& J( C# I+ {7 v" FOPEX & 能效:7 d6 A3 l# W5 j) y; y5 E
+ x1 Q9 D8 o" |' e' v
单 GPU 功耗:* a( H7 `# s% M- V* |- I
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。, a, H; }5 b4 m9 I, {
H200:功耗类似或稍高,但性能/W 提升[9][10]。
5 x5 `1 Q; u3 \+ p/ pB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。1 @. ]3 r" B" ^ ^* g6 c. v
Token 性能:/ \/ c. U( `, z$ q3 ?( N3 k
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。. m; Q9 B! _" M$ s
NVIDIA 的优势:
3 B6 [% L( f/ j+ ^1 @$ ^+ V
# o1 V4 Q; A- }. o. z8 I软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
% }# T, A% I- \但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。" `& S$ k' S$ y$ P9 L- q
5.2 Google TPU 方案
& Q2 j; b, p: O, a& l+ u: S0 _/ fCAPEX:1 V; \8 l6 `7 O4 u) E" z) K: W
5 d+ U2 x, g6 Q% F, n$ o! z
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。( ]) c. E# E' ?
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。0 p l' N3 B& c- Y V8 D v
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。' R6 i6 @+ V# x9 U9 e
能效:
8 f& H- n4 f7 n, d' i; j; e
: J6 P* G7 c1 m0 d% [) }TPU v5e vs H100:
( U, `' }( d' n' j/ {0 k同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
- e. W# r: f0 g% g测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。6 `' ]4 W/ v i4 ] l
新一代 Trillium/TPU v7:) s. E- b" `* L# v
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
" B% b" V- z: _Google 方案的特点:
: P0 A! T$ O, S2 _2 @2 v0 K, `& h) i! s- z h
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;2 ?1 @' D1 T$ h0 m; ~
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
: d# h( D! D$ t5.3 华为昇腾 910B / 910C 方案
3 b& N: t' ~0 iCAPEX:4 C3 B2 U0 d6 e6 | h9 ?
. d1 |4 K$ ~2 n! J, G5 T2 t/ g
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。; X4 C' X" W+ f9 r
与 A100 对比:$ f% \- H/ Y r7 R; k
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。* L1 r1 h- }0 x( A' i+ J
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
- `/ l k, p4 B3 l' _+ m使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。, ?: k- \( w! ?6 Y& p
OPEX & 能效:
' J- c- A9 |; m {% V; A/ o+ |
9 N: j) d8 F5 p. e, Q' [910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。0 z! A3 f3 t( Z, V6 b4 d5 X1 f# P
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
! |( S5 }) ^2 {8 b7 j6 z在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。: D! K% _ C6 H4 C9 `
5.4 平头哥真武 810E(PPU)方案
k3 W3 |9 f5 S' b' q) yCAPEX:6 {% _. H+ x* | J2 M6 q5 z; a
4 U* v9 G: T! Z: r! S1 }
技术参数:
; V8 h: T9 }- Y+ J- d& j+ P96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
, u# w. b0 @! X# T1 l) W5 l& D( T性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
q5 U) n$ Y3 R! w7 \1 ~3 w价格:2 J% I* \6 E) O4 Y3 |0 c
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
- x9 N0 G' Q1 d6 v$ @) J) x结合国内报道:! |7 o8 u/ F( i' o
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。4 v, Z1 u5 |( }: {
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。/ I7 l. \' ]1 ?+ H4 p
OPEX & 能效:
+ {( A3 ?$ s; a& y: @; `: P t9 \
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
/ t6 Z% s# b4 P6 d1 ~) ]在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。+ D: {$ S7 }) P4 {: I, _5 Q
六、综合比较与策略建议- _7 J6 O# K: z* p# C; Q" u
6.1 区域维度:在哪里建 AI 数据中心?
# s. j, S1 N) _9 T' T, ~! C纯经济性(TCO/tokens)排序(假设无政策/合规约束):
; e1 s, E* e0 S4 i
" ?( U" b7 N, _' ~; U中国西部/北部(电价低、人力低、建设成本低)# U$ _2 v5 Y5 @$ l( l
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
7 W3 n% d3 _6 B Z. W) v" r美国电价低但人工高;东海岸/加州电价上涨压力大. a6 R" o+ [6 P9 e
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求3 |1 u4 Y) T& r/ P" l6 \$ t
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
H z; b% F( Z6 N' V
: M9 H; {/ O( H$ l纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
6 N3 I. S5 @. G2 \. V% T' ?+ g1 u对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
t5 q4 `/ Y S但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
' V7 z! E- g8 s2 I- A$ H9 C6.2 技术栈维度:选哪家芯片/云栈?
5 f4 B, R5 F8 T" `1 {' m" H+ g若目标是全球最优 tokens/$ 且不受出口管制: v$ Y% z. s# M, N! f" L
1 G/ G) e5 K8 q. NGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。% G5 D/ {& }. y! n: ?
若在美国/欧洲,能自由采购 NVIDIA:
7 }; y/ \" a7 j2 x& R" p4 Y3 x
: I l) E7 m& R) f# [- }2 V V短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
- r! \0 {; z; ^# r8 |5 Z6 Y# u0 h成熟的软件栈与生态,极高的 tokens/s/GPU;
$ m& x0 g( P: a( r在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;' F" Q: }2 f' A% U' N
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。% N" M% W# t9 `' T
若在中国或存在出口管制约束:
# n( ~! e4 S! K! _& u- `( V! g
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:- L, ~! x4 k o3 k
性能上已能覆盖大部分 GPT‑4 类推理需求;* y, N# u' E$ u& d) O9 I
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好; H9 F5 i; b3 `' n
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
0 |0 |2 g5 ~. O/ l! C$ z2 D m+ N建议配合:
) Y* a5 s- A+ R, L' B6 _高效液冷(PUE~1.1)、9 u. g" O' t1 J4 L" P; ?
大 batch、路由(浅层任务走小模型/低成本芯片)、
! u3 Y- X: h! c' u& I6 R; C6 l强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
! O* `2 }! ]: H: A7 E7 N3 F/ p8 j长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:' M3 _7 [8 A4 P9 Y
/ {+ {, {* a7 o+ C- t" g
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
5 }" Y; k& ~" S; E这意味着:5 |' n7 ] n8 F, Z
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
3 E! k# ~! o+ L" J* ]精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
& T& n9 @4 G% |: j6.3 针对你关心的具体问题的简要回答) s$ e4 R# r, e( C2 M
AI 数据中心建设 vs 运营成本的大体比例?4 ?9 c# f" Q' b0 r8 b' e
1 s+ C" `$ n R- @: c* W在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。$ ?2 ^" s: l& z" B7 E
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
5 R h4 P! _' R$ ]" E: A0 i! Y中国、美国、欧洲、中东的成本结构区别?
' S' e" P- f2 `& h4 E: q7 y+ \( e0 h& }/ c) S& c
建设期:. Z! ^. O. B; {' Q
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
! W( [6 F. q) W% p& s C运营期:1 w8 f+ B- f: B. n# r4 @3 M
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
+ ]7 t2 f( F" o) Y7 _人工:中 国 ≪ 美 欧,中东居中。" ]; U5 O" ^& @- z9 `
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?, g' l1 ^9 k7 G) |& c/ u
: ~8 G$ k9 z6 N* P- _0 v1 {( a3 c( W
对于典型 1 J/token 推理负载:6 G! J, y7 p# J' U I: T
美国 $0.30/kWh:电费约 $0.083/M token! h# ?) b+ w0 c, g7 \6 `# e+ r
中国 0.3 元/kWh:电费约 $0.012/M token
+ K& J" i7 r6 x n8 P. @对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
. S. `" c3 q. p* @不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?. _* Q: I# {; o9 }
) ^% `& H) d& V& @
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;8 H3 e2 j1 U5 \4 g6 _& c
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
4 l0 l" y* M/ y" i; e' k& q( N. E( d中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|