TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
/ A5 k6 t+ ^3 ]% P& \/ P f# k
: V4 B2 o% ^" b5 H2 a! n1 Z一、总体分析框架与核心结论
0 e% L) M1 d8 ]0 z1.1 分析框架概览- \% U% P- w: E Z* `
拆分维度; V' B7 g3 n/ e$ J, O
6 M/ D, J% O8 n ~6 P P6 {阶段:
2 q6 L7 A* S5 P, M- L6 ` U `建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施: E4 e0 w; j5 v, A+ y8 W6 i. D
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等- y" F c9 c4 ~" U2 @2 U
区域:1 w0 |; c4 K# _
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
' U& {- R8 R4 b技术方案:
$ }; u7 i u4 J7 Q, cNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
: o5 X% e3 B1 V5 O. W: p$ HGoogle TPU(v5e/v5p/Trillium 等)
- K$ l! x) }1 i! o/ g& F中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
O* r d9 c- {( E! C算例基准
9 u. Q" F* F" F8 ?4 @2 P% C4 W8 w3 k3 V. E" e P% d
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]: E$ W5 @ k$ g* R" M# \
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
& T$ K1 Z1 t7 KPUE 假设约 1.11(高效液冷场景)[1][29]
: M. T: ]+ b5 m/ _, h时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]' `. l' z# b' G
关键指标
- e/ L& G' B/ d9 l
( C4 \& \0 v4 e# D$/MW 建设成本(含/不含 IT 硬件)
4 U( v2 f! K. }! p$ |9 x# l$/kWh 电力成本、L/kWh 水耗
& X; f1 K; y: \& E: q$ a `$/token 或 $/百万 token 的综合成本
$ u! y% \% ^" \3 s* a' Z. z0 oToken-per-watt / Joule-per-token 作为能效基准[17][18][26]& E0 R H0 D3 L, ?0 E& I" C% P
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
. V, T4 _, \1 ?6 B9 ?$ W1.2 高层结论(供决策快速参考)
- {8 J) |, d3 y( G$ A" _建设成本:AI 数据中心相对传统云数据中心成本翻倍
! J* ~2 S5 `& ]3 i7 u* q5 Q" v- [5 F$ \" u% O7 K
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
1 y: e# P4 Z$ O% HAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。; _) _3 K w6 f+ ~7 l3 @5 }
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
2 l6 J& i7 w+ z u区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区$ w4 }/ }, Z4 l' H
0 F& P' J. ~9 s7 U) W, o) ^( H中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
: O( a3 t9 Z; r* r: h美国:$8–12M/MW,400 MW 约 $4.0B[1]2 c# k: v; y1 ]' V/ B, u
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]+ a& B, B4 K. B) Y5 ~. O" X
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]7 F' _" C9 _: Z3 }; g# @5 I* T
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。/ s2 J1 q* K! a+ E' F% |+ |8 V! o
OPEX:电价与人工决定区域优势
# g! t; {9 p* D7 ^! q* u/ A0 P1 q7 t) C+ |! c2 @) d5 h
电价(2025–2026 工商业大致区间):
) F5 c1 R1 q1 U. X中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
# k0 a, E# @. } O) y' U美国:工业用电约 $0.085–0.09/kWh[44] r/ O. H' ?$ ^7 d0 d" z- C+ {
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
( k" m" h: m4 w- q$ S/ o中东/UAE:工业用户 $0.07–0.13/kWh[47]6 b0 _+ J. r' ]8 y$ w% S
人工: [0 { X: c u- c4 \) [- d& k
中国数据中心运维:约 $22k/人/年- f) N$ K. [7 G; }2 r( j7 M# Y& O
美国数据中心运维:约 $120k/人/年[1]* n% K* }9 w5 b- ?, n! m9 j8 i" b* W
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
) `4 `, X' G6 M) @$ L能耗与每 token 能源成本:能效差异远大于电价差异" o( `. P# M) s7 j! N, U
) J. U' h, ~5 f5 Q$ wIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
/ f4 R: V3 u( C大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
% F4 g( M5 S( r$ z6 s, e将 token 能耗约化为统一口径:/ m2 B, @2 a7 y6 }# j3 B7 n7 A
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
' F) x8 O" e1 ]; T4 T中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token3 n( ]( j' ~3 q; Q) Y4 D
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
6 D$ T7 C5 l( ?' ]+ V对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
8 \4 N b) f0 m9 h+ D2 w不同芯片方案的核心差异
X& O/ z. ~0 Q5 y0 Y
: u$ e* ?, a5 ]3 TNVIDIA Blackwell/B200 & GB200 NVL72:
# R5 V5 |/ x; F/ v. N单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。+ A/ K& k) w6 W" c( q
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。) P9 b4 L$ | O/ R
Google TPU v5e/v5p/Trillium:- ~( r+ n0 i$ Q
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
1 O& E4 i- S* M4 I: z2 m% U7 U) d% OGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。* h' g& O! z& t" {# d! ?
华为昇腾 910B:
7 j" d0 k% J7 i0 P; BFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。" s L- a+ ^; e
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
/ ?% k* }$ V) k! E4 E, N j阿里平头哥真武 810E(Zhenwu PPU):& X6 I7 T1 n! L
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。1 d" [. [# s/ W: W% K
结论: I# V @" v0 }, j& G
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。0 _# t- ], x/ K6 ?$ P" i* C2 u9 A7 v* a8 d
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
9 _9 f2 J) p$ i- p& C对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
& H8 L& `/ X: |' ^9 y- c1 d6 N自建 vs 云租的 TCO 与 token 成本
8 n7 v5 Z: {9 a) W# o2 n
4 z; \3 [# k4 z% r2 h6 P2 kLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
, W5 W2 F+ Z% t2 w( ?8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
1 h# a6 V% Y* M- F- [1 R" F; I) k; b. m等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。+ q, {4 B3 D1 H' S
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。# c& d" }/ i' a* ~( h! @
Token 成本对比示例(LenovoPress 场景)[28]:8 s) ~+ @5 I. ?- c8 N
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token; V" @2 z, c! |6 B `
vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。+ q8 T4 N( n8 [& e
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。9 u6 z: l, m; N, ]. Z
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
8 P( W% {4 [& x r结论:3 R* h3 Q7 G1 a9 H) c) O. ]
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。$ U0 ]3 y' r$ _- {1 R2 Q
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。. M; h0 b& i$ U2 K7 Q4 {
二、建设期成本分布:区域对比. F" ~) A8 l5 r+ Z7 d& u4 y* m9 `
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
$ t. P* M# k* h
% \8 t# i; I$ @' y- D( R% o5 E2.1 全球/通用结构(以 1 MW 为单位)
, U6 U2 S. k1 u i1 r W# Z综合 JLL、ConstructElements 等[2][41][40]:+ J" J, h4 S6 _: j
' C) p, d9 w( p1 _% w5 a% b& h
壳体+机电(Shell & Core)
9 _: o; W- m; ^2 }# }
_& l7 Y# A7 f. t/ s" H- g% b全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
4 ~: t9 v$ w, _% U其中按成本构成[40]:$ U! Y8 { o/ Y. T" R9 [7 _
电力系统(变电、配电、UPS、母线等):40–50%
1 J# |9 b: P/ F t6 E- M机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%/ m4 }- C0 F4 _
建筑与土地、结构:约 15–20%
6 p7 b& a+ G9 [其他(消防、安防、楼宇管理等):约 10–15%
% S! F3 T8 @) d& ?! eIT 内装与 AI 基础设施(不含芯片)/ m+ A! t4 s. J
0 g' o Y* C0 o6 P, X
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。% w4 v$ p( x% Q3 k( E' N$ N0 ]+ h
GPU/加速卡硬件 CAPEX
* G. _$ K$ k1 A8 J% f" |/ ^8 I& ?0 W8 k$ \9 {5 a& K5 S" \
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。# a% ]" @( L" ?) [8 T1 d* F" t
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX; n* x2 H0 m5 ], Z3 u2 u. g0 F2 v
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
! \/ |5 x/ T$ W. W1 m& ~+ w4 i2 m
, ^# ?2 T& b: p2 q3 R- ]区域 典型建设成本(壳体+机电,$M/MW) 备注$ n/ P+ Z; B, q
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
* l% K+ v0 g' d( y1 [4 {美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]0 A( E- g. C3 N. w/ y7 U2 L
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
: \4 n W% w) o C中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
6 R1 z6 R2 v) ^: e) e0 n g结论:
4 `& g( s k* g% F3 F& e9 \' K2 {5 @$ a1 Q( _% c
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。 K- s5 p) {# d
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。* j7 @, q4 }5 ^5 o! n% o
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
* a; z# i1 L# X6 I U8 }9 u% ?以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:0 Y; S) P' C J4 r O$ r; b
% |; B) H f" u( \' v; E假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;2 w4 g( a6 p; N8 V+ ~
GPU 配置:6 E/ {! A3 q: {( e( L. _
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);# H K4 h' |0 O' D/ c& g7 Q( K1 g: r; Z
每 rack 成本 ≈ $3.0–3.35M[34][69];) [: ^5 S! y; w( U
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
" w# d7 z6 y- b4 C" O与不同区域壳体+机电组合:
' t& n( g3 g [$ q7 y' }- A) D9 q- Z# t% L0 X9 o( A* W! D
以中值估算:
$ Q. H" r5 h( @* a5 w% c
% i" _4 W0 B6 g" O中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
% w4 B; t& F) t美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B2 b5 n: k+ ?! R0 g6 m1 V
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B) {3 c& V* j3 I6 F( n
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
: u: n1 R* v$ G/ c8 L( ^* G可见: } O K: b# Y" E" C
& D! ]' u9 S" O. V; j9 E5 z
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
- T6 @3 {+ [5 i8 n' l$ G相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。" a+ f$ o9 o& `9 o, t
三、运营期成本结构与区域对比
/ r- w+ W% r/ r0 I1 B3.1 通用 OPEX 结构(高密 AI DC). D+ B2 M6 _" i* d: P( j
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
) W7 m' X; \) ~7 K
0 p, w# m* U" G/ o8 y: J8 I- P$ p6 w电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
0 C8 E4 U, g5 A( y1 a$ @) I冷却与水资源:
0 q& g! r7 k# _! o+ T% g能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。% E6 U1 V$ F2 s! x
水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。) e$ u0 o& w7 k& | w* a/ L3 _1 }
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。% S/ m9 I- R2 P; {1 }
托管/物业与维护:; k/ F( G( |6 `1 }) I& O
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
$ g9 v4 }3 H8 y1 ]8 T硬件维护:LenovoPress 模型中按设备价 12%/年[28]。0 v' f' w7 h: v' c% o9 A, K
3.2 区域差异(以 400MW / 3 年期为例)
. S6 y( n! K) M* n使用 ChinaTalk 的电费与人工估算[1]:
/ u1 T+ @0 d4 r% @* t% W5 {5 F2 K( p' Q& |4 H7 ^% c
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:" ]3 C+ I' s" [0 e1 u
中国:约 $0.06/kWh → 3 年电费 ≈ $350M) J. n5 I* m2 n% [
美国:约 $0.09/kWh → 3 年电费 ≈ $600M" L+ T, E9 e( C+ p# L
中东:约 $0.07–0.10/kWh → $400–550M( b1 V5 B$ Y3 l# z6 i8 b
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)0 z! v, Y4 H0 Q# \, W
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
# i" E- E% i4 O. C+ S美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
0 r6 }5 v' P/ |- P1 a三年水费级别:$ ~7 D. a- Y: L6 J; J
美国:$40k+
9 T9 U% i% B2 E/ L Q6 Y中国:$20k+. }0 [2 v1 X7 K" q- A
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
& [: i6 s# v* J5 h! }人员成本(3 年) – 假设 500 名全职运维:& L, Q, e# f' ~. `% ]1 n
美国:500 × $120k × 3 = $180M+- M. V3 }7 P/ R# h- n3 ^1 z
中国:500 × $22k × 3 = $33M+: @4 j9 a- a/ A1 X
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
# l1 w) S4 Z) q整体 OPEX 粗算(3 年) – 400MW 场景下:! `% n. O6 W. `* D) s3 ~
5 S' T1 L. g) B
项目 中国 美国
& @) f3 ]4 l+ N- d0 y& T7 j/ n电费 $350M $600M
: v }. Q0 p/ [2 ~5 D- x. ? K水费 <$0.05M <$0.05M
O* [+ `* A1 S" ~7 Z- |% F人员 $33M $184M0 V5 f) l2 Y5 X' n" }( V, f
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
' q) Y( }; u! a$ p结论:
4 j' ?: `- G" N8 l- K
( `, @; _& v0 r( H/ F s2 L就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
U" S# ]; j3 C4 x/ J对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
8 ~# G) b8 l7 w四、基于 token 的成本与利润推演
3 q- f( R5 o: G, N4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)5 i5 i+ ]* Y$ K" ]( i' x
统一假设:: r" h9 a5 [4 ~: y& h
' r$ M8 k1 h+ [: i! m典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18]). ]' w, K9 {; `7 A5 Q- n
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
7 m$ V. l: I3 c5 F$ \% n1 百万 token:278 Wh = 0.278 kWh
! J5 Y2 ]( s5 \* }/ t. p f场景 A:美国电价 $0.30/kWh
. X! \5 T8 v2 b) |- z# R% {电费/百万 token = 0.278 kWh × $0.30/kWh
. H) M- T% ] V' U3 s! v. e1 T≈ $0.0834 / 百万 token
/ X$ {5 F" x3 I场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
1 l" n) b0 i. j& M# y7 u3 N电费/百万 token = 0.278 kWh × $0.042* G/ \; Y% C# g5 b4 x7 J. O
≈ $0.0117 / 百万 token
" y/ ^/ f1 \$ i$ b0 D8 `6 [对比当前 API 价格(OpenAI 2026Q1)[62]( h: M: }7 \* \; h2 E& S
以输出侧为主(成本最敏感):
! t. B% G/ D5 q- K9 w, L, `8 v
/ A" i% e4 ]7 g& I2 T4 t& m0 r模型 输出价 ($/百万 token)
8 E: @/ V2 x2 z# hGPT‑5.2 $14
) b9 n: j/ E+ `4 e* A. `; F: EGPT‑5.2 Pro $168
9 U: d8 Y' |- I/ u6 Y- V# KGPT‑4.1 $8
/ F! \. F5 k3 r4 b9 `3 EGPT‑4o $10/ D2 j1 Y/ {+ L& \; S
GPT‑4o mini $0.60 b/ |+ a' z1 `5 A
则:
8 X! f4 m8 l8 [9 \" u3 @7 [
, b0 ^ J) s1 Z+ J) U0 g9 D在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。6 F. t: X" X0 ], k
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
8 D# S- [6 J4 F* i5 b; R0 r0 q相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
: V* o$ l. [, ^3 W! K结论:
1 h: j) z7 [3 k即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。$ `) j7 V A+ ?9 r+ H
* n8 T) D. i8 a$ R# T- G4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)) e: C# t& t0 e- p- @4 b$ S9 E% H
以 LenovoPress 的 8×H100 Config A 为例[28]:, }9 d. a/ ^& V, S+ G" z' Y* |5 e& g
9 K2 w1 t0 L, j' z* x5 j9 W5 年摊销下,8×H100 本地推理 70B 模型:
; P, U! S7 Q& R小时综合成本(CapEx摊销+Opex):$12.08/h
" P: x# a6 z2 J0 R, |吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens! ^/ ^ ]+ m# C% @1 r2 ^$ X
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
$ C% ?( f a' c* N# h电费在其中的占比:
* p& ~. Q: N$ ^7 L) iOpex 6.37$/h 中电力+冷却约 $0.87/h[28]
g! B) H, _9 i) s* V电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token9 m0 K- `1 N. }7 D2 T$ ]0 F
电费占 总 token 成本 ~7% 左右。# P: u# {7 s3 T
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。; V) Q' y; [. ^7 o
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。. z r3 A# q3 @* m) n
d6 I! W' r4 O6 w因此:# Z* l. e) \3 O! u
+ O5 j1 c5 }2 s2 t, J- F在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。, W- r- A; r4 c3 r' J
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。6 j, A. A. |7 d1 L( i
五、不同芯片方案的建设与运营成本对比
: A& T5 ^- d) ^, d5.1 NVIDIA 方案(H100/H200/B200/GB200)
# w( ?2 S4 C& b% bCAPEX:
$ `" z, u" @0 U' H9 I- }9 O7 s* ]) }2 h4 C
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。* h2 M" h) |, z! X0 Z
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。5 ~- v. U- _0 A1 s( I S
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。7 j* @ s3 i$ U4 [' Y! o+ {- q
GB200 NVL72:
* V v. l1 F' Q8 ~- V每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。, a5 A# p# o$ g2 z
冷却系统每 rack 额外 $50–56k[35]。% I9 T$ z% Y' E- i, [3 K
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。) y8 S' w& U# H; s8 ]. i4 ?
OPEX & 能效:: b' K ^1 U% {7 K, t ?
5 A( U* z7 h9 _; u4 N单 GPU 功耗:
G f/ l% G0 ]+ Q' eH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
; [) t0 S4 C; V6 L/ WH200:功耗类似或稍高,但性能/W 提升[9][10]。
: p( t' D, l0 f( \B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
8 i' a) W& a4 ?- m* WToken 性能:+ i, b+ h9 @5 J Q, R' Z
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
5 s) Q: P& P2 q1 s; \$ VNVIDIA 的优势:
$ }. @& A2 f. P g; N6 m) Z
* z, H3 D2 ^1 z5 v" Z$ ~软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。. A$ x8 u ?9 j" d
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。8 a- Z/ m% | i1 H; V: R1 Y0 m8 e
5.2 Google TPU 方案$ L. e y; z2 L! W; C+ ~5 w& z0 W9 o
CAPEX:
4 m! ?$ [& I0 @5 p& E1 q5 m- G# c; r9 q) ?* s5 d* @
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
) u/ q7 G# j* _3 V* D& u$ xGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。 F/ b- \9 F+ P, P- B
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。: h) K8 D# F9 n' N3 ~
能效:9 K: s8 z B& a: G( |
+ e/ Z. c) g, q1 T8 J/ uTPU v5e vs H100:
" Z8 W8 H, q. [同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。 a8 V; L* M3 {4 G! B" g2 V
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。
! Y. ]2 F* ?5 E9 Z M新一代 Trillium/TPU v7:- {2 l' u5 U6 @" j q; b* N$ e
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
( s ?6 D- Z5 e- dGoogle 方案的特点:
; b4 e( k6 ]/ W; y7 s& P: M3 B
4 a6 I( m9 M" L- J; B自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;; h3 U5 N" L' \- ~6 h! Z* }7 d* C' }
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。 }! I- z2 o' `; |
5.3 华为昇腾 910B / 910C 方案" e0 w9 @; ]( _$ `& b) r
CAPEX:9 s) A/ }7 H/ H& k* g
1 }* C8 Y) p: K0 G/ d" N a单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
! r+ ^- ?2 u4 L与 A100 对比:
, x. x) l* i- @& t6 s% m5 YFP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。8 n$ n$ C, B+ A8 C
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
0 B. X8 s5 T9 j9 n3 `6 O# A' u, t使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。; X% C9 ]% W6 p5 u2 @* v
OPEX & 能效:- r o0 v* z6 b4 r# t% i# m
, z2 [( p: e3 S, T& m) r
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
: o0 L: ?5 x! e3 ]1 }/ \部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。; T8 q& l" G0 `; T# T
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。2 f+ p2 b! l2 @. O6 c
5.4 平头哥真武 810E(PPU)方案
6 d$ `% s* I$ z5 cCAPEX:
* |( b. H2 `$ q* p* \7 K: L* Y8 w9 W% _! q
技术参数:
- L+ i7 P7 p2 g+ Z5 e7 j% ^6 w96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
e" Q) y2 j" j2 A; t6 k性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
?% ~: ~* z) {" `9 L5 }. m3 X价格:& v6 T/ H f0 B0 Y
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。- j' R: t! g/ N
结合国内报道:
9 @. [2 F' a4 D+ {* [; T2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
7 E# A: P2 s$ F t9 e数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
- N( Z: A% a. LOPEX & 能效:
" k' P5 E; B/ U% [
2 S' ?* o. ^/ D' }5 c7 ?$ u9 c400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;6 ]2 n8 M( r: N) O7 k1 U- K
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。7 W2 r- r' |, k K4 Y, N+ K: Z
六、综合比较与策略建议" c% m8 r; b7 L2 u7 z
6.1 区域维度:在哪里建 AI 数据中心?
3 U8 M: z. g0 c0 i' Z纯经济性(TCO/tokens)排序(假设无政策/合规约束):
1 j) `# G! E7 x* Y2 F( B9 ^7 M( I5 y% ]' }9 i$ A# G9 I
中国西部/北部(电价低、人力低、建设成本低)( p U$ N# I0 [5 a$ \
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
3 Q+ r) b3 E2 x( n美国电价低但人工高;东海岸/加州电价上涨压力大
4 }& C2 o7 x+ B* k8 u欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求" b5 Y( }7 k3 l N" O( i: S
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:) Z' {. s! A# y. `% K' u
# U& a+ `1 _1 g! Y纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
0 H+ z# v9 P/ ]* j' u对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
. z# K" J/ M, t8 f但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。5 \0 T9 l2 c9 F' O- [: c
6.2 技术栈维度:选哪家芯片/云栈?
- X. ]1 O: _9 t9 }, F; C若目标是全球最优 tokens/$ 且不受出口管制:
; b5 M2 s" n! J# a
3 ~8 R3 l: t7 Y z3 zGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。
" e4 b& a$ n! {9 O& I! K: T若在美国/欧洲,能自由采购 NVIDIA:
( W* k' Q) p/ k2 l& B3 B4 j$ f
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
0 r9 V" ]: |5 X- L成熟的软件栈与生态,极高的 tokens/s/GPU;4 B* s' X8 s) ]. \
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;7 ], X" [ H& Y4 Q5 a z* q4 \
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
# q u7 ?( h5 w; W: @若在中国或存在出口管制约束:9 w3 R; A9 k: j8 W3 L- i" a
& z9 B/ o0 X6 P
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:- k$ @ j& J0 [# i' f+ Q
性能上已能覆盖大部分 GPT‑4 类推理需求;$ q. S+ X$ y. y2 I, m
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;8 i, R% V, \. e1 z1 i+ G
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;8 B/ H- ~9 A( u6 F
建议配合:4 |6 ^3 x$ r3 `1 Z" K
高效液冷(PUE~1.1)、
0 _4 ~, l. @& }. |0 N4 x大 batch、路由(浅层任务走小模型/低成本芯片)、
1 |. v& O( A6 }/ s j强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。& R' w, |8 {/ z$ q3 b2 J" x
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
. |5 i& t' ?* `0 [3 l* X
/ e7 O) ^# d+ C数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];3 N# z4 o$ S2 o8 E
这意味着:- T z( r7 C$ D5 L
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
& j; G" Q. D7 e; }2 }; [5 x精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
/ p4 w+ a4 ]% W/ b4 ~6.3 针对你关心的具体问题的简要回答* n, N9 I/ M$ f
AI 数据中心建设 vs 运营成本的大体比例?- z" u+ R- Z/ d( a# S+ q
4 w! r0 r' ~+ {8 B+ L4 ]在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
9 r$ p1 [. t" C6 S其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。0 C8 d7 y- P3 @8 R
中国、美国、欧洲、中东的成本结构区别?: W7 T. \4 W- E e5 g: r$ y: s2 t
$ z1 e; F+ f5 ]1 B
建设期:5 l+ a0 x) r( c; P; X) Q
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。( T+ U c$ f9 S' }
运营期:& z- n3 b0 [! L7 K2 h$ ]; H
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
1 K. ^1 E: i$ J4 W) c9 G e8 R人工:中 国 ≪ 美 欧,中东居中。( B5 z3 M8 |! ~. u, ^ J$ c
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
: x3 r% s4 Z( L0 u2 s; A" f9 X6 N5 e& y( g- S5 H
对于典型 1 J/token 推理负载:. D$ T2 j; L0 Q! k9 q
美国 $0.30/kWh:电费约 $0.083/M token. Q& R1 N& m% ]
中国 0.3 元/kWh:电费约 $0.012/M token: @8 ~# G1 N1 E% L6 B
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
4 g7 K8 J4 k2 `不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
; \4 S- d6 m! C, t7 t
1 y7 t: ~- q6 j6 y/ \# `. |在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
6 R T: ?' J) {$ Z7 s9 D+ J- I2 r全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
$ H" O. n: w% ]: k中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|