TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:$ J7 `* L4 ]1 L' D, L& H
7 D7 |8 _: P/ Z t' K: |* D一、总体分析框架与核心结论5 I% m) m7 |5 S
1.1 分析框架概览( P h5 J( A" l1 E' G: o9 J1 N
拆分维度
2 f. o+ x+ n7 B/ K, M4 J: D$ M4 z& D4 _ V1 j, D
阶段:# b0 _2 p+ Z; q/ w, t
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施- @5 K- e# j8 F/ r2 t
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等6 N5 S( I0 I, E+ o3 q. x
区域:
. S! U7 y+ L- {- d3 ?( v中国、美国、欧洲、中东(以海湾地区/UAE 为代表)' N, r7 T# C/ k& g7 n/ [ A
技术方案:
7 v1 \5 k/ g7 O8 b+ T U @/ }NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
4 } _+ o: h' l+ ~' kGoogle TPU(v5e/v5p/Trillium 等)
+ p m! B! i( y8 `. E中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
* z0 {. j7 m( y3 V$ i( S算例基准3 e9 Q0 Z+ ~( h0 f" J
* y; M7 v' M% Y. x8 s/ N8 \0 L; t以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:6 o1 L3 e) e( ]* L( }
其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW# i: Q: E! F! y$ v! \# b- V
PUE 假设约 1.11(高效液冷场景)[1][29], }) F8 B. M- ?8 B& i; I
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
" e) D' ?1 m$ Y# Q1 x n关键指标* \8 y" n" C" ^# f5 {2 R9 U
2 g7 H K0 D n/ _9 [! F* U$/MW 建设成本(含/不含 IT 硬件): k* \0 ~6 M( S2 N* W1 S7 J
$/kWh 电力成本、L/kWh 水耗
* Z& d6 T% n1 u# e7 Y6 _$/token 或 $/百万 token 的综合成本
% z: |/ T" k" R& W: s1 fToken-per-watt / Joule-per-token 作为能效基准[17][18][26]$ e- v: B7 _0 w
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
- ?1 N2 k- _# J; S; i, [5 g W, o1.2 高层结论(供决策快速参考)
+ J. R& z/ e- U% C- |建设成本:AI 数据中心相对传统云数据中心成本翻倍
2 t5 l8 a/ p" x9 s) z; O' A% O7 N$ p0 E$ [
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。. _8 C% S3 `9 a. h1 B! V( F
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。/ Q0 [% \( L) q* A! @6 {0 z9 E
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
: U5 E* N2 c+ j5 X3 j8 N- @区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区- Q/ ]/ p- e5 x k. L2 s
A) P: m* i+ ?% n. s* R中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]% O# X% ~( w9 F- c+ e
美国:$8–12M/MW,400 MW 约 $4.0B[1]* t% J, g1 `2 N+ f" u7 X8 Z
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]1 P C" }& G+ A
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]) E; ` C- R: q/ Y4 h1 R
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。 L* E8 i9 H: c9 N
OPEX:电价与人工决定区域优势) n, m; q* [4 _
! {% v0 V* N9 B/ M, P3 x
电价(2025–2026 工商业大致区间):
0 ?+ N: M ?, D' [4 X5 e: b中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]- T, _5 W) {+ A+ o! \( D
美国:工业用电约 $0.085–0.09/kWh[44]8 l ~' F. [$ H4 n+ T/ J
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]+ J7 ?0 R: l1 _+ B
中东/UAE:工业用户 $0.07–0.13/kWh[47]
. C) \0 o0 Q. M `/ e& I3 z0 N人工:
( }1 P1 D9 d( o- v3 j. p/ }中国数据中心运维:约 $22k/人/年6 W3 I& I' E/ o0 J* q. a$ Z8 S, D
美国数据中心运维:约 $120k/人/年[1]: K2 k! V v* [- K$ m
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
7 V9 `/ H0 R. o* [! ^! V能耗与每 token 能源成本:能效差异远大于电价差异* o3 S7 R6 G6 p2 _, [0 t7 \
) [; o! A3 J$ `) G4 g8 ~: CIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
5 g. L. o0 I1 T; L+ H大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。* v' w. `7 \* I W% t
将 token 能耗约化为统一口径:
& x$ U( p( j0 G" x. R, m3 O粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
; {! [ J) ~" L/ b) a中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
0 D5 r/ ~) D) f( _3 E' O; @) V美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
3 [1 r/ Y2 e: ]; o, a* R对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。* W) B8 A: T1 I7 l5 J: O
不同芯片方案的核心差异 L8 M0 G. z4 g5 y
0 Z* {/ d' e0 [. n/ t; }1 hNVIDIA Blackwell/B200 & GB200 NVL72:
6 v8 |; \# V2 O单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。6 c8 ?/ u/ Y! a6 w
GB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。9 j) c) q1 Z0 t0 H5 V# q5 N7 e- j
Google TPU v5e/v5p/Trillium:7 S' A) D8 O+ z) J. J+ l$ Q
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。$ p4 |% c2 h3 S) F* w
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
: B& q% F' H# @/ y! S华为昇腾 910B:
* K; e7 |- z+ `4 lFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。
$ v8 f2 F6 z$ G" C6 ]单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
$ \' F7 \0 ^" n5 u! }阿里平头哥真武 810E(Zhenwu PPU):
9 I q" ~: S4 ?7 t/ \9 z. Q$ o96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
( i4 {4 [. D j" b- `/ j结论:5 X1 E8 F; z; t3 v* v
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
/ q0 g% j! c+ _, R& t单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。: ?9 s6 @3 I' L$ q9 f9 R
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
]! I1 V- @' p! ~2 F/ l8 Q自建 vs 云租的 TCO 与 token 成本0 z" a0 N: Y+ a5 h' e
. y! }9 I$ c5 u
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
% I! O1 r( D$ j; ?9 }- g; I8×B300(Config D)自建 5 年 TCO ≈ $1.01M;. I" S; H+ r3 u) _9 @. y6 @- u
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
. ?, w: ~# L) ~! L: j. c8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
3 n5 K, z$ b+ a) eToken 成本对比示例(LenovoPress 场景)[28]:
% \. l, r5 M6 I* n, j# \Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
+ F" g; d# K# j- p5 H5 Hvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。! }3 F3 k& N& W# G6 f2 G9 [4 Q
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。- _7 k% k$ r- S, K- b, ~
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。" g" I* u( S4 S; l Z' m# e
结论:
. E3 X$ }) h3 `& g+ [+ M; Z8 y高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。% Z6 z/ a3 p+ i& O- P4 G/ Y
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
" d, q0 h4 @( Z6 c1 t: h二、建设期成本分布:区域对比5 a% ~- `7 V3 e1 C2 g/ D$ b. L
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。# K3 `8 m7 a( U7 W. h
5 n6 p# t* D2 ~
2.1 全球/通用结构(以 1 MW 为单位)* W% c2 N+ f) T9 Z* i
综合 JLL、ConstructElements 等[2][41][40]:8 }+ y+ p/ G$ i2 g' x Y6 ^
5 b1 u* w9 c* t, Q" r: Y壳体+机电(Shell & Core)
( d' {- ~- i% f$ A" o1 k* _, D3 L; Z5 M2 q: K1 a! h
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]/ Q% \2 y* d3 _
其中按成本构成[40]:
' U) N( e8 }0 @. r电力系统(变电、配电、UPS、母线等):40–50%! q* l& e- G. w" W+ M& F
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
* P' B G( w3 y! R建筑与土地、结构:约 15–20%
5 a' h) n3 H& ~" M( E其他(消防、安防、楼宇管理等):约 10–15%
5 x* j6 u- J( u1 M& DIT 内装与 AI 基础设施(不含芯片)
# d' @! {' b* X4 K' d- s* F! V) z+ t
2 W2 p0 l5 M6 F0 b8 y# ^$ C高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
8 C. M5 T/ I) n( uGPU/加速卡硬件 CAPEX. _# T: Q) J4 @5 n
5 ^8 v, l/ W3 j6 f( {, J
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。% f+ I( A: C4 Y0 u! N& i; y
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX1 ?1 n5 c3 C: s# o# K' q
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
" G1 D( T. M8 V x; j3 y; W
; {( e5 G0 v( W, @, J区域 典型建设成本(壳体+机电,$M/MW) 备注! e2 }2 X; c {- k( C
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
- ]: a! J% `8 E8 Q, w; q; a美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
3 e3 ^( t7 T3 Z4 O欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
* z2 @0 _* T9 p) B' l2 o( h( C中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
# C z! B* h6 m# z5 t# C结论:6 Q& t2 w0 k& u+ X/ M9 K
6 ~5 @) z" c3 N a3 u2 B2 Y% k- R单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
+ P& r* t7 a; n- l若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
$ x2 q3 _ i2 a; x1 I9 t5 q2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)4 `5 {5 z1 e( L
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
( ~& }2 Y7 S0 X: I' B# f
/ D- T% p% _) O0 w/ p* o假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;" }8 p. Z5 Y* X1 F5 I6 M
GPU 配置:
% X2 p) o6 Z L有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
" i5 p8 `& I: E0 r. |3 D3 d! W# I每 rack 成本 ≈ $3.0–3.35M[34][69];1 A9 y/ m( t# Y% J5 x( Z
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
! a7 ]( V( u3 v1 P8 Y与不同区域壳体+机电组合: Y6 _" x- ~. g/ ?# k
1 b% E& M j' t4 Z. j f4 ^以中值估算:
3 a' r, w4 h" k" @
1 p' v7 g% w. Z! y( k中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B) u# a t3 @! q5 w+ v+ g( `
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B o) E8 D9 d, F: @2 X
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
0 @4 I p1 w, }% _, Q中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B3 `. P1 ^3 ]/ x' F. h2 V! O* `
可见:
& @3 K) r! E) |8 u# B3 {7 @! r, Y% @+ u% [" H1 s# N' V. z0 I! x. ~
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
: z% K& h+ K0 b6 I% \" w9 L% K5 K相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。( ~3 f2 i3 Q+ ^3 J! J* z o v- g0 l
三、运营期成本结构与区域对比
) ?8 z2 U9 M" K1 R! j( N3 v0 ~3.1 通用 OPEX 结构(高密 AI DC)& p( ^+ ~& R7 ~, h
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:: ?2 L2 [) C; Q3 Z5 @
) {/ p" e. q* `" Z
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。) d4 g9 d5 Y- @% j1 N7 F
冷却与水资源:# y+ j% q) l* V; g2 X# v
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
) L* z# S2 B7 j6 a水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。7 C' x. \ w! H/ c' H0 V' ?& C9 d4 W! y
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。+ O ?% H" {2 {( \( X1 [
托管/物业与维护:
* m3 n7 D4 U# c4 I托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];% g5 V* A5 u! p% p9 R8 ?
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
! v( s- K7 f: V) E. ^, r3.2 区域差异(以 400MW / 3 年期为例): S" M& h2 A# }% R2 M+ E. Q
使用 ChinaTalk 的电费与人工估算[1]:
3 ~3 @; _4 N% I( b5 ~$ w% u c3 }$ C" j9 L! J% U4 d5 i3 f" Q3 k
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
( J3 Q. ~) X0 H" |2 {中国:约 $0.06/kWh → 3 年电费 ≈ $350M# c. n2 r ?, }( W# s& S
美国:约 $0.09/kWh → 3 年电费 ≈ $600M
9 O5 d0 A9 Y) {! u/ f- c, E5 {中东:约 $0.07–0.10/kWh → $400–550M! e: C/ s4 g9 H2 ~- K* f
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势), d8 {( C" W0 b/ T! e
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
7 D8 w9 {. p* b8 T/ |美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
$ z# e) e1 l% v0 A) I" B) {- `, v三年水费级别:
' r+ t* p2 q6 w+ I4 N, @9 _, ~美国:$40k++ d2 [$ T+ ?: L: u& W
中国:$20k+% k$ A9 w9 N6 A+ f. V' [
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。7 I$ \0 W/ ^8 y" ^* H, }2 p3 ~
人员成本(3 年) – 假设 500 名全职运维:: `) \ T1 h; _5 t. }) q% _9 }
美国:500 × $120k × 3 = $180M+
. l1 R: {7 Y6 ~6 T7 T9 h9 l中国:500 × $22k × 3 = $33M+
, S% X/ I$ i: T- E差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
) F. \ q4 f: j# q. ]整体 OPEX 粗算(3 年) – 400MW 场景下:& l! ?! ?, W0 J6 @7 p0 u% M
, W/ H& w, d* k6 h( ^" V/ N" U
项目 中国 美国) r4 p: T. z$ S7 e1 t
电费 $350M $600M
/ C% H& s- q a% W水费 <$0.05M <$0.05M+ @0 q V S' S/ h- `5 u$ Y! ^
人员 $33M $184M
7 w8 X8 t) u; k9 x6 G* A3 ?; O其他维护/托管 同比例估算,地区差异主要体现在人工与地价 ) i7 h- u/ q' }& a& G- I9 g
结论:
* O$ u* u% E0 x4 [. r. `7 R( b8 ~0 B, D/ \
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
: e4 G% p0 q5 d7 J0 `对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。 a; h' _ F9 d: t' }
四、基于 token 的成本与利润推演
; a% {2 J5 G3 r( L4 N5 ^1 Z( @4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
' ~4 F* Q0 p9 I8 g* g2 | Z统一假设:
2 g; ]! L8 ]( X" B* X; [
}0 D$ z5 h3 _典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
# U5 x4 ?7 g4 }& Z6 R8 S& k' @% w1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
. F$ x% ~2 I* z2 X' k0 S1 百万 token:278 Wh = 0.278 kWh+ D, y5 k: Q y. x# M/ `
场景 A:美国电价 $0.30/kWh
6 z2 A/ L# s0 j9 a. E电费/百万 token = 0.278 kWh × $0.30/kWh8 e1 ]. I4 U$ u1 ~
≈ $0.0834 / 百万 token
4 L; `+ d v& |0 s2 t }场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh2 f; A+ z _1 i4 R9 h1 V! P
电费/百万 token = 0.278 kWh × $0.042* N1 R) _( a4 X, O6 [
≈ $0.0117 / 百万 token
$ Q& E7 ?+ r M# Q4 Y# r+ k4 M对比当前 API 价格(OpenAI 2026Q1)[62]
5 J$ T, N& X* Q Y m# g, J以输出侧为主(成本最敏感):: v2 h7 ]3 Z6 i6 {4 ^3 h
* ?5 ~4 Y$ s! `( T- O% y5 r. b
模型 输出价 ($/百万 token)
; p% S o* y/ E+ x( U0 gGPT‑5.2 $14
/ e# v. ^3 Z1 M- j- V. O# K V( \GPT‑5.2 Pro $1681 r& A+ \' p! ?/ K7 ~0 n
GPT‑4.1 $8
8 e- t5 G# g- p1 n2 F4 p2 MGPT‑4o $10
5 a+ }! h, `& ` n! C' lGPT‑4o mini $0.60
4 P8 a: [$ A e# ~3 t则:
6 w1 [! E3 p: T F8 z9 C% B( l0 D3 l. y q6 K
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。. X. d' p) f" J. O
在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。; d. W& t+ Z1 X/ w P" {) j
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。9 ]! o, A* c% ^6 J. L9 q
结论:
' X8 L; L5 {, f" ^6 q6 @8 E8 g即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
3 |' _9 N" W) l3 J$ g
7 `% E0 ^( t6 _6 I* h5 f3 F" g# Q4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)# d. E0 d; _2 {! x
以 LenovoPress 的 8×H100 Config A 为例[28]:0 d8 u; V1 H4 Z; W
% I6 }) Z$ G* h3 Q4 H5 K5 年摊销下,8×H100 本地推理 70B 模型:
) o4 u# b4 w/ b' S: |小时综合成本(CapEx摊销+Opex):$12.08/h9 x! k7 m; w4 q: G
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens$ i3 k! v0 a& M( p) P! O
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token" ^$ b* @2 l+ \4 T; R3 z% v
电费在其中的占比:4 G. |4 a: I( y8 z# u
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]1 j- d7 |, [3 R# C) C/ ~" M, B
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token0 s/ A5 `3 @! V; e2 R: ?
电费占 总 token 成本 ~7% 左右。
, X0 m Q) E; {若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。8 f8 ?. m# O' y- _$ v/ P# K+ d
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。" [- \! `9 ]1 a% K
3 |/ f+ y/ k9 v! G+ ^* Z5 T2 y因此:
% ^8 |6 [3 @; \! O( I; y1 \* A
: E' F4 h3 }3 T. {- Q: R& B在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
# c2 k) u* h; R1 T在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
7 ?* f8 g; D+ e3 F( A& q2 f五、不同芯片方案的建设与运营成本对比
2 Y, A- I E$ C/ W# K5.1 NVIDIA 方案(H100/H200/B200/GB200)' Z( O$ P: J' g' i2 h- I! o
CAPEX:5 i, D# y3 b, M) n. C. D
) C" H ^6 [- L! [
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。+ v) b% T9 _8 O/ T; b- w v" `
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。: h0 r& x! j9 C: g5 x
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。! B3 ?3 C2 }' k" T9 a
GB200 NVL72:. H! n7 |( q& x# H, [' ~. [
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。$ v# [, a0 C9 N6 U; e( C+ r
冷却系统每 rack 额外 $50–56k[35]。
+ w4 I+ D T. u# o, }6 f: ?在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。4 j, X+ e# d; s$ z& [! E
OPEX & 能效:, k- G& b$ H9 J1 _0 G( K
; d8 U9 ?) d) L& c
单 GPU 功耗:
9 f0 M8 m( T( ^H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
) G2 s8 g4 N5 X3 r- k$ FH200:功耗类似或稍高,但性能/W 提升[9][10]。8 ?3 `! D7 M( L" D7 v
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。1 a( Z; U0 o p% p# \
Token 性能:
& o( {4 @. I) p* {& ^B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
: K; T5 A* N+ J2 oNVIDIA 的优势:
4 I/ g6 y$ E% Z# A5 w' i4 ]3 E; d { `; S. U+ f+ a9 q
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
) F, _; l2 P8 g/ ?3 b但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
$ T& V! x. S7 _0 B! a5.2 Google TPU 方案* s6 `2 z& x6 e* t8 |- P* O
CAPEX:( L6 g! b6 M' ?; p; l# s" Q
4 A8 v1 P5 K" F& Q) R
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。9 \; [/ u1 G) e9 ]9 O
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
! v, x5 H2 e$ m. H8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
2 E' Y$ |/ [$ X# T; s能效:: \' }0 ]* ?& Z# N# K
* M/ `2 d! d# X( VTPU v5e vs H100:7 l6 {# P) k. j+ D
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
" s- I* R9 A7 v测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。, U0 t% g9 s `. O6 s
新一代 Trillium/TPU v7:- [8 `- N% C0 W+ s; S# b6 I+ a
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。2 r; L! h4 ?0 Q" J
Google 方案的特点:
! |: T& B S) u" z" w8 W% Q" W# q. ^+ C! Z
& A1 p9 J% c; O9 @自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
5 @$ {# G1 d2 A4 K6 S5 s对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
1 q& i) r4 g2 ]* z1 n$ h5.3 华为昇腾 910B / 910C 方案 ?2 C' r' z! B3 \) w. F
CAPEX:
& o+ P. o5 ^# K; f
( h' @- H/ I" `单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
( g- |# ?2 r. j! a5 R7 \' w与 A100 对比:$ K# t4 ~9 Y( ]7 f: H
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。4 V& W8 l: S+ X' p$ P
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
$ I& [" k: o: W* N6 P! s2 m使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。( H& f/ [8 c+ |: n5 Z$ d( U/ }
OPEX & 能效:3 t1 K$ j; R7 n# x+ ?; \
}3 u5 l! ^% a. a9 G A7 P8 Y
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
, P6 j; p9 w& S( C* }+ w部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。' H5 f- A0 o8 @' |: @/ u
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。- _. U! w6 b* X! U: V1 M: f
5.4 平头哥真武 810E(PPU)方案# V! X8 T" F" j' P8 X
CAPEX:
' i" u E2 N: K. _8 s! o6 v! U" v" y6 p; `% }. {
技术参数:
' }4 S0 i" i8 L1 X- I96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。' b3 D' ], x' r' Y6 }6 W5 b+ G
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。5 D- s8 j4 L! W/ \4 W
价格:0 U9 f& ^& {& p' V3 j$ ~: Z
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。
8 Y: a1 u: N* ~. E" U$ r$ u结合国内报道:
( u: Y! e9 d( _1 w2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
, C7 Q" H/ M6 p+ r5 W数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
* P& @; X5 n2 [6 W8 f& \$ AOPEX & 能效:
7 p, L8 n/ e% t: r, H5 l
+ {1 S$ f& b" j. N400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;2 p$ a; N# F# I& O- F; ]( M
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。$ n+ E* w! Q" I- k' p" [
六、综合比较与策略建议7 N3 l. d7 L! m0 r; Z
6.1 区域维度:在哪里建 AI 数据中心?7 P; X6 {; F4 l! Q( L
纯经济性(TCO/tokens)排序(假设无政策/合规约束):
. _" o1 z% G) Q3 z5 `. H6 J" ]' [
中国西部/北部(电价低、人力低、建设成本低)
% L5 J7 }1 t% m中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)) C! k; W- \7 M4 @6 d" S9 b
美国电价低但人工高;东海岸/加州电价上涨压力大
0 O6 A6 t K5 ^2 B2 J) G- D欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
1 e0 ~0 d3 y8 \" p若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
! P0 Q- }0 M& N3 | O. N
0 u3 A) s7 v5 N) Q纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
4 S6 {1 }3 M" K. z7 M对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;# v& o* @; D8 b. Z
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
7 n) t" l* c k8 I' b/ D6.2 技术栈维度:选哪家芯片/云栈?0 e8 N. { z1 T7 S- u7 v. j
若目标是全球最优 tokens/$ 且不受出口管制:
' C9 P0 t5 w ]9 }
9 B4 o3 p: y$ U* M* LGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。4 L) s) t7 H% ]+ x- z
若在美国/欧洲,能自由采购 NVIDIA:
0 u; H8 W t3 b( @2 O9 J3 K) q+ h, q* |8 {/ ?5 N" g
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
. N/ S5 {) F8 u: u, m- {成熟的软件栈与生态,极高的 tokens/s/GPU;
3 D0 g8 t1 ~0 w* Z在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
, A* Q2 n: s+ [, `, @* C# Q但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。8 o) E9 J: z& G
若在中国或存在出口管制约束:" h: }) b- C/ d% E, Y
5 P a7 p* M( Y# A1 z
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:# A9 E7 p. v# v& v
性能上已能覆盖大部分 GPT‑4 类推理需求;" G8 d2 B% Y8 h1 k
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;) m: ^! p, v- \$ R5 M
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
+ i! M3 n |8 n! Y; r( x建议配合:
6 k; j& {6 S8 ~2 n) ` S高效液冷(PUE~1.1)、
9 E5 \+ O" ]; {$ m- N/ J大 batch、路由(浅层任务走小模型/低成本芯片)、" r# s. x, g. ^/ i! [4 Z' I
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
8 n3 S: b) }1 p1 U# t长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
- a+ G# D8 u7 t/ \, ~, M0 [* r/ i# `; K1 u5 f3 G) F
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];- X/ o6 G! p( h& ^0 Z
这意味着:
( o) e! z5 O( I$ V8 L% E9 A8 \优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
0 n+ o8 ?, a& j9 \% [精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。6 a% X3 K' r8 o2 ]* |3 ]5 }, g
6.3 针对你关心的具体问题的简要回答
/ G$ F* l. _" MAI 数据中心建设 vs 运营成本的大体比例?$ M' u4 N0 n( {
! k- o0 B d$ c2 \3 R在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。- s' Q8 n4 q# r7 O
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
+ z' f; x6 x d, n8 U中国、美国、欧洲、中东的成本结构区别?5 X2 S' Y4 H7 o1 F4 L2 d
3 |/ P3 b5 g7 {3 s建设期:
6 l" p7 ^1 a% _$ ^1 i8 z' F中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。
2 P' U0 R! H4 C& \4 t! y运营期:
3 N' a. M: o$ M( r) f# e$ V电价:中东 ≈ 中国西部 < 美国平均 < 欧洲/ \: L$ _( D5 `& ]4 H% D D
人工:中 国 ≪ 美 欧,中东居中。
: m$ {" C7 O& ~, O在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?* a0 | d2 E& g3 v% V
8 g3 M2 D2 ^8 w! X5 N
对于典型 1 J/token 推理负载:
* p, C& y4 \2 |美国 $0.30/kWh:电费约 $0.083/M token0 V& T9 X, G* s* j
中国 0.3 元/kWh:电费约 $0.012/M token
/ j' u9 V, V1 k0 q6 j# @/ p; s对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。 k* E" u' B+ w0 H
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?0 @. U0 A. a( G- w; O
% I5 i) w* F' I8 h* A: u+ \$ V8 y
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;: a1 u# T' I; D2 W" S' ]
全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
( u9 j6 ]% O! ^- z+ G中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|