TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
" `9 R( G' W8 O ?" M6 F( [- @0 ?; o
一、总体分析框架与核心结论! J0 ]6 B9 ?3 d0 k
1.1 分析框架概览
) V0 t* z8 x- a: c! l拆分维度
4 h$ e) ^$ @8 O) b& V9 c
1 s. W! T9 o2 B1 z! Q S阶段:- b j) Z ~0 J! \' t2 w! Q9 z: T# {1 J
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
& S. ^# x6 K# ^* y |, t7 ~0 A2 z运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
) T, p; k/ i' }. e区域:6 g# i5 H* [; d; W8 a
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
3 x6 z# \( ?; c技术方案:
6 } n9 z7 a& v" iNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)
( B5 O% e P1 H; t* C2 ^Google TPU(v5e/v5p/Trillium 等)
6 E, w# M& Z) s% f1 l9 \1 v# ]中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
+ A$ C1 E3 h. x8 ?! f5 Y" |算例基准' @; Q6 n3 W# z, X- |) o, p- `
, J7 A4 [) R( y" k0 j" g以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
9 z9 M. E8 }6 S! [2 i其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW7 j( E5 ~7 y& [$ M/ f" o h
PUE 假设约 1.11(高效液冷场景)[1][29]
% v& k3 l7 |9 ?/ x9 @# c5 }# V时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]7 q( m0 c7 G. `
关键指标" V0 T9 R6 Q( \3 Q
3 |2 O5 y* W+ v/ m" H$/MW 建设成本(含/不含 IT 硬件)
8 O" ?2 c( O, p4 [$/kWh 电力成本、L/kWh 水耗7 {) R$ s3 c4 j- X7 F
$/token 或 $/百万 token 的综合成本
! R+ [' a0 q' D8 E- HToken-per-watt / Joule-per-token 作为能效基准[17][18][26]
" q; r3 I2 l) p% J! A4 r项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
6 a& R4 }; L2 d2 b; J4 i1.2 高层结论(供决策快速参考)
4 z2 u D" i7 D9 _% f建设成本:AI 数据中心相对传统云数据中心成本翻倍
e! |& q! P; v4 Z% B7 b7 b3 Z
( z% p# U( T; v传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。8 w) p, ~7 ?) r0 p+ o
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。9 i$ D9 h% R5 I6 d2 I% I
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。" Y: x8 @- Q! I& u9 D+ e+ }
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区" |+ K0 {/ `* T% y, f- d+ e
9 G+ ?4 @3 m9 u* m7 p" F% F
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]' S: Y- I; {4 U
美国:$8–12M/MW,400 MW 约 $4.0B[1]
( G. ]9 x9 r1 U% Y% v欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
) {) ^2 _( D5 ^4 P! K中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]% N; A0 Z& q& F4 q
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。: `/ H+ s4 g8 A" y6 {( ]
OPEX:电价与人工决定区域优势7 k+ ?2 \2 l) L! J6 e4 }
' y5 Y7 m, M I电价(2025–2026 工商业大致区间):# \9 s, L8 M O. I% K
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]/ f% d$ R; w" ]& M1 b/ ~6 P. W
美国:工业用电约 $0.085–0.09/kWh[44]* i+ U8 `; l0 |( k, N2 O. x( l
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
4 J( z1 U" s# U0 }中东/UAE:工业用户 $0.07–0.13/kWh[47]+ J) u+ a% Z+ E. a$ V' V
人工:
9 \/ d* J9 M1 N' z& [" Y中国数据中心运维:约 $22k/人/年
* V! N$ ^ h& T$ N3 K4 H美国数据中心运维:约 $120k/人/年[1]
; g- I- B9 Y. G# p5 P结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。5 g q' X$ Q4 x' j& |* O- s
能耗与每 token 能源成本:能效差异远大于电价差异" v, R8 k0 N0 l' {" W- F
/ r0 U1 F( V+ ~# Q6 q; w( |/ vIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
4 | u, I! R$ T9 `* r( Z0 q) C大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
4 f5 X0 c3 R0 g7 E/ }将 token 能耗约化为统一口径:4 y4 |. Y, I2 t( p' c7 ?1 h y- ]
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
& Y2 N6 @9 f! C/ V+ z* }中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token4 }/ |: i1 }& N
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
1 \( o( `* [2 H( Q; B# y对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。: {/ F! F- S* _* V& n) v/ i4 K
不同芯片方案的核心差异
P- x# O$ @) ]' J
2 U6 A0 {+ |) f& G2 P9 Q; d4 ]5 lNVIDIA Blackwell/B200 & GB200 NVL72:
" C4 }, ?/ q9 B6 v3 U单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
) |& \0 g/ j$ i; d* B0 VGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
9 V& ]. V( C$ {4 m8 {) I: b* ZGoogle TPU v5e/v5p/Trillium:
* Z# B7 ^0 [3 L- o' D9 ?2 mTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。9 D, U& \; R1 U' l2 `. o
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
; Q+ H" \0 Z3 J华为昇腾 910B:
3 G3 W9 g: |; N1 C" X5 U# TFP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。9 \6 x t- J0 z2 N0 H
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。# v) L, V6 n9 g6 `" g! r( ]
阿里平头哥真武 810E(Zhenwu PPU):' @* j0 M7 G8 o9 w. P/ m6 ^( m
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。. u: E- \# A' ~* P3 z
结论:# u1 U4 n0 l7 ]" Z
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。7 B- O3 Z0 R6 a" K1 ?& ^6 l" I* E
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
H7 K" o4 V% l2 V# g: d _对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。3 E8 A2 b# y' G" Z* z+ f( ?7 w
自建 vs 云租的 TCO 与 token 成本
) W. Q1 l4 |! o x: r. u5 [+ m- e" I* b3 W3 ?3 p$ {2 J
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:9 y4 a# y4 r6 L1 \
8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
( s! @$ |1 T0 D3 G5 ?等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
# p# Q& x1 Z0 }: y7 [8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。1 [7 s( O3 z' k! y' }" u+ ^/ f; v
Token 成本对比示例(LenovoPress 场景)[28]:
1 t7 L/ h8 l5 }$ b" H) WLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
9 `5 G7 x" I2 e! rvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。, u. {6 D4 {+ V8 N$ H
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
& V4 ~1 N' O5 J! w1 `+ ^4 \Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
8 H5 [( t* ~6 Q+ Q! a; K结论:
# V- S9 F& z: C" a# w. W高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。% ? O; Q; N/ ?3 r
Token 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。( p3 W, \4 ]0 o0 z4 ?5 x
二、建设期成本分布:区域对比
! K0 y ] `2 a/ d1 }& @以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
8 }. B7 y2 K2 B8 _' V
% M, r3 N5 d" j3 G2 a* x5 Y; n* s3 ~2.1 全球/通用结构(以 1 MW 为单位)
% z0 T: ~( F7 g) N% r- y6 K: L综合 JLL、ConstructElements 等[2][41][40]:! R2 t( Y% D+ R
) V5 V4 q, z* G
壳体+机电(Shell & Core)- U. L! t6 }: v
% r9 j0 O, h$ j5 N* M: U! J全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
3 W* Q! z3 A3 s1 x其中按成本构成[40]:' \' ]" d/ V$ w$ `. U; C5 i
电力系统(变电、配电、UPS、母线等):40–50%
8 S/ y; J6 D4 F# d/ Z, _. O; [机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20% h/ M' t, y' i; Q+ y7 N- l; a
建筑与土地、结构:约 15–20%/ B7 L* `+ m" [- F) ?/ S. u% x( i
其他(消防、安防、楼宇管理等):约 10–15%
: R2 x$ u" Z& c: W ^: uIT 内装与 AI 基础设施(不含芯片)# @& Z" D& [9 D, I# w; n4 o
% `1 g' U/ X4 N* |高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
7 T3 i! T, E1 LGPU/加速卡硬件 CAPEX
# V4 Z; L2 Q$ V. s" k$ r! K" n& v8 t; K) U& U
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
( D; t" S0 F: |( b% u$ q2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
5 |. N% O1 J+ T- R结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):, s9 t" m: [5 I2 }
! W5 d# L& t' T4 v6 F
区域 典型建设成本(壳体+机电,$M/MW) 备注4 U' D! ^4 r( }( F2 f$ h9 W7 _
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]4 V, p& u4 R6 v" F8 |
美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]. e, o% P1 J! C9 ?/ x0 t
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]9 z$ h5 y. c E" g/ b2 z/ C. ]5 x
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]; P2 l% k% o( h0 C6 [4 r6 S2 l+ R' W
结论:
$ ?! [$ p) z) @# ~
0 C: ~1 J$ G# D9 G5 b! g6 \' ]单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。" X8 E) t8 S: {: Y* ~
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。4 z+ N' B+ J8 \/ ~- [
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
5 d$ v7 u- S* a) ]. K1 r以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:- R. {& x- ?$ O( j3 J; M9 l9 A* ]
3 y. h+ A: A! Q ], J假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
T3 u, [: J! d% M4 z7 nGPU 配置:. q% w3 u5 w5 J! s: S1 G E
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
x9 ~# q- ~. A每 rack 成本 ≈ $3.0–3.35M[34][69];* l4 f8 T0 a2 J" L3 \ Z/ q
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。
4 Z2 w4 Z2 H. A+ w$ r与不同区域壳体+机电组合:
6 p9 Y3 e9 F4 G% j" t6 _* z9 w- p% d0 t: Y( x# L
以中值估算:
2 e6 F. q5 w3 b+ ^" j- `0 E) x) w" I0 _; p8 L9 c
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
. I6 ?! b2 _" `+ C4 {) [1 [* @美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B" l" C: k5 l" p1 x
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B% m; \: B- q3 |/ O: G3 w! P9 M
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B+ o5 r8 R/ ?; O% Z
可见:5 E) G. M/ E6 G) i
% G# C6 M' g3 Y5 @- ]GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。" P# G; _7 `$ q# e. k; N, Z2 y7 H' n
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
, ?; S8 _. B) t7 e4 r# U三、运营期成本结构与区域对比2 v+ n6 z' c4 P% u! Q+ ^
3.1 通用 OPEX 结构(高密 AI DC)6 Q& ^, f) J$ g6 u/ O g. i% J, \, N
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:* Y1 _- i& k1 x7 a- e
: x9 J4 I9 Q4 _3 ~& U$ R) D电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。2 s8 c: `* z% g# B6 [7 D
冷却与水资源:- n V5 v/ p/ s& A$ d
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
5 M, q1 x# s; l: z" e水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
! O6 Y. a/ X7 I% R+ C; @0 T: E/ `3 V人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
6 y! F" T6 b# x# U: i托管/物业与维护:
3 M, h; N! i. \7 _5 R0 b托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];8 F# J4 j2 j: k! V
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
6 a) K' u* i8 }4 S3.2 区域差异(以 400MW / 3 年期为例)* ]/ K/ h q3 b3 ?# ~- b* P. H4 {
使用 ChinaTalk 的电费与人工估算[1]:6 Y6 s" L% c j$ G
& L6 b5 h+ e0 ?. }- ~& F" W8 ]) G
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
9 J3 `% z6 e ^$ p7 W% M# B( u( P中国:约 $0.06/kWh → 3 年电费 ≈ $350M1 X4 [/ F8 I7 e( ~, r
美国:约 $0.09/kWh → 3 年电费 ≈ $600M9 [6 V: c) |" L6 {* v
中东:约 $0.07–0.10/kWh → $400–550M% g5 q" F0 c) J9 f
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)% ]; @8 ?( @" x5 C8 E
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
) y( P5 W: ~% l0 S美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
1 `( m% e$ s& ~! r; c6 V$ f三年水费级别:
. T) L) e5 E. `+ v; r6 L美国:$40k+
. T1 S3 Y' y$ P- g% e中国:$20k+
) a2 u! f6 h {) s$ i4 z" E7 i" c结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
* R2 M7 o9 R3 p A8 S7 v人员成本(3 年) – 假设 500 名全职运维:" v( Q, x1 T! G' q
美国:500 × $120k × 3 = $180M+1 W P G. Z" J
中国:500 × $22k × 3 = $33M+; V1 t4 }: D0 F6 w! h
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
+ V/ M8 }" K; {. I/ D& U' J整体 OPEX 粗算(3 年) – 400MW 场景下:; @/ x* M3 r; O8 X1 T
5 V. ]* ?5 p$ Y: B/ W; W项目 中国 美国& Z9 `( |& j4 T0 w8 R8 X' v
电费 $350M $600M0 X5 p! o9 [! ~, m* ]
水费 <$0.05M <$0.05M
6 e |: z4 G7 H8 b: k" `0 w1 S: Z" h" U) p人员 $33M $184M% E+ i j- a @( u* {. E( x' a
其他维护/托管 同比例估算,地区差异主要体现在人工与地价
* W6 k6 w( T4 H1 Q4 n$ N6 m结论:
* m; s" {* h# I( t0 X; Z2 J+ r/ ~( o( H# q# \( {, F m8 a+ x) G
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
" v6 N' M0 r; i9 D' ]+ s9 o对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
c) j0 L5 [$ Y# j/ U四、基于 token 的成本与利润推演- t( F5 A: G3 `; q. ^
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)$ J1 P" q7 l. y/ }
统一假设:
7 J* @+ M# s2 p6 J5 H0 ~# n1 p0 O8 U9 n: t4 B
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])
& K S% v- g7 j5 ~1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh% \9 [& H6 \0 u) }2 O. A
1 百万 token:278 Wh = 0.278 kWh& f1 P& f9 L' B" P8 f0 i5 n
场景 A:美国电价 $0.30/kWh3 V- o$ a1 i% K. L5 f; ^
电费/百万 token = 0.278 kWh × $0.30/kWh* l; }. x, Q! J* ]( Z& l- `, k0 H
≈ $0.0834 / 百万 token
4 b( [9 V Q& ?9 T9 u场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
; L4 z0 ]4 C9 T. v# Y9 t4 p电费/百万 token = 0.278 kWh × $0.042
6 A& v# F6 z+ j- ? R `1 y2 h≈ $0.0117 / 百万 token
9 I% S7 x& f8 D! b$ F对比当前 API 价格(OpenAI 2026Q1)[62]' L. X/ Z9 U9 L* N0 V
以输出侧为主(成本最敏感):
" Q3 W6 x1 r/ a/ E" a
4 o# `* z1 P# `模型 输出价 ($/百万 token)
8 J7 f" t, S; M. _GPT‑5.2 $143 m; S% ~* o) r2 ?- o. `: q
GPT‑5.2 Pro $168: R; S7 X& z3 H7 b* ^
GPT‑4.1 $8( ]+ r" X. g' E5 }
GPT‑4o $10 c; e1 C: \# J6 u# R' n5 m( d
GPT‑4o mini $0.60
, Z8 w1 `; Q6 J: N" C' {% L. }则:
0 N1 S. {% W7 ~. O0 n
2 R& ~. [$ K7 g6 r3 i E& b在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
& Z% V9 b' ~2 i1 Q. u! C- q在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。3 L# h/ x) Y6 V6 X+ T% Q ^
相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。2 p3 t+ G, H9 c" R4 w ?
结论:
) s; ]& k3 ^( F* c/ H4 `5 l即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
+ a/ b, l& ^) F4 ?7 ]* M* N4 z- i. H. N4 j! a
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO): s' ~2 J) `* N; L% e
以 LenovoPress 的 8×H100 Config A 为例[28]:
" C2 b/ D! R9 U! P3 B8 f N% C& o: I* G5 N) x
5 年摊销下,8×H100 本地推理 70B 模型:
$ b& f0 f3 W0 i: D; Q8 c小时综合成本(CapEx摊销+Opex):$12.08/h
& k2 C" D4 o8 f8 i8 Y# Y吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens* _; B$ V% c, Q/ z! z% q
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
- n% C" h4 i; L$ G. U' g [, Z9 f) E电费在其中的占比:
0 t# M# L; ~& ]8 AOpex 6.37$/h 中电力+冷却约 $0.87/h[28]
+ o& g* M( Z- o1 [! w, B电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token) a) ?) [& ~2 l6 T+ O7 {/ @
电费占 总 token 成本 ~7% 左右。
/ \4 w1 |+ @ u# Y# J$ g1 F4 c, }若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
5 ~" P( k8 m5 H若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。- S1 t; U4 b7 R$ x
: m" C* ^7 Q% ~3 X9 Z& q$ Y$ d
因此:; R6 W0 _3 ` V$ {4 m) `
$ u6 f; `$ y p9 _ h4 S3 Z9 ?% E
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
2 R2 V$ Y# c/ E" Y在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。- d3 f4 l- Z% u0 \* r9 a/ o
五、不同芯片方案的建设与运营成本对比
' r5 F/ P; l" N' A4 W5.1 NVIDIA 方案(H100/H200/B200/GB200)
8 R8 |" E/ h3 b: }; U0 o, ?CAPEX:
2 \) w% }; ^6 k# O0 O) R
# L% r9 N7 R: g9 _% RH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。& B/ i; C5 o2 o! N
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。! B' M) o5 ]; q0 M
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。/ |9 o, M5 }+ b4 U, ~
GB200 NVL72:' g: V' j; S! C
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。2 r+ D6 p Z$ m7 P% }& ~5 n
冷却系统每 rack 额外 $50–56k[35]。
/ G. a( F) U5 w5 t在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。% u% y; F7 E# ~2 ]+ I( r
OPEX & 能效:1 G- j# M' J2 W3 b B
* q' s6 D% m, M4 P' Q% ^! U/ x
单 GPU 功耗:& a1 ^# X3 d* T& G
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
& s6 k1 Y9 d8 I( M. z {H200:功耗类似或稍高,但性能/W 提升[9][10]。7 t7 L; X1 O8 U! a% g0 ]- L( [
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
. P4 h- E% E1 V; r$ w' I9 G# L& @Token 性能:
0 I) G _6 J- K! mB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
# v+ j' J- i- Y! M9 F9 SNVIDIA 的优势:
5 `: w$ Q( O7 a! g+ K; O9 `7 w; u* T" m# `& x4 B f E, X3 n# C
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
/ L& k* f( O M1 U但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
& m& e+ ` `9 x- ~9 b5.2 Google TPU 方案. \- W: i" z1 d* F) E3 ~- k4 U5 y
CAPEX:
! a5 |+ n3 l, e$ U- f$ i2 g
8 t; f2 x: e5 G5 |+ y单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。+ D/ s5 a# B" Q9 n, [
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。7 u( \* g* I" W
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
+ K8 I) x7 R; \* O L- \0 Q能效:* f" a# R7 ~" V) J
$ u# ~# F0 h5 r# z! T% p2 P
TPU v5e vs H100:/ }# q% C3 A' z8 E
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
3 _0 A# j6 s: v8 b" x4 x, ^$ z测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。% Q& m% X( m/ G$ O
新一代 Trillium/TPU v7:. G. G6 w* @: @; F. u6 V
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。6 U1 Z3 @7 a% j V
Google 方案的特点:- _$ \1 p) D. }2 A. U2 _* `9 M; [; Z" _
* N/ k9 ?# p1 e
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
& L- C. I, C+ G' L对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。4 U0 E! k# @. ?7 w% r. G9 L& J
5.3 华为昇腾 910B / 910C 方案
4 d, e7 e0 q. D3 |$ Q" m7 pCAPEX:% \: @& q7 _+ a* z) e
% m$ E& P) ?% D- A; ~. I; M
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。- ?, ?0 |. y- n3 ]( h: k3 i1 L, S: ^
与 A100 对比:2 G$ ^$ D* O: k" @; I* A2 S4 u" _
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。$ x8 t A, g# l0 g" s2 I
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。5 y( k/ K/ U/ m* K2 x
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。$ O; [5 ]4 A. M7 u( U7 L
OPEX & 能效:
; k0 d$ n3 o( l9 m9 a0 p
% a" J0 o. Z- p910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
1 Q7 s4 W5 d& ]4 M; B: k2 K部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
6 S0 r& _' x6 _$ T7 |! D在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。% P7 V, X$ D% |: I5 a, w9 ]
5.4 平头哥真武 810E(PPU)方案
1 r$ Z# m, ^7 B% [4 O( m8 aCAPEX:
. S! W6 f% b5 E& @% J- x) W1 S3 J% k4 L
技术参数:
2 z* `4 i# x3 v96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
4 T! x2 Q/ [1 c: n性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。5 \/ e. r7 Q y$ A* _1 h
价格:( `5 G5 E; {8 O8 l3 } n% p
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。1 b" Y# ~% X5 I
结合国内报道:
$ m4 q% S5 S6 G. S- G. j% m& t( q6 V5 l2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
: w& u: A6 o# E o8 K数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。2 ~' p: [2 R3 v2 n" `8 j
OPEX & 能效:
( Z s% y2 [/ ], @
}3 y5 [) g7 M400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
- v' p7 ? |; W9 P在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
* z5 g$ Z$ L# E六、综合比较与策略建议: {6 z. H: K5 P8 E+ l" k1 D0 j
6.1 区域维度:在哪里建 AI 数据中心?
5 l5 y I: Z! o( T7 R8 t纯经济性(TCO/tokens)排序(假设无政策/合规约束):# z! q. U8 D3 S# r B
3 u& ~+ M8 U- F% Q: m中国西部/北部(电价低、人力低、建设成本低)
0 \* X# \6 W. G' h Y% c; A" p中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
) @% w: M9 v! o. B; ^9 U0 G美国电价低但人工高;东海岸/加州电价上涨压力大2 I1 ^; y5 Q: ~. v. [3 G' H
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求" x1 ?4 Z4 A, E: j8 K: W
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:+ z" k5 Q5 [7 H) q* ~5 W% ~
$ g* ?- W5 Y. m$ [2 Q纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;( U2 U: P: P$ ~' t0 o
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;: _) P o% Z5 p1 w: b \% _* Q, N( g
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
. z8 `3 W5 r+ ~0 `4 a; c6.2 技术栈维度:选哪家芯片/云栈?8 f6 t' C* W& F' |
若目标是全球最优 tokens/$ 且不受出口管制:
- j+ ]) U* [0 [3 u9 R2 a# J8 Z J2 f% P; n
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。2 k& J. V, l3 [
若在美国/欧洲,能自由采购 NVIDIA:
" \* f/ F3 o- u. w
3 j& s) U3 d( d4 m短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:1 R" P8 {( ^# f) I- e/ n9 v: v
成熟的软件栈与生态,极高的 tokens/s/GPU;1 z, O a" }& h) i7 s2 s
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
0 Z9 G! L1 i1 f, z' m但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。6 [+ ], S' i* Q! U; Q( a: S& e
若在中国或存在出口管制约束:! o9 Y- g+ A6 |. J" s2 O W2 |3 @
& @; ?/ a9 F: X: M, u l" w
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:
" o8 {7 x$ c4 a性能上已能覆盖大部分 GPT‑4 类推理需求;
- t: K$ J$ b+ V单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;& r, J" n% @8 N- C% u5 D
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;* `" l; M9 B2 c, C3 R
建议配合:
, u# _& t& Q1 [+ S/ I' ?高效液冷(PUE~1.1)、, E5 q# [+ D, D/ n+ t3 W
大 batch、路由(浅层任务走小模型/低成本芯片)、* H/ t) T( J* [4 O* \! A6 d% d
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。
' q' u0 ^3 n% _1 A3 v/ {- Q长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
$ h' U9 c1 |, H; h+ P
1 e& E/ {8 g, e0 `& N, M数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];* c" f$ F0 S* V7 c* U2 O
这意味着:
: g& f6 [6 e7 p. r& D优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
1 P+ W9 d5 o8 K. l- \4 R精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
+ f" G" v/ `* I, S3 G. w3 l, w6.3 针对你关心的具体问题的简要回答' ]$ W8 _% \5 o; M( \8 q" ~1 M# p
AI 数据中心建设 vs 运营成本的大体比例?# c# L! Q, x- L- V) d
: @& b; h0 L( h; C3 i在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
! U; G$ I( w! ]' x5 O其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
& t. U3 [0 ?; w) a' I- l中国、美国、欧洲、中东的成本结构区别?# V. r ^: z1 j$ |$ X7 r! E
$ Y, B) v2 ]4 F6 F5 o( z+ U% ^
建设期:3 u( {, s6 A" b$ Y
中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。8 z0 m% [6 ^5 y1 R
运营期:
; {8 T$ c* ^6 K8 w: E, W3 }电价:中东 ≈ 中国西部 < 美国平均 < 欧洲9 h" K* J1 J3 C1 [( j1 E+ s
人工:中 国 ≪ 美 欧,中东居中。0 o3 s; `$ U" T% b! j' |
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?: O3 G) |, B* c, |" ?- ~
k# i# q3 i! c- ?' h$ C# n# m: C
对于典型 1 J/token 推理负载:
+ }& R( e5 R2 Z+ O2 G美国 $0.30/kWh:电费约 $0.083/M token6 y& U& N. N: D0 T1 i. S: A
中国 0.3 元/kWh:电费约 $0.012/M token
% @4 t& U' \% Y5 O) a+ ?$ ?对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。: F1 S* g' m+ w* z. i/ Z9 W
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?3 I& m S* S: `+ Q7 Y5 `4 k
t! K0 A' w3 A8 a+ A
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
5 A# O4 H K/ G4 @* X全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;% c8 F/ y, D% X) R9 |) |3 W
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|