TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
3 w- \6 N/ _) m& c2 ?* v6 i+ y4 M; `% j9 ?7 d1 n* A& L
一、总体分析框架与核心结论
3 f- w) K; ^; {1.1 分析框架概览- h: s9 g5 ~3 ~8 y# Z% r9 U
拆分维度
+ S0 ]; v# t: h( i& H% V( d" k5 I+ f, O F4 f
阶段:3 k/ k Q/ M3 o
建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施, U- M M9 a( C* K5 t- z5 ~
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
7 T2 T# a- B4 A6 w; J: ?, U/ I区域:
6 f& `) x8 X' s& T/ `中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
$ m" e6 G, v+ M" ~& w技术方案:
7 q, p% X( [! z [, g O T) vNVIDIA(H100 / H200 / B200 / GB200 NVL72 等) l3 T. n; y" @' x/ o
Google TPU(v5e/v5p/Trillium 等)4 h% z& L$ N. }" W7 a" _- [ q
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)! c, t! T& ]6 x) b. J- S
算例基准
' |( P7 g% Y4 E" R9 j+ W- l
) x0 A: B1 p9 j) P$ b以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
^: A5 ^. f" u' N/ Z i其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW( B/ y' F, G: g
PUE 假设约 1.11(高效液冷场景)[1][29]
0 ^4 w- Y7 C% b7 q' R1 C时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
) A$ j7 |' K7 m关键指标' S4 i9 r9 a; q( I" D: e
) {9 o( U# L; {7 |9 O" _+ L1 o$/MW 建设成本(含/不含 IT 硬件). H4 ^7 [0 n4 L, h0 l
$/kWh 电力成本、L/kWh 水耗" m5 Z# z7 s" E' I. B. b
$/token 或 $/百万 token 的综合成本$ [8 I- q+ _/ F, O
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
5 o2 [/ b& f6 l' i* F r' U; M& }项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
, z) r# d, L" U; i9 j6 H1 Z$ l1.2 高层结论(供决策快速参考)
3 O- x0 l4 t) ~# U# u建设成本:AI 数据中心相对传统云数据中心成本翻倍2 c% X {% H7 @; w' _
! ~4 y: e4 P' l# c/ w4 M9 g" i$ A
传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。# m/ R8 R- O! b1 Z1 h8 \8 P
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
7 v! Y8 t, i) ^3 ]按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
& p1 n* z" g) y) x区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区, r, k/ K; u! w- d7 K6 {/ \' j
% m5 K- X3 V( q) Q g) c
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
) C9 a h; m7 v4 N# Z7 N" s1 s) ] r美国:$8–12M/MW,400 MW 约 $4.0B[1]
9 W! ^( w4 b" X7 x7 O S7 s欧洲:接近全球平均 $10.7–11.3M/MW[2][41], P" |: W; f& |+ J8 D [. B. k
中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]1 g% |3 e) K; j( s
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
" {: V& S! E( P9 R# r4 K. H/ uOPEX:电价与人工决定区域优势% y" h, d0 H+ `* j& v: |% @8 `
" d _0 N# r. ~# f# ~1 H电价(2025–2026 工商业大致区间):4 r/ g+ E9 P& B) c4 f
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]: B6 B1 c& z- R- A/ n/ ^
美国:工业用电约 $0.085–0.09/kWh[44]
+ x3 J+ ^5 Y! l+ A: `) Y欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
: g& q* X; P* s3 \& G# i% c中东/UAE:工业用户 $0.07–0.13/kWh[47]' F) ]# R0 z8 |( t* u
人工:+ N# c% r) R$ J! a' l. X
中国数据中心运维:约 $22k/人/年! `5 q n4 D# c
美国数据中心运维:约 $120k/人/年[1]
( {! ?) u! m( c: K- X6 ~/ j结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
: d7 h8 B9 y; B能耗与每 token 能源成本:能效差异远大于电价差异3 b+ e" B" Y. A# X* ^8 z
, t' i! ~" Y6 h. W) E& m2 x/ R Y, D% PIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
* Q. H' w; o l8 c. _3 p大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。2 I# \6 Q4 `# a, W# C. O$ f# y H9 G. g
将 token 能耗约化为统一口径:
" Z$ }# z! u5 `+ h/ q3 l粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:# n! i& o3 A; t9 G3 Y& S. X/ k8 B
中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token \+ l: v5 P1 ` G! I9 \. V
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token5 h& i8 S* O8 z2 w
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。& s1 z2 M w* U/ {/ ^& D
不同芯片方案的核心差异$ d, G. B6 |; ~7 u( k
0 \! g- b5 {$ D. H
NVIDIA Blackwell/B200 & GB200 NVL72:6 R9 d$ K, l* g5 f2 K* W7 b. }$ Z
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
. E+ @" G% k/ e" p$ s2 mGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。: U3 ^9 @; f4 q& R% b0 z7 }
Google TPU v5e/v5p/Trillium:
- p( p. r/ |; s2 b2 zTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
% R! j. M- [* {9 t# V0 dGoogle 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
3 K6 g: d# T; [, }华为昇腾 910B:2 p1 C& C8 e/ i% q6 C
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。5 V" L* h+ w' p
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。, l% }. _* z2 `1 z
阿里平头哥真武 810E(Zhenwu PPU):( } f4 d" X0 p( ]$ ^
96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
) y; \/ i3 b8 \结论:# X7 Z' m" X! ]' m4 {/ ^/ u
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。% Q! s" B+ h S0 I+ Z( {7 I
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。4 d. q& G0 a# W3 M% k( g
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
' L2 Z+ R/ y+ Y8 l$ A* K自建 vs 云租的 TCO 与 token 成本. B( W6 f0 ?9 w
; V3 J& I5 n8 G* W
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
( R2 b4 _! ?1 W( U4 J P8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
( K0 _! l% K' K W5 i& z0 J7 G等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
) z0 M7 f& P; h2 E9 Y1 \9 J8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。( `6 V5 u7 o- _9 T8 D
Token 成本对比示例(LenovoPress 场景)[28]:) ~6 k( C0 s! X4 B8 ?9 W/ p
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
! w2 w7 Y9 w5 K4 k+ E! [vs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
4 e& Y" P' O; }9 X8 E2 X G同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。
0 x* F$ H3 z7 hLlama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
# o( |0 [1 X+ ?6 e% R$ f+ {结论:( {4 g, Y9 o, n
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
- ?( k1 |" A% ?3 v0 W: VToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
, k D) G! }& w& F二、建设期成本分布:区域对比
. {! g0 S2 i# Q- |" O- ]! _4 @: Q: S, o以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。! m% u5 c/ c: U( H
' m. U e# m d% H2.1 全球/通用结构(以 1 MW 为单位)
' [1 m5 l& x0 X3 W综合 JLL、ConstructElements 等[2][41][40]:
1 d3 [/ U% \ ^3 q8 w- s0 b' O$ q* ]# j; H1 u$ D% P ^
壳体+机电(Shell & Core)
4 W0 Z4 }2 x2 W o" C
3 A9 O% d, z% {$ L$ z全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
* j% q9 S( Y# x8 G5 W其中按成本构成[40]:
+ `) K) k0 }3 d6 k电力系统(变电、配电、UPS、母线等):40–50%
- p4 s+ n; `7 [3 j( J机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
. y0 H6 ]0 l, u% I5 u/ ~* @! Q8 z$ R建筑与土地、结构:约 15–20%
, }3 Z- }1 @$ A$ K其他(消防、安防、楼宇管理等):约 10–15%
) [" Y, @$ z; N" wIT 内装与 AI 基础设施(不含芯片)
$ F3 n+ |, e, d. G( t; b
0 M! g$ E2 s; _! D高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
* T! ~( X6 E' g1 x; vGPU/加速卡硬件 CAPEX
% O/ U ?# X2 X0 `
% S# O5 a# h# N$ s) G多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。
$ P, T* m7 s/ C% W, R2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
7 B! a O/ S+ [结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
& Z2 J3 V6 X+ O; J4 b! j( R6 U9 s* C3 V8 X/ Y9 W
区域 典型建设成本(壳体+机电,$M/MW) 备注' E1 {3 |* k: p
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
& m" K( Z8 a# s/ Z美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1], d- @7 i' ?* X' u* l
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
" g* Y2 x* L/ p) U E' u中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]" Y: ?7 x* E$ o% R
结论:
9 W! p& K" F2 l0 f D: [
% G- f. Z5 {0 k; e5 W. i单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
) ]7 r: w2 D, Y, M7 v/ `若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
* h9 b: P# }, M( l# N9 `" }2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)) Y* d; O( D6 T( _; V* ~
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
5 l/ S/ v8 W* g4 \4 y0 ^7 w5 `; p2 X2 V6 p. X/ v* W
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
1 M( B' k* U- ^% WGPU 配置:8 }1 q! H$ A! d; H
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
% {0 [9 Y, e* b/ @+ x1 z每 rack 成本 ≈ $3.0–3.35M[34][69];& v. }' C- f. D- u! d) O
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。8 J1 D1 t* d7 r" ]5 V0 K
与不同区域壳体+机电组合:
7 v2 L6 {: C1 {) [
$ _+ r$ ]: j( T以中值估算:* f) S! b+ T8 g/ b, G% V) b
& p6 i' ^2 v0 b$ n# c* l9 u中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B" x1 y, N# k# H
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
2 a9 R) D" e! E9 C欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B* f6 M( m3 G: ]
中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B+ W& w: _( U3 B/ }
可见:
" w1 f! J( `" h! A( {' _% J: K5 f# `( _ Q
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。3 t" w2 U3 H" J+ `# |2 S
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。) k# |) P3 f* p D4 @/ b& h
三、运营期成本结构与区域对比
9 E. c- }8 Y/ p7 K3.1 通用 OPEX 结构(高密 AI DC)5 g! K! }, F) ]' I1 E* R! `+ H% c
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:) w9 k4 ~4 Q' @7 |6 S0 H
% _5 D% Y9 `7 J+ B5 B电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
0 r1 q7 m& Y, M9 K* q冷却与水资源:& T% ]7 d9 w2 d' T, J9 l3 F
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
# k: l3 E, v1 R, E& a% a水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。" c: C" T/ m5 {3 F @
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
1 f3 b( q6 x# a$ b3 q, |. ]* l托管/物业与维护:
Y5 d9 p/ P1 t5 `# b& b) N托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
# W, p8 W7 _1 d9 H: x; r硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
+ ]: a5 m( Y4 g6 t+ \& I7 L3.2 区域差异(以 400MW / 3 年期为例)
% _, _$ Z( d( B! a使用 ChinaTalk 的电费与人工估算[1]:8 x& E: E3 o! d" f/ n9 G
6 C1 [) r: r0 T2 L1 q
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
7 A( o" g, P: A" O' i中国:约 $0.06/kWh → 3 年电费 ≈ $350M! v* r* }9 a" ]% j( V; [1 C. Y: z0 ^8 ~
美国:约 $0.09/kWh → 3 年电费 ≈ $600M
, w9 ?: F( i) N* t- T# n7 w G中东:约 $0.07–0.10/kWh → $400–550M
# Y; Z6 O6 R E- x! l. b! f: Y欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)
2 G/ `0 p; t$ o水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
/ z& Z( @' S! | z美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
+ K7 _; x0 y" y( Z9 H" r" L- k三年水费级别:
: q, z/ J% [9 C; o b美国:$40k+
) j" n3 K* {) a: S2 }0 ~中国:$20k+
6 l. k* Y/ Y% U$ P- M& m结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
& o/ n3 l, f- D( p& L: v! x9 r人员成本(3 年) – 假设 500 名全职运维:5 b* I6 Q& R; c/ `0 \
美国:500 × $120k × 3 = $180M+
- n) }( L3 R3 Q8 v4 l' e中国:500 × $22k × 3 = $33M+& Z* B- T0 {" H% @
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。1 m6 d8 {; c! O/ t L% m5 ^
整体 OPEX 粗算(3 年) – 400MW 场景下:1 g- c4 y! O# I4 [/ d# Q: K6 |
% m- _$ D- R/ }& N$ s i
项目 中国 美国
$ c; ~+ v$ E. q6 P& I( f电费 $350M $600M' F' x9 X- r9 [* ^# U. M0 z
水费 <$0.05M <$0.05M
3 N+ l! L Q. j: g% _* P1 m- Y人员 $33M $184M
- {6 F: Q$ o7 i+ a8 A( `: |其他维护/托管 同比例估算,地区差异主要体现在人工与地价 c& V. h8 K4 j+ k( m6 B
结论:
* Z7 | m/ g9 k |" u5 ^1 e+ q' q/ _ o% o; J( J' H H/ R; |
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。2 m4 }) ~' r$ H, |
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
7 A) a/ G. E8 y四、基于 token 的成本与利润推演
8 T0 |5 e6 X5 A" O4 W [' W, }0 S4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)( Z1 f) n c- ?" R# |
统一假设:9 H1 P7 T) C5 |) E
4 g9 |0 a9 J* a6 L. K) r+ u
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])5 v8 e* d2 {* {- _
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh( l; `& |1 U! ~; K
1 百万 token:278 Wh = 0.278 kWh
?6 `' V0 t! f0 T场景 A:美国电价 $0.30/kWh
4 i0 f* Z$ l* k- _/ F1 A4 g电费/百万 token = 0.278 kWh × $0.30/kWh, n' V4 i% |) t- M3 v% h
≈ $0.0834 / 百万 token
1 _& J7 t3 d+ V/ m6 A2 b场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
2 N. H* m7 L- C电费/百万 token = 0.278 kWh × $0.042
J1 D/ O8 B) t9 g5 }- H& D≈ $0.0117 / 百万 token
& Z+ _& o1 X& b& X( g对比当前 API 价格(OpenAI 2026Q1)[62]3 Q5 b" {3 F2 V9 x
以输出侧为主(成本最敏感):$ x: ?0 e0 {" K1 m. j
. G; Q' y* Y, |/ y8 S3 X
模型 输出价 ($/百万 token)1 F) u% O! n+ u/ ^( B
GPT‑5.2 $14
) S; M9 C9 X3 Z$ W8 BGPT‑5.2 Pro $1681 _) G5 ~" X' W" V
GPT‑4.1 $8
. h3 ]: [$ }; a m7 E5 `5 ]& J3 XGPT‑4o $10
5 }0 o5 e k( C6 T0 f1 ?GPT‑4o mini $0.60. t- `7 B3 ?) m
则:& f7 _2 }& ?4 w- e% r0 ^! y: S
1 R% h0 C: {: K3 t6 L# ?- w% a0 A在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
# Y% u' S1 [0 K5 z: T2 C. b1 V在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
! a. t3 z3 m2 O+ A" G3 a相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。$ Z0 U1 w& b' `+ d0 O
结论: M: a3 K" d. q* F3 ~
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
& _, i9 x' n; W3 n" W% n' w& T7 ?( Y; }1 g( B4 V+ K1 a8 N
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)( R9 O, y# Q' Y D9 _- o' u
以 LenovoPress 的 8×H100 Config A 为例[28]:0 }; @. O c% t7 ^! [$ u4 Q: r
7 M% Q/ y. ]) @* K! Q7 P: }
5 年摊销下,8×H100 本地推理 70B 模型:
2 A4 h$ i/ N3 B9 r) Y0 G小时综合成本(CapEx摊销+Opex):$12.08/h5 j( c) t0 x4 \* X# v) U5 o) m
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
3 J2 G; [4 Z7 ]$ b成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
+ n" t+ m' ?& U6 B电费在其中的占比:7 m$ _ I _) k4 m9 `
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
6 I0 E _: A) v. K! t. @ A电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
. L" ]7 q p5 `! w W& {: }电费占 总 token 成本 ~7% 左右。6 I9 z1 ^( E! {+ t/ b
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
; {1 I4 A6 j- `. s5 C若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。! G4 q/ u2 ~9 ]; e) p
- Y; p2 K/ B0 @
因此:. e% S3 p( d5 _* ?% U
; }5 q- p* w# V1 [' R& U8 m在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。
- r9 P4 B3 q6 V6 U H/ s在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
! O+ o7 u4 r6 D- j9 G" _( M& E五、不同芯片方案的建设与运营成本对比7 C: ^% l( H7 H
5.1 NVIDIA 方案(H100/H200/B200/GB200)
5 E: F9 ?+ g2 NCAPEX:
4 [0 ]: K' U/ i$ B+ n' |+ i5 z; D9 |
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。- b0 L( q+ j+ {/ u5 S% D" M- O" Y
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。$ Y4 U# o+ x% P# x4 O/ s" `
B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。
7 _- O. i! w" s1 }% `8 WGB200 NVL72:
5 w$ R( W# T2 Z! w& ]+ N每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
4 Q; q# p5 i0 q5 h2 A. e: l$ r冷却系统每 rack 额外 $50–56k[35]。
; O% u3 K1 i6 o+ x L/ E在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
. Y2 o8 N' G3 p7 I; [$ y% KOPEX & 能效:7 E- D( l' ~( T6 i
( X5 J9 D9 f/ H8 E7 ], }
单 GPU 功耗:6 \8 _* P# a0 j
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。( ~" X0 f: h5 J' `5 x+ R+ M( R6 w
H200:功耗类似或稍高,但性能/W 提升[9][10]。
: | g# w8 b4 w# M D! CB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。& E% J1 h4 w, `9 G, |) a
Token 性能:
- \6 G: x" Z! bB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。! {* H2 e3 c, i1 u0 i
NVIDIA 的优势:. L( H# O0 E x+ p' `0 L+ D$ d
: y; n, g m3 V5 y6 f; p$ S
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。% G& {; k* @, R; p& J8 p* g0 X
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。
$ Q) E6 ?0 d0 d5.2 Google TPU 方案% r8 C. u6 `! I, S" w
CAPEX:2 W% D5 J' q$ x4 i J1 J
P8 {4 I% R, ]/ m3 k5 c
单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
1 U5 U3 t/ w p) [/ p, o% b9 `GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
1 y7 u9 j5 J5 }/ [' Z8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
d8 P' {6 B' m: B* I3 F能效:
. S0 I- A G' b$ y- s8 D( C5 n2 n4 g: n
TPU v5e vs H100:
8 H4 \1 C n7 e0 m同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。 A' Q8 x ~( d" J' j% q0 o- ]' Y! L( L
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。, R4 C* l+ o Y" M9 s# g
新一代 Trillium/TPU v7:
* }1 v% K- x' i0 U# N- j' K9 a能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。: z6 m! E) z" N7 F1 t
Google 方案的特点:
M! l' r/ A; P) v$ C& E
5 s; }+ [: Z$ r, O" s& W7 u$ n自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
) w2 n. P! w K; @# }" D1 j) y对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
9 Y" l- u3 Z7 ^$ k0 w3 r. B# Q5.3 华为昇腾 910B / 910C 方案
}0 f/ n+ f1 g8 `, a7 O. GCAPEX:; y- m; g) ~2 G
+ j- i' e# k: m9 y; f% X. o/ s9 f5 l
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
5 t* i7 K4 f; d2 Z. `9 a! O与 A100 对比:! q* K, f" |6 J7 m+ F
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
3 G+ O+ y- m! @" Z) y% F0 ?) Z3 w2 m市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
3 O0 v; J4 c# B) d5 @使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
* C) E3 {1 @& }/ y# dOPEX & 能效:/ |$ r3 W" A6 X4 k
. D5 W- o2 G; P
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。" b4 M( {2 l. \3 }' q e2 i
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。4 E% ]( F8 A$ f' G# T8 t
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。5 L9 H3 }) s- O U1 M
5.4 平头哥真武 810E(PPU)方案) u2 o- l. c3 N9 x" x' y: j
CAPEX:% F9 K' Z7 {/ E; v0 b2 J4 v5 t1 k: ]
9 a0 U( I5 o2 ?技术参数:# t/ V# G; R! y& \' T. K: U
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。; {# J% a8 G6 v& [
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。( I6 x& t1 K5 I2 C
价格:' z& n% r* q `# c: {3 t
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。9 j: ~. e* y- R% }/ c3 r( R
结合国内报道:3 ^7 u+ | x5 j* S ] @
2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。: Y/ a; V3 f* {, _: @' G! |2 v
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
/ J/ x, H8 J3 K! SOPEX & 能效:
1 E6 T s+ p' S0 p* u6 I
5 N% M8 v) D; a9 B; ]( i& Q400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;# m- R; W& A4 S' s' }! ?
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。1 q! t: _& l5 }' K) Z
六、综合比较与策略建议
- W* m C: U% X: A6.1 区域维度:在哪里建 AI 数据中心?
+ @1 ^( m5 D5 g( K5 ^+ {. L/ F纯经济性(TCO/tokens)排序(假设无政策/合规约束):( Z9 U$ N6 a4 Z3 I n$ ]9 F
. t4 S: J y( l/ [中国西部/北部(电价低、人力低、建设成本低)$ @* e0 a% _/ P2 m" A7 u: O
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)7 b: T% P" [3 x0 P, L% B
美国电价低但人工高;东海岸/加州电价上涨压力大) ?$ O5 E/ [$ W( U
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求2 ~) l; I% A+ |2 ]. [5 v
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:$ g9 J# E6 h5 \1 M. R1 w/ G
/ d5 @- l( }" r! C
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
/ p3 B. M, R- o, _1 b! ^对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;7 g5 ~5 D4 K0 R# f( o% L
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。# A+ [2 a0 t: N J2 E' o2 `
6.2 技术栈维度:选哪家芯片/云栈?4 l8 [7 ^# k2 C" W$ `* |9 y) w+ o
若目标是全球最优 tokens/$ 且不受出口管制:
2 r9 d+ R# O5 q/ z* t I! h
# {! i) F- o) C; CGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。+ m* L% f' b' p' ^+ s$ J2 F8 N
若在美国/欧洲,能自由采购 NVIDIA:6 C: Q+ ?2 C; {3 R% l
8 c3 l. m; e' ]; m6 _7 N5 N: \短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
' z4 D% N! k k3 Q8 l成熟的软件栈与生态,极高的 tokens/s/GPU;+ b5 {! I3 w/ x2 A+ b- R( x8 S; f
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
2 S/ B4 g) m% x6 ]$ o/ H% j/ _但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。4 U" m/ _) a. f" \9 I
若在中国或存在出口管制约束:
q5 u; Z% E0 k) D
( | z) u$ Y7 t% u昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:. M" b+ [2 |/ C# g! x2 j
性能上已能覆盖大部分 GPT‑4 类推理需求;, s7 }& i: g/ Q, K& c; ~
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
4 ^/ y2 m# N6 |5 e- ~3 v/ |软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
1 O0 q0 ]- H: m4 t& x建议配合:2 g" n8 V k7 t8 E* v: j
高效液冷(PUE~1.1)、: D' k I: g, w R3 e7 Q
大 batch、路由(浅层任务走小模型/低成本芯片)、
8 n9 c% F; Z* F/ W- i强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。; Q! B9 w& k) ]$ O) J* G8 a3 E
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:- ?. x, I' {( y* t8 ?5 L: V6 H
( ^0 L. \0 Z. [! W, X k- G) ^) n数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];3 }5 {% K% g8 ^5 t
这意味着:
7 B1 L i7 t( i+ C$ o优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
( B6 ]5 m* r5 P2 \. g+ L$ s精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。3 q1 c5 O$ g/ [* c& |3 Y% Q5 W
6.3 针对你关心的具体问题的简要回答* V" }7 ^ S6 L6 v0 ~5 h2 W! e
AI 数据中心建设 vs 运营成本的大体比例?
' |' C8 x) [. d, t/ n# d4 Q+ l3 x. w0 |5 S
在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。3 [4 R% W" _3 C0 C* _; H" l
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。. F1 v" ^! P# s$ Q2 L
中国、美国、欧洲、中东的成本结构区别?6 W& S3 r A- H( m/ s
/ w+ j5 g6 l* e4 l' ~& ?* R- E
建设期:
, H( G1 V( j+ U/ r2 G9 k中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。# y, Y. G4 ?/ g
运营期:, m2 h$ }; @" o
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲0 Q' I; t# Q" L8 I8 V0 [1 Y* w+ V
人工:中 国 ≪ 美 欧,中东居中。
3 `5 d, x4 w# l在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
: f2 x& M* D% [& H; I) `/ D- Y) H
& J1 _4 x6 _) E. L对于典型 1 J/token 推理负载:
% u* \! F3 t: k7 p+ S5 n美国 $0.30/kWh:电费约 $0.083/M token
3 q; l7 }8 J& Q: k6 n. s4 G: ?中国 0.3 元/kWh:电费约 $0.012/M token
/ R( s8 ^, R& S: U F K* ]- p; l对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。' g, {4 e( v; g2 z& Q
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?% u- ^: Z7 ?# U8 ^# z4 O% \
: b8 w8 o1 ]* g" Q6 I9 ~
在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
* \2 G# L1 U. j9 q; O+ U全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;0 g' h8 \2 F4 ?/ n, T' _
中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|