TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:
& F6 w6 p/ F n# t* `9 a6 V
8 O- c% q6 ^$ ]% N6 |一、总体分析框架与核心结论8 K5 n a3 B9 b# \
1.1 分析框架概览
) b2 e$ z% {3 I5 X7 m1 t拆分维度
, x% D3 S9 {3 ?$ O0 v1 R5 j7 w1 K* P9 ~8 I
阶段:
( {& L% e" ^, i建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
: M: H/ f. f! B4 m运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等3 L2 C+ Q y9 R* M: h
区域:! r, Q G- e3 N0 }
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
6 ^4 Z% u6 E8 r% ^技术方案:
/ P" M; i \) V2 z0 U2 u- F$ h) pNVIDIA(H100 / H200 / B200 / GB200 NVL72 等)4 O& I' H0 y% g9 c
Google TPU(v5e/v5p/Trillium 等)
1 ]. n5 J& v5 d中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)# F, {5 E( O4 ?8 ?; d
算例基准
. k, X( ?+ v |8 G) e4 Q g4 `0 Q
以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
7 b0 e2 H6 | O7 V% c其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
% k( x/ C9 t* i/ ]! O0 gPUE 假设约 1.11(高效液冷场景)[1][29]/ w' E( Z* x; ^$ Y9 P2 D, T" E* u* l' ?
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]5 `8 B& y; b ?$ S0 r' G" Z
关键指标/ R8 q: }7 z& R7 `/ N
8 |( T% N- J/ `+ U9 N! B
$/MW 建设成本(含/不含 IT 硬件)
2 n1 n( i& O7 p. z; l$/kWh 电力成本、L/kWh 水耗+ U5 u; R$ }& u& w3 X: ?: k
$/token 或 $/百万 token 的综合成本
3 K- F% t4 H/ W% mToken-per-watt / Joule-per-token 作为能效基准[17][18][26]" R0 z1 w( Y& Z
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)1 @; W; V6 {6 O% }6 X7 q3 M
1.2 高层结论(供决策快速参考): K& e7 W6 S4 T2 H. F6 h: T, K i
建设成本:AI 数据中心相对传统云数据中心成本翻倍
" p+ R S& q' B2 U/ |
+ x0 U+ E9 I" i) G传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。# `( i0 a+ _& p
AI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。9 R2 A& Q1 H6 |1 N
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
- z2 ]# Z$ k$ v% M) Y4 C b区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区( U2 M/ Q l9 Z5 ^) X7 K
) R+ Q) o$ _9 w. P' V
中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]9 s' n, I( K) y( \% n0 p+ v4 |4 K
美国:$8–12M/MW,400 MW 约 $4.0B[1]3 Y; a% j5 G, {# v9 N, \
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
* Y' o4 x r* |' l! U/ v中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]0 g( }1 P$ Q* `# D& J
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。$ @9 D/ T- A2 [& p2 s% U2 R
OPEX:电价与人工决定区域优势$ [6 s+ `7 p4 g5 D
% X" t/ d$ ~" A* j2 O
电价(2025–2026 工商业大致区间):9 C- y( C3 u- f
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]; o/ n1 Z) z: c: a2 q6 d0 x2 ^3 ] L
美国:工业用电约 $0.085–0.09/kWh[44]+ O5 ^2 H$ g- X. g( C! ~ K3 z
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
/ S6 X. M' Y }5 D# Z8 a中东/UAE:工业用户 $0.07–0.13/kWh[47]" U2 D% m, g# y3 K$ x2 {
人工:
' N) j4 f# r; A. r1 ?- L% X中国数据中心运维:约 $22k/人/年2 {" s& M: ~- `8 \8 N8 I' @) l
美国数据中心运维:约 $120k/人/年[1]/ j# c2 n3 h" l* I
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
( G' |) p5 j2 y% K能耗与每 token 能源成本:能效差异远大于电价差异
! x, W5 j% U+ ?, ^- s2 d9 J
9 D* b/ e" n8 m8 X: xIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。+ [2 {" [4 M7 U! }
大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
/ e- J6 }6 }) G, [将 token 能耗约化为统一口径:. ?; r8 b, w: z+ Z6 y# m
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
; q2 L% S, ^$ \2 h+ l中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
* P4 a$ n3 c* S. W5 H9 v z美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token( n/ r) X: d8 n" y" |
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。, B3 ]" x/ n; g
不同芯片方案的核心差异3 C$ p) s$ e# X- O$ w5 r
* k- {$ T& G3 F' w y* ~0 H
NVIDIA Blackwell/B200 & GB200 NVL72:- g' |& {. N, N* i
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
, T9 ^/ }7 U& fGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
' E# [( ]- e' b" y% h7 W/ G" T* iGoogle TPU v5e/v5p/Trillium:
' b/ b( k0 M( c% y4 u- g, q* WTPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。 N! ^! y7 S' r6 X2 m/ b; A
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
5 U! l: s9 p7 q华为昇腾 910B:" G. \+ X W$ q Y# `) f
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。2 v- z1 | |" i8 r3 H+ Z4 x4 _
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。3 l" y- [ y, Q
阿里平头哥真武 810E(Zhenwu PPU):
; A2 X: H6 @, g1 u0 N) K96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。
/ j0 h: Y/ ~/ a结论:
6 i- e( F6 ^: f; i9 j7 o能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
) v# e* f/ ~- f1 M+ q单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。, Y# w4 B( r* e& T5 W3 z8 v
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。. h5 Q% V6 d$ ]3 M: n6 _
自建 vs 云租的 TCO 与 token 成本- a; w8 w+ o1 Y, c" s9 z2 k, _
. H% c S& d. h0 q7 H/ T
LenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
5 i! X: m: c% j7 c! H8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
9 k) \1 f4 z8 G3 s$ d等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
9 e- ^+ D4 c0 _/ o6 y" x6 p9 E: J8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
3 a8 b1 o6 w9 Z- f4 T; WToken 成本对比示例(LenovoPress 场景)[28]:
, C {" ^ T- {. M3 ?' p) L; j( KLlama‑70B 推理,8×H100 本地:约 $0.11/百万 token
5 W$ l% P; @' Y/ f% H kvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
% P, V4 H5 P( d* E \同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。# U9 Q+ u0 R2 G% h, P w: a7 [1 {
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。
# K4 ~0 ~, c2 r& @ s/ }9 T! D" y结论:
1 ]$ D) O6 }6 l$ M2 n4 L高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
# n E8 @$ v* F7 V3 VToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。3 ~7 r2 l0 ] H- C2 y" Y
二、建设期成本分布:区域对比1 |; l) ^: ^+ j% V
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
6 J* b+ H3 f9 {& g8 X
9 Q" E6 S' b0 Z3 d: ?, B2.1 全球/通用结构(以 1 MW 为单位)& B( B9 ]. J/ x& B9 P# b0 Y
综合 JLL、ConstructElements 等[2][41][40]:
, t. F- a7 f Y8 T& }1 f0 D$ {* F& i$ W' P' L! o/ o
壳体+机电(Shell & Core)
- u# N( h- L2 d& Y( a- |% w$ L! _& V4 D/ n
全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41], _" k( z. k; M7 R
其中按成本构成[40]:
$ o5 L$ F$ S# {6 ]( v1 E电力系统(变电、配电、UPS、母线等):40–50%
l; q% S! \- o8 p- R4 h机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
9 x6 B+ Y- E; p4 p1 y" F建筑与土地、结构:约 15–20%
c/ T, p1 d4 m C' e其他(消防、安防、楼宇管理等):约 10–15%6 p8 |" J7 `, x( }1 j" v3 M" I
IT 内装与 AI 基础设施(不含芯片)( S0 ~" t( U3 P, y
% E3 C+ `, f! u+ _
高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
0 [" M- l2 [" V5 [8 {) h0 pGPU/加速卡硬件 CAPEX7 {3 k' e- j5 t
) h8 v: Q# n6 d; Y5 W% B1 D; x多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。3 e. n, Z. m% s9 I, E
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX
' j& m% ?" Q3 Y7 W$ e! h4 k. ^# l结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):
% w k! N8 l, Q0 l4 W. D3 g2 O3 l& q& m: C
区域 典型建设成本(壳体+机电,$M/MW) 备注
$ {8 \6 Y+ m. c. ?2 u4 z( \3 A中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
8 |8 \& p6 i5 T6 G美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
$ E$ k6 \$ z+ X. R5 e欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]; z, x( {$ b' V4 P) K. {- x
中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]& Q4 p+ P4 h5 Z. [8 t1 U
结论:9 D' U1 r5 ?; x. A2 P) M
- @& j! U8 B4 S! D6 W- r4 E单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。5 R( h }# l2 B8 S5 y
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。1 @) \4 ^ e, T* x# u( r I; y* U
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)
7 E2 B- ^# _. p. [' s以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:
* D" @5 e/ `! N( r% ]" d& H3 M3 \; }* Y3 m$ U/ O! ]
假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
4 X$ N) t8 D5 O* s/ Z9 Z4 \( HGPU 配置:
; Y% S' ]9 S8 u, m3 h9 {# c' i有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
& h7 h P1 A$ `" k% k每 rack 成本 ≈ $3.0–3.35M[34][69];
( S6 t# ?' {0 G! eGPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。 L/ W$ p F. H( A
与不同区域壳体+机电组合:5 |: ^* i \$ \2 D( [3 K
+ X) J* i3 e4 z% O5 Z以中值估算:. v9 O8 c% j S4 U) j( c
! d2 D. r$ ?$ G* R
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B0 {/ S0 k, l2 `7 N' @6 e$ f; p
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
1 s( D9 V! c0 f/ K+ E. W欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
8 ^+ m1 i$ L/ ]. Z8 X; W1 F5 s中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
3 d' m/ |) g' a可见:
8 ?& {3 ?4 k. B3 J
& R' P Y+ `, U- @ C! M- ?GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。; D. _ ~6 O7 c. g
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。
; ?2 P: Y' r7 i三、运营期成本结构与区域对比+ e% ~4 H/ g# ~$ a
3.1 通用 OPEX 结构(高密 AI DC)3 N) I0 o) ^, e" g) x# ~
结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
2 n0 Q# @6 ] w# d, D- D% R2 H! ]+ q; l! v
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
6 v% _4 L8 l# q0 @& b1 u8 N7 G冷却与水资源:- O: ]9 |" j5 q6 v' P7 L4 R
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
3 a: [ R: K2 Y" p5 a. \3 T- m) q水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。5 T5 w: A/ F0 O
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
4 c: G( Y( y& I& d0 O托管/物业与维护:
5 O+ a" N+ i) R) m, j1 g- q0 P* T' r托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
0 Y5 q6 J& d9 |) ^% n8 R" O硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
3 w- l5 V! F, ^7 _5 s0 P# g1 X3.2 区域差异(以 400MW / 3 年期为例)
/ r; [0 q8 B; Z$ l使用 ChinaTalk 的电费与人工估算[1]:
& c- Q- b3 {7 U- G2 K# _0 |- y0 T3 }' q+ P- N1 f; M
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:0 m0 u) x, K1 ^3 r: H
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
n6 C S9 Y: r, F美国:约 $0.09/kWh → 3 年电费 ≈ $600M
( _7 C* C. U' q8 W/ k中东:约 $0.07–0.10/kWh → $400–550M
& @& i# y( O2 M5 w欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)* T; y2 V* E' v/ @$ ]1 @
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:
" ]% z! n/ t5 p. p/ z3 j: P美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
) R% r, O/ A: g- Z; h三年水费级别:
0 b P s) Q \- K" o6 C美国:$40k+0 s9 }4 Z# b9 I( f
中国:$20k+
( v/ N: C- H% y' U# D结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。" I1 m& ]/ K4 B4 q
人员成本(3 年) – 假设 500 名全职运维:% \# N1 T m( Q
美国:500 × $120k × 3 = $180M+8 J' I/ y7 p( l9 [
中国:500 × $22k × 3 = $33M+
2 U8 `9 A+ ^: X/ g, G) A差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
' F) c0 ~: X8 H5 ]8 h9 C" a1 y整体 OPEX 粗算(3 年) – 400MW 场景下:
! H; Z! x7 L# _; s. H F) S" x7 t' C& A- X) k7 L
项目 中国 美国
- t. a0 v! s( U3 A% x, l电费 $350M $600M- o4 e! Y: ?# T5 _6 E
水费 <$0.05M <$0.05M. P( ^$ ?; `& T L
人员 $33M $184M
7 p0 V, A; b# f8 U) z6 n9 p& `其他维护/托管 同比例估算,地区差异主要体现在人工与地价
& T7 V0 ]7 Z: i9 ?. h, A, K4 G% N结论:
, ?: ~& i9 h7 h, P" ]1 @
! J4 n1 _2 h9 f就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。
2 \2 y9 ?* o2 R) e. _7 `对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。
! H3 W/ I( f" ]9 z4 v4 i _四、基于 token 的成本与利润推演! H; H: G: V# k6 Y' s% _
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
6 S; C3 a6 O4 h0 U统一假设:
* X: |# h! w+ a" ~1 t( {, v0 S: X
# W( e, Q; d) f! N4 Z7 U- U典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])5 F5 V. t8 O8 ~; E1 P9 R
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh, d: H7 w$ O: |& A6 X' V
1 百万 token:278 Wh = 0.278 kWh
4 H! _8 j2 e8 x% T7 X/ I场景 A:美国电价 $0.30/kWh x9 n4 M3 \! D% g$ c; N3 ?
电费/百万 token = 0.278 kWh × $0.30/kWh
& W! X; k. d- m) Y. o7 L+ B≈ $0.0834 / 百万 token
; U) t) B8 s0 S8 `场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
+ s: o( D6 D* j+ I% G8 X$ [; J9 j, S电费/百万 token = 0.278 kWh × $0.042
8 u7 i" g) S9 }9 d+ _" s% F≈ $0.0117 / 百万 token9 h. E% v5 g# \/ w8 n( d. S) C( p" i
对比当前 API 价格(OpenAI 2026Q1)[62]
( S! h0 v7 Q9 K- R) o e; o. P- g以输出侧为主(成本最敏感):4 k- ~0 p: t0 e9 y7 R* D0 y* Y
. y9 A, H3 G( D1 [9 n模型 输出价 ($/百万 token)
* p+ n9 c$ r$ K) z# M3 ~4 F+ }4 fGPT‑5.2 $14
P" I$ l# T, p' rGPT‑5.2 Pro $168
7 b v+ C/ [# u! p0 j7 jGPT‑4.1 $8
) g& L4 j. u t4 q* TGPT‑4o $10
8 l+ S: P0 i- R5 S3 z8 C1 F6 o5 \GPT‑4o mini $0.60
; T2 v; P1 r8 _: g0 d! E4 A" k% Y则:
" _, g# ~) ~- L' n3 W# {1 t8 x2 a' K+ g& V0 Z1 z
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
0 M2 J; d- ]. Y8 I8 a% `, Q! C在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
2 L1 b, A! ~, d+ A9 d相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
^, H% ?1 T7 ^ U; U结论:/ G& i( }1 c* h0 r1 H
即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。% U; F' m- Z4 M T) l0 y
" F0 U$ d9 Z% C4 j( C4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)1 `- z' N( ]; U- J' z* T
以 LenovoPress 的 8×H100 Config A 为例[28]:0 j: U7 K* F9 z3 J7 V. I
/ m% \/ m5 v o
5 年摊销下,8×H100 本地推理 70B 模型:
& b1 ^0 ]; j) g5 i! ^小时综合成本(CapEx摊销+Opex):$12.08/h
0 p9 z# l8 e5 Y! F2 i吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens2 W0 h+ s8 D2 S% t6 D" a
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token
. z) n6 s1 m- \( O6 _* Z电费在其中的占比:' n, N3 M5 ^7 o
Opex 6.37$/h 中电力+冷却约 $0.87/h[28]
0 g: u8 E1 p9 l0 v电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
" d7 R: I4 ]' o! Q. @电费占 总 token 成本 ~7% 左右。* l p* @) p" M% [4 _3 T
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。+ K7 p5 ]2 u Y/ Y- J5 C
若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。: g1 D# p1 S. ^5 i9 l8 @& O6 E2 R
! I9 { K6 L$ B7 H因此:
9 n( j F: O f5 ?
2 t8 o+ N+ S* j, o0 w5 C+ f在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。- Y8 o1 k/ u8 r) D
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。
' N! H9 ~0 k- R6 P A1 m五、不同芯片方案的建设与运营成本对比
3 r( z3 k, d: t" ^: L0 {* C5.1 NVIDIA 方案(H100/H200/B200/GB200)
8 T; I3 V3 y- ?/ d. pCAPEX:
/ @2 S1 N! @& J9 Q" p7 Q# C8 d! D. e2 }8 y$ H- b% U
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。$ k! h$ W! v4 ], V
H200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
" g$ R- o: D1 FB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。9 F* L- E, T" \2 r* J- H/ n
GB200 NVL72:
: I: I F6 Z& i$ u# y每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。5 R7 t& A. n4 y3 |; { G
冷却系统每 rack 额外 $50–56k[35]。
6 L7 B9 ~7 t/ G& a" Y, c& C; g) ^在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。4 N% P, Q, G7 i9 _6 O
OPEX & 能效:
8 y w" ^# |6 I2 T4 Q3 c% h$ a' t8 a; }9 u* b' [2 e2 P0 L
单 GPU 功耗:; }6 k3 J* C7 ]4 e
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
/ f4 a& I: k$ m% sH200:功耗类似或稍高,但性能/W 提升[9][10]。
4 U, Y) ]$ G% k8 HB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。6 i9 d+ _; ?5 v+ i2 ^7 [; H
Token 性能:" H+ ^* D* |* Y7 ?
B200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。0 H2 Z% g, J6 Y' k8 d$ ^
NVIDIA 的优势:. |7 g( e% j! \: A9 j, t- P
7 p: d6 b2 y0 g) x4 E2 t2 E
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。# m$ |# y8 W7 ~
但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。* |8 `. g5 a1 |3 S
5.2 Google TPU 方案
( v0 k& ^6 r$ I- B3 F! S) ~CAPEX:
# L4 {* ]3 W" b8 q6 X
+ H5 r# v7 r2 k1 v! t/ t单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
' t0 J6 k4 `( O8 N( d( X* sGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。
- v& j/ ]2 t. ]1 D1 w8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
/ v/ g2 ?8 M8 B7 q: Q能效:
9 o4 T) Z& A3 t7 i( J4 s. U: N7 o, w) z' _; q$ V( \
TPU v5e vs H100:& O7 K7 }3 V/ `! o$ c! K7 x7 c& R
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。
# S$ L @" [7 b; O5 o. l测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。# I+ n4 T' i% T) d& ]
新一代 Trillium/TPU v7:/ e# w$ `6 z Y
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
5 {$ ]- [7 `( a& QGoogle 方案的特点:
( G' W* ~* M% x& \" B, ?. P. s0 D8 c) `" i
自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
. Y2 e" H0 O7 f对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。3 j9 j' v q, O8 q4 i9 d5 V4 Z
5.3 华为昇腾 910B / 910C 方案 g* V) ~% e6 X$ W0 S1 x. ^" |) l
CAPEX: T2 |1 K& }, K0 L, U! }
& C8 c3 b5 Q# E单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
9 U6 n3 F: X& Q* b- o! K+ g8 G. G# P与 A100 对比:/ o9 A: v; J. J; {2 [8 [ g0 }; Z
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
6 ?. q' M) g' {' a n" Q# r) z市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
K. C% g0 m0 b4 L使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。' T" X7 s: T. h" M' U7 d2 j
OPEX & 能效:& z2 r0 w7 ]1 A! [3 I
& m; B0 h. _: R8 n0 s
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。; ]$ r& `3 c% u3 G* n
部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。" n% V" ?' b. m' ^# h
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
O+ U M- e1 u8 d5.4 平头哥真武 810E(PPU)方案0 C) u* b; D9 \8 ~' s
CAPEX:
# e3 e' a/ w4 c2 t) P; o
' a ?3 x5 X3 m; B+ y技术参数:
8 O# l$ a9 [) ^+ E, r% R9 P96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。5 @* m F: e# f8 r- v: `
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
3 j8 d" y- T# B8 x4 I* Y9 W$ l价格:0 p' |1 L) L) k5 ], Z1 D
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。) R+ |: p( x2 J
结合国内报道:
7 }; J y! i2 P' c) _2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
) A @8 D* u# b+ k7 N D0 c& u数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
( h' f+ k/ k7 h7 w; \/ @4 pOPEX & 能效:, E8 x4 {# d8 A0 `: L. y2 b0 G" a
$ Q5 q5 o9 [ L
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
8 w# C6 n: d2 I7 \- F在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。
1 r+ s d* X: x1 s六、综合比较与策略建议. u+ T6 W3 d. S* x* h7 Q7 G ^/ m' S
6.1 区域维度:在哪里建 AI 数据中心?
, A& y# P% u0 a1 `' Y2 E纯经济性(TCO/tokens)排序(假设无政策/合规约束):3 J2 f E8 B7 y1 Y! w
6 D2 }! ^7 h1 O3 _3 J中国西部/北部(电价低、人力低、建设成本低) |& H( F$ d3 J" C: ?3 l( c
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)
$ t# O+ J6 T" L+ x3 `美国电价低但人工高;东海岸/加州电价上涨压力大& l1 `) U6 S/ d7 M
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求" S+ I. y* R2 Q/ q' X5 C
若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
4 s" j6 i( {5 t/ B4 p0 }$ y# D) j
& }$ q4 Y" M ~& R8 h5 S |纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;3 m7 j* l' y3 l( L
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
$ a/ Q' x& i- G. p) `' V但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。" Q% _% h0 V+ H% [. t- X, y
6.2 技术栈维度:选哪家芯片/云栈?
" E' r7 {7 D& s$ y若目标是全球最优 tokens/$ 且不受出口管制:& d# z% t, ?' D$ O' S" A) E
3 ^0 ?0 ^' \6 @5 E" V w/ a% f, w: D& cGoogle TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。! E7 [5 I: {: `! ^
若在美国/欧洲,能自由采购 NVIDIA:
% l/ z$ {9 z, g2 O( B! o7 b1 @! m* F" o% f Y$ t
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:& P) G! L+ w" p' j. D4 H
成熟的软件栈与生态,极高的 tokens/s/GPU;( f+ |. c0 i! }, ]
在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
* ?; l1 ]0 W9 ~( ~. O4 b h但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。
4 }0 q/ T7 |, M7 k+ J若在中国或存在出口管制约束:, n5 R. N1 L4 i1 @. E3 [1 N) m" I
+ W1 c3 Q- D3 X- D1 g6 u, s8 w
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:+ V% I6 W; w' b0 N) q4 Z
性能上已能覆盖大部分 GPT‑4 类推理需求;
( b; n# x& h& Q! |% G单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;
$ N4 c$ }% X b/ u7 F* H2 N4 o软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;
% I( d4 z b$ |! y建议配合:' z) J: |- {3 @
高效液冷(PUE~1.1)、$ g2 \/ p9 l2 T- O5 i, Y& ~3 M& G
大 batch、路由(浅层任务走小模型/低成本芯片)、
3 ?5 S6 w; C! C! T3 @$ f9 X强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。* A3 `/ C0 R% }/ ~ Z
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:$ c @0 Z ~, n7 l) }3 p
* f; R0 u8 o# I; |
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
% Y x0 \- u# |这意味着:4 h) `# m8 f8 W3 _
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);
, N) x: B$ p7 X+ a2 W1 B Y精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
; N2 q& }9 z6 T Z6.3 针对你关心的具体问题的简要回答4 @8 V8 M9 I9 h
AI 数据中心建设 vs 运营成本的大体比例?
6 B p) F; ^ R: u. b
& X( }6 W9 u5 i在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。6 }+ F$ ]! _; h( \; C" a& E/ j
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。
/ P& x5 `- ]' q; y中国、美国、欧洲、中东的成本结构区别?
% b" D' O5 p1 E q
8 V, P3 ?3 z7 ]1 |建设期:
# q4 }) `8 v7 i9 {中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。8 b! _! N2 n1 i( z2 m. h/ Q
运营期: f+ p, J9 k! L. i' M" s, |
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
9 P. u) `4 V! ?( g; F0 |人工:中 国 ≪ 美 欧,中东居中。
% Y; s7 @! e1 W在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?8 ]( k5 o/ C$ u& ?
8 _9 F$ b1 w& U3 g
对于典型 1 J/token 推理负载:
' X4 n* C! K) I n2 ?7 }美国 $0.30/kWh:电费约 $0.083/M token
4 H) E4 k4 c8 \2 Z中国 0.3 元/kWh:电费约 $0.012/M token
6 ]& S+ Q% ?! }+ I: R- `8 q对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。5 p; x7 x# p$ g; C j
不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?
% p$ z, i$ T4 |4 S: [% U" L
# Y$ e: c. Z+ w在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
' f9 n, }/ m& v3 b全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
/ s4 ?. X2 F! @1 o/ B1 m* b' y3 {中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|