TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:, o* C4 u' o7 _: ?) c6 `
# N0 T9 L5 k# L; S, c4 ^' v一、总体分析框架与核心结论
$ @; R, l9 O- O: T! _. w" q5 a' y1.1 分析框架概览- j* S4 p7 D4 h$ R5 Q
拆分维度4 ^% O+ j: i2 f- K2 H( r
' q% D8 K3 V u
阶段:
/ j( N- c* G1 k. s' R建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施% U6 |' ]( ? j# j, _
运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等
- x! ^: o8 T7 H0 t& P: l区域:( l% s/ n) K" z: P8 h: V
中国、美国、欧洲、中东(以海湾地区/UAE 为代表)# F: d4 G4 V3 c
技术方案:$ S, v# g2 V3 H9 t2 O; }
NVIDIA(H100 / H200 / B200 / GB200 NVL72 等)4 ]( h* u1 d+ h& O: `3 d
Google TPU(v5e/v5p/Trillium 等)
) s( h3 ~* V5 O中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
. @+ A0 p( v3 u0 W$ x算例基准9 I: q1 B7 e9 t; F# x- L5 I
" j- C0 a x2 k) v4 h0 N- s以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
/ K5 j- |; C9 R" f- s, _) g; f) a其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
$ {- i5 r! K4 R( e s" YPUE 假设约 1.11(高效液冷场景)[1][29]
8 y; b+ ]' k @* i/ {. o时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]+ q0 a' B {8 c9 S1 }& G
关键指标
V8 d4 Q7 ~3 q& \9 M
7 w) d. e8 j) C+ { c$/MW 建设成本(含/不含 IT 硬件)) m; @/ \+ j6 z! I8 T' O
$/kWh 电力成本、L/kWh 水耗! b) n5 a. C2 Y. W+ W1 s- \* N) H
$/token 或 $/百万 token 的综合成本
3 K- a6 F8 h! B- X3 `& FToken-per-watt / Joule-per-token 作为能效基准[17][18][26]- E! D! K. x# z$ l i; _1 o n
项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)" C8 ]& D* l. D7 o# f3 k, C5 y2 E
1.2 高层结论(供决策快速参考)
# R5 u' \5 B7 J9 R2 |7 q/ O. p建设成本:AI 数据中心相对传统云数据中心成本翻倍
# E( T2 {, _3 \5 @4 y) k2 Z# F
0 D4 M7 i# o. X( q, x4 O4 a传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
# z+ g" |$ _7 u5 A1 dAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。
2 ]+ h' t) ~/ @) A( I6 k, b按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。
7 Y9 B G N6 t# Q- [, _区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区& o5 K; M3 w7 B9 K4 E" d
: P( v7 \3 a; [4 y( ~" O+ ]8 V中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]0 w0 | ?& S% c& P3 z, I
美国:$8–12M/MW,400 MW 约 $4.0B[1]# j1 i; b$ E4 E8 A! k! D0 V
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
- i) C4 O! j0 _9 y中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]- y/ H8 g& g6 d7 L' E. b* `5 K
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。
& l N. [6 @/ G' q$ Q# R6 H4 iOPEX:电价与人工决定区域优势
$ K, H4 E: s& ?' n/ Q) v
2 ^7 S$ q: n, p0 ^电价(2025–2026 工商业大致区间):
1 y; S0 @ |" A) Z1 I中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]
$ m. Q2 B) p- M1 U* h/ K美国:工业用电约 $0.085–0.09/kWh[44]
" \' Q$ A9 u# R, T5 o) O7 |0 n欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]/ p) o4 i4 i& t2 X0 f+ e6 \
中东/UAE:工业用户 $0.07–0.13/kWh[47]
3 n9 V* ~) U+ M7 w! B- Y人工:
2 [4 F! T& ~7 J# X9 z中国数据中心运维:约 $22k/人/年( z3 d4 P$ I* @2 |! g% \% `: r
美国数据中心运维:约 $120k/人/年[1]
0 D) K. d; p" g& F) F结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
' t0 }0 o8 e+ F/ j/ d. M能耗与每 token 能源成本:能效差异远大于电价差异! K2 A, X6 g! @: n# m/ _, m
) P7 w8 G3 P$ e. ?+ Y/ LIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
9 G& j3 ^2 C( X, l: ?大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。3 ]; N$ F+ P4 c
将 token 能耗约化为统一口径:
. k0 Q3 s+ Z" R0 N, ~. q+ t3 n; T0 p粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
8 r6 S5 I" W) |; v0 v4 U中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token
$ B; [6 q4 N5 a$ T2 v8 d5 s美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token
6 \, ?2 M" B! {9 b; O对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。; r* _$ B1 M$ z" K8 k
不同芯片方案的核心差异2 x+ o$ c1 j0 O/ k2 Q" d
2 ?, h+ l1 f5 ~: f2 e( Q s& N( fNVIDIA Blackwell/B200 & GB200 NVL72:% W& w# a2 F* h3 l. I0 s4 n
单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
/ r, G+ z! h% N9 aGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。 L+ ?$ R% _" N! g, a
Google TPU v5e/v5p/Trillium:8 u8 c5 {0 s: v. w* P5 _4 ?
TPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。) O7 ]5 s) P/ L
Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
, x$ Z; q0 E% C8 \华为昇腾 910B: b' n: {0 s9 \4 X% X
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。8 e4 q) z% C& }" ?8 Y1 ]$ l
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。
- ?7 |$ Q; }! z: {阿里平头哥真武 810E(Zhenwu PPU):
1 W7 Y/ F- X( v( h96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。3 @1 I* d; V+ v5 ]
结论:& ?. P) m7 s* }/ s* g* f
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。& R! h0 N7 `: {
单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。* `. X7 U8 Z# A; h# I
对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。! @5 \% e# U0 n
自建 vs 云租的 TCO 与 token 成本
$ H/ |- B; g& @
# z/ B+ Q+ ^0 z& u$ K7 i4 g5 vLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
! H7 U4 x. ~" R& o7 T8×B300(Config D)自建 5 年 TCO ≈ $1.01M;# b/ b9 M, v B" D! y
等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。$ j& q& T. x! q, Q
8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。3 ]; S9 b' t/ b- M0 m6 f: o
Token 成本对比示例(LenovoPress 场景)[28]:8 H) `; v% m1 U2 g' X: r; K3 p
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
8 p* d! ^/ T/ T( h" N tvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。
! u' X9 \% _5 j0 j同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。: K$ {/ S2 }( q% x
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。% h |: F3 I3 g
结论:$ l7 R: B+ z* _$ x/ {
高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
z6 K) Y: e5 B0 L& D4 I- Z5 aToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。
* V" s5 ^2 T- A9 U$ y! v二、建设期成本分布:区域对比2 i- s' V' `2 w$ K$ {: k! J4 @/ q9 e
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
# r! t" {+ V; q9 }6 _$ O; r+ E' D4 D
2.1 全球/通用结构(以 1 MW 为单位)5 h: B" k- |4 e9 R6 |1 q
综合 JLL、ConstructElements 等[2][41][40]:
5 c& i2 W1 Y3 S4 N/ h) K- e5 w; q- I5 d' X! ?' v, V3 U
壳体+机电(Shell & Core)
. Y! w2 X6 b0 t& }' O
) b ]+ Y9 ~2 X+ d全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
3 e J% | E6 u& o5 V8 N5 L其中按成本构成[40]:
" W- D4 P, C- h ^电力系统(变电、配电、UPS、母线等):40–50%
! w! N- P6 w2 D* f机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%
4 Z1 h! w1 y7 i; a( v- t c1 \建筑与土地、结构:约 15–20%
' C4 a9 E- l$ M) _9 u N! ~& y- w其他(消防、安防、楼宇管理等):约 10–15%$ \( {* K5 Z6 G O. ^
IT 内装与 AI 基础设施(不含芯片)/ p! B+ {' A; M9 @/ ]
7 k2 |% {. z% d C高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。$ V. D! q- [( d9 q* S1 j' r6 Z
GPU/加速卡硬件 CAPEX
' F- d/ i! R! P9 O# V S. ?; l3 B1 K* Y& P3 Z
多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。8 e! G: S! u8 `7 N( g; V/ I; g; i
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX- l2 B7 R1 w6 k- t a e
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):" ^. b$ N+ E! Y) m: c3 C
# i1 \$ N6 N/ L2 r1 B8 d区域 典型建设成本(壳体+机电,$M/MW) 备注
0 S. {. e" ~1 q! D" n6 c中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
/ ^/ Y0 T" @0 a1 i2 \美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]- w8 _! D& R) N; L
欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
& O' A, r6 C4 X6 |中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]
- O) P* ~4 q* D+ Q9 @) p Q" j结论:+ Q' A# D! v# \- P- m; c6 t
) r5 F/ ^3 i7 {2 y% C" _3 [
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。! C) P, f" w" }9 M5 S6 Q0 N
若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。
W! |, d6 R% Y/ G4 f% y2 x5 [2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)) _" U) r0 [0 v- [% Z* K z; z
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]:9 o. ~" w/ |' U8 E
q$ ~7 ]' b" x" ^# E2 j9 c. ^假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
: M3 w. h5 D% @9 XGPU 配置:2 ^: q @" \+ y" {% l6 h1 Z9 s9 f9 k
有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
# R) @0 o5 x6 E- f4 N每 rack 成本 ≈ $3.0–3.35M[34][69];: W( T$ L7 Z4 i
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。 Q7 f7 l7 e" U3 `; R8 ?
与不同区域壳体+机电组合:
2 ~. M- Z: M7 v8 q w% d, J$ K9 q# p0 @. V* v1 U3 Z& W% m& z
以中值估算:/ w4 P/ U/ F" u2 y
, d7 K0 r9 _4 g( z9 V中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B) N0 ]1 \( R4 K Y5 v; L
美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B
* B8 _/ V) @4 S6 f% w4 [6 b: ]4 ?欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
) b& C- Y Q. x# h B中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B
' s5 E$ ~, I$ i# C4 X* k1 D可见:
# P! N) N8 u L* S
# n# }; W- c& f! m& {GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。. [4 e4 z) Q- `" b m& h6 i. [
相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。( c4 I, e3 Z7 f' ?! ]7 E, }
三、运营期成本结构与区域对比5 G0 N0 D! ]3 ]3 }1 u3 _3 |; L
3.1 通用 OPEX 结构(高密 AI DC)
* X9 \* c2 p) n# f- o+ N, h结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
# ^4 D6 A6 Y3 [: L* ?6 C Y8 W' x$ B, o, Q1 Y, u
电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。( y, ?" J! P1 G$ A
冷却与水资源:
' a ~) y' l, B9 v1 n; |/ X" [9 m8 x能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
: O$ Z( h) M' q水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。: }) b# y% l8 {& `
人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。9 W/ |1 A5 R* J$ H! k
托管/物业与维护: G8 y+ I6 ^6 Z% b h
托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];
5 u8 ?% q& g- ~( N5 [/ j9 [硬件维护:LenovoPress 模型中按设备价 12%/年[28]。0 K1 i2 `8 u2 }+ n! r/ y2 n
3.2 区域差异(以 400MW / 3 年期为例)
/ q6 T8 m$ X8 T1 E8 g! a; y9 e8 S& [使用 ChinaTalk 的电费与人工估算[1]:
9 p- l' P& o2 B- g. Q6 H# c3 L+ o4 s! [
电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:- O7 O- y) d( ~% l4 M, L3 c1 w* W
中国:约 $0.06/kWh → 3 年电费 ≈ $350M
2 C* f- d- W2 s% K/ w+ f美国:约 $0.09/kWh → 3 年电费 ≈ $600M, d! \6 r% D9 N
中东:约 $0.07–0.10/kWh → $400–550M U" h4 V2 _* w; x4 Z; D: t6 j
欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)) q' e, {' r8 n7 \" u) U @
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:+ E Z4 s+ s- J2 O, `
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
8 ~4 Q9 {; b2 z4 s! U4 Z; B" q三年水费级别:: v7 F& L6 I1 b+ v5 e$ u
美国:$40k+
9 O* h+ f! k& M) z9 T中国:$20k+' ^* A# W7 Z1 Z3 R$ ^
结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。* K/ I- R/ @$ S: o6 r3 [. O1 u
人员成本(3 年) – 假设 500 名全职运维:
! R8 S" i5 K3 F8 K; p/ b美国:500 × $120k × 3 = $180M+
, a* I8 w$ D4 ?$ u2 l中国:500 × $22k × 3 = $33M+
2 { [6 B: q# _5 U) I8 M. ?差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。
* [. ~! L9 R) `- c0 G9 [整体 OPEX 粗算(3 年) – 400MW 场景下:! ^ L: Q# B5 {; u
& a3 y1 H3 |) h# O# R7 L: G% Q
项目 中国 美国- L. \) [/ e9 {
电费 $350M $600M
" R) _* X: e0 l1 Y2 _7 L4 y水费 <$0.05M <$0.05M0 S% B3 _8 |" f" H* ~+ `3 X
人员 $33M $184M: z0 |( X8 g$ w/ Z
其他维护/托管 同比例估算,地区差异主要体现在人工与地价 9 j) t) Y; m) S5 C- [
结论:
1 q+ D/ q6 j8 B4 h: b) D4 K+ G. Y3 I1 q8 [
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。( L. @. u2 L7 @" }0 J2 m
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。2 S) `- {; C$ h5 X% B5 W
四、基于 token 的成本与利润推演2 s8 T: ?3 n3 e5 p
4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
" f9 b, `% A q# i5 x. v& d# A统一假设:
) Q( E0 l5 s9 b& n' C! d* C8 w3 v& k- o1 `; d: Q
典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])3 g: M2 d5 a; ]8 J0 s4 ?! H( [: ]) ^
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh% i( L N, |$ t8 k# T
1 百万 token:278 Wh = 0.278 kWh' }5 e/ E1 q' F$ U3 {0 k. B5 o
场景 A:美国电价 $0.30/kWh
9 u, t# b4 @) y+ |4 b+ u电费/百万 token = 0.278 kWh × $0.30/kWh# w6 r0 a# E+ [% a. s b( i# G
≈ $0.0834 / 百万 token
" B# N6 X$ y8 x( ]4 T9 Y6 ]" M V. F场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh
4 x: I- }6 P- I电费/百万 token = 0.278 kWh × $0.042! F1 L# \2 M6 o. T' q4 v; s
≈ $0.0117 / 百万 token
. K5 y9 c0 q" ~5 x1 I6 R对比当前 API 价格(OpenAI 2026Q1)[62]
: L* W& U/ w% J& z1 q以输出侧为主(成本最敏感):! c" ]! K& v L& O4 y) G
! Q0 E. w! O, z模型 输出价 ($/百万 token)
2 J. C9 `! n3 g" \/ G) ~GPT‑5.2 $14
; d( {, A: h" [GPT‑5.2 Pro $1681 h8 u$ ]8 }9 ~+ q8 K o
GPT‑4.1 $80 R$ J. a- I$ F I6 q8 }
GPT‑4o $10- b) s; Y9 o( s% }( F+ V
GPT‑4o mini $0.60' ^2 _/ h8 Q4 X: c
则:
g, w& W6 T% r0 Z, u1 n/ \6 B& @4 J
在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
6 a5 A% z; v( }& ~在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
- h2 _: U/ ~6 m6 |相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
) c* D, R# J" W- U2 {0 U' a结论:
0 ]( k+ _# ~, I( f7 J9 Z" r即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
8 ?3 l- m" O! x% P* U( H, `4 f/ G0 y, y" d
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)0 K' j- x0 Y# ?: \$ t
以 LenovoPress 的 8×H100 Config A 为例[28]:& g3 I6 i" X& H* m: n# y
/ i' }3 q* }8 F5 K
5 年摊销下,8×H100 本地推理 70B 模型:
5 t6 M4 D8 i; b% I小时综合成本(CapEx摊销+Opex):$12.08/h8 Q" D+ t; S% ^ |
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens
! Y: j# G+ q2 D1 D( t/ L2 K* d成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token! E. P% B# b/ h3 c5 Y/ t5 n8 z; L
电费在其中的占比:
* F! i- P Y: MOpex 6.37$/h 中电力+冷却约 $0.87/h[28]# ~2 i+ a7 U. y* P$ k0 `, Z7 n
电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token1 j" J2 n/ {7 `$ b: j8 f/ {6 W
电费占 总 token 成本 ~7% 左右。! O5 z1 o0 V1 H1 \# f- i& @
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
& N$ t3 s! Y: g9 E: p& {若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。4 \3 {) {- }5 p( {. z: G% T4 G( i
: z+ E, \4 O3 m) I$ w
因此:
* m! A6 w3 n5 a' f- H+ V$ M# p% j0 Y0 b8 I; I
在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。' ~# k8 d* p. J( m. t: r# P
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。7 S \) C! ]5 \- M* u O# e; I3 K9 P
五、不同芯片方案的建设与运营成本对比/ B2 W/ o9 s6 b q# s1 m- y* t# P
5.1 NVIDIA 方案(H100/H200/B200/GB200)4 l. A* q# W5 N, B! \- D
CAPEX:
( r+ ^8 l' d5 Z/ J0 d. f0 c, P, p3 \
H100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
/ \ Q- z5 i! E7 B& N8 C: D" r# QH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
1 x: b! _2 U4 J8 k$ t- z$ dB200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。7 g0 A' u$ v* F; t
GB200 NVL72:2 t* ]6 c: E0 g) q% P' o
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。* t5 D6 G: v& e
冷却系统每 rack 额外 $50–56k[35]。3 b3 l# @4 H2 {% ^
在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
% X9 ~; X0 {+ F$ K7 T& FOPEX & 能效:
- b( B5 [- ?* M/ ?
( u0 Y0 p8 l1 i6 h. g5 @单 GPU 功耗:( `" W A# E/ ~9 J, e/ n1 T
H100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。
8 [7 f; V5 C8 {+ kH200:功耗类似或稍高,但性能/W 提升[9][10]。# Z, p) U* j0 s/ G
B200:标称 1,000W TDP,但实测约 600W 左右[68][69]。
# \3 x% _: _- a' |( [+ i' r/ f5 R" LToken 性能:
4 a$ c2 j+ v Q; `$ SB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。
( u7 ~% r: t( [+ ]6 U6 C- Y; VNVIDIA 的优势:# Y, r' Z, Q; i* \" u0 |# F
( w( Z+ D V: ^6 U- a. v
软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
$ Y5 {: m! H* C但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。& s' d* i, M6 O) w5 V: u# h
5.2 Google TPU 方案
& w% T/ n% u6 ~$ {& E& sCAPEX:
% ^$ m# o* q( U- H. X y
+ c* x" F) \' P/ a' u- V单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。8 J& E: s) h& G& Q! [
GSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。; z4 `# o3 ~" B
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。. _( v( A5 P/ W- D8 a
能效:
/ U3 u B" E# l4 }
- j' F. y; K; J( w9 G! V! PTPU v5e vs H100:
6 X/ t7 y* N4 i" Q% B同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。$ S- Y) i5 u: |5 _
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。% k7 M+ r8 a& ^9 A/ J" c) @
新一代 Trillium/TPU v7:
: E7 _) {" C" {! L7 {能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
; u/ t( d$ Q4 D7 Z4 l( r) fGoogle 方案的特点:
6 E1 ]; \( a$ L& V' i
$ Y6 D* l! ]" K j8 h2 x/ @自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;
0 k* V9 y) B3 U! F |: ^7 E& ?对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
$ ?0 y) t- u3 p5 o4 K+ L+ f: c5.3 华为昇腾 910B / 910C 方案
* q- ]( R3 ~4 U% r) q) vCAPEX:
( ^! y+ O2 N5 N' r# Y. q- {: ~9 L) }! M1 Z% G
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
3 t, m& m) m" }) G( X" {# {/ C9 e与 A100 对比:
! C: |0 Y6 k" ^FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。
! }. D( S' L* c) h* @市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。: k9 o1 w, G3 H( y! B0 ]
使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。4 U u& ^+ R. `& [$ X5 S9 y* L
OPEX & 能效:9 T) Q0 g6 t* U, Q
8 L |3 I! ]( |% S- _
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
9 l! ]0 r, b4 I. _) l$ c: ]部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。( u% n. s* {. o W1 T/ L2 q
在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
h! y+ ?: o' y" @7 n+ u5.4 平头哥真武 810E(PPU)方案" d7 U, Y( R! \. W" E3 L
CAPEX:
5 l0 O/ f) k# M7 d9 z. e6 k9 G, C0 F5 @% r I2 ?2 L
技术参数:/ i1 @0 x0 g4 {; l4 H# X" q( q1 q
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。
& K8 \9 h" c Z! [+ ?1 D) g性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。, t) Y! h& @) w8 s
价格:2 i* _" W: H% h' r( h, D- _+ O
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。$ n5 [3 h3 i4 f/ q" U) M5 U
结合国内报道:
9 v, j0 m2 U1 o* A6 T G0 |# w3 N, n2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。' v. f( g0 p0 F/ |' b* V" [
数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
% V. k0 b8 \1 R6 Y2 N3 ~OPEX & 能效:
% h1 T5 g! o6 W; J3 Z
$ i% f1 L7 j8 P* A- C7 \4 n400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;8 F, v' A# P5 P! `. O" f
在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。1 B+ r2 t" |1 q. S0 |/ k) }
六、综合比较与策略建议" _' {: k+ X( }- H# N* ~
6.1 区域维度:在哪里建 AI 数据中心?
/ l" U, t! \, b% ` y$ K纯经济性(TCO/tokens)排序(假设无政策/合规约束):
- p) |9 k, d: o3 c
q$ [ J& l- X6 ~2 ?5 L; R" R中国西部/北部(电价低、人力低、建设成本低)
6 }. ~& j# n) l3 M4 v8 g% f! I中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)+ q* H E) o4 ]) g ~
美国电价低但人工高;东海岸/加州电价上涨压力大7 h* J; T/ y4 L' {2 p8 F
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
! Y: n6 X$ i) K若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:7 H, m1 F1 a& C1 p0 D, t6 X; i- W
2 c' ]4 i* P0 O# e; p纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;
$ o N# O) Z; @( A4 z对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;
R5 m5 w5 {& u8 M但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
% q7 n- a/ _+ l6 @4 f$ c& D7 ~6.2 技术栈维度:选哪家芯片/云栈?
3 M, M' G7 @8 M6 F# b. F若目标是全球最优 tokens/$ 且不受出口管制:& r) F+ Q* p) T' i6 U# K |
/ t/ C2 {: ]" O, y
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。2 a+ z$ y0 i4 H6 T. J x
若在美国/欧洲,能自由采购 NVIDIA:1 `: b) T5 c" d0 O
W2 _; t: H# w% Y$ h# h' X短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:/ b. l5 K6 }4 ~. l$ o
成熟的软件栈与生态,极高的 tokens/s/GPU;
9 m' s j& L, s# e5 e1 R, [7 I. A$ [" }在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本;
8 g) D! |7 m1 _# T/ e. j( \; y但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。& q, l; |1 k; A% V/ `
若在中国或存在出口管制约束:
; S. V M* K, e) c
; h% N' a3 z6 u& }+ j昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:: Z! n8 F' M L3 O" ?9 ?3 \
性能上已能覆盖大部分 GPT‑4 类推理需求;" T- U8 I5 n N' M' s
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;6 Z( I) {$ m( y0 Q& d! F
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险; k4 n, w2 O' A# q: t
建议配合:% T# y t# x5 G9 \
高效液冷(PUE~1.1)、
2 k9 ?5 t0 d' n ^6 F6 }8 [4 V大 batch、路由(浅层任务走小模型/低成本芯片)、
; ?3 V: R* S+ A- G& N' H强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。- c" g4 o* @+ [% Y$ N$ ~+ Q
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
G% }' {- [5 X7 Q: g$ C" z+ ?. u( c0 G5 w/ l _" `
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
7 n, Z/ G5 L2 x2 c这意味着:
1 U+ g! f- e: s8 N# f, z; I优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);4 ~* N- E- ]8 S; I3 c" R% E+ z
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。) e2 D+ ?$ p1 N, v0 a! l3 Q5 a
6.3 针对你关心的具体问题的简要回答
9 y: w! @% I" S; _; @AI 数据中心建设 vs 运营成本的大体比例?
0 {/ N4 f, N# I; t: h: y
/ H+ a o' B2 B; |4 Z5 i; _在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。
8 X" u( P9 Z: r+ i* d4 I1 p9 @$ `其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。( q6 Y& Y: |' j. r
中国、美国、欧洲、中东的成本结构区别?
6 T0 W! G1 E8 D; Q: r# j0 X
# {) k; m* R$ [# R6 K+ p7 U' I [建设期:
% B4 S" v3 |+ C* m6 u g$ `5 v/ A( v中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。3 e* x4 Y( f# U% C1 D" ^( @! s
运营期:1 V/ b [8 }9 i" x! L
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲
& O9 f a0 x7 ]# L- H人工:中 国 ≪ 美 欧,中东居中。
( Z3 O# x) Z* V! a: d在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?
9 U0 k& \$ x6 @! s
) G1 o) z: F- }1 W! b9 h) [对于典型 1 J/token 推理负载:
; T2 F' S; r x! Y美国 $0.30/kWh:电费约 $0.083/M token
1 M- `2 x4 U5 `, P中国 0.3 元/kWh:电费约 $0.012/M token4 |6 ?) Z( Z2 \, w
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
2 E4 y6 m0 V8 T0 a% X& I不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利?6 h$ D$ a! p0 T% O
) t( S" Z2 F5 D- `9 ^在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
, C) n: j; H4 f0 u% P$ d4 B全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
7 ~( R4 j. M; s! t9 w8 m中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|