TA的每日心情 | 擦汗 2026-3-17 22:01 |
|---|
签到天数: 1133 天 [LV.10]大乘
|
沙发

楼主 |
发表于 2026-2-26 21:43:21
|
只看该作者
后来想了想,我让龙虾爬了一个分析全球AI数据中心建设和运营成本的报告,内容如下:- _0 g* _ L7 e; P7 w
( Q, O- q( l4 Q2 Z0 f一、总体分析框架与核心结论+ u7 d: F- s' i1 f' k
1.1 分析框架概览; S% v; K @ c; z* z
拆分维度
, O. O7 t0 s2 g! E) q9 L' g0 V
9 p. G8 ?+ d) R& E2 k阶段:
; J9 F8 {, p! D+ Q+ T: O建设期(CAPEX):土地/建筑、供电与配电、制冷、IT 硬件(GPU/TPU/加速卡)、网络与其他基础设施
" N B# F. n% K* t2 n8 K2 P( S运营期(OPEX):电力、水、运维人员、场地/托管、维护与更新、网络带宽等) w0 G( I0 \( Y0 Y
区域:
i$ y2 d: s/ K2 e4 p" o8 M9 w& z中国、美国、欧洲、中东(以海湾地区/UAE 为代表)
8 O# a% G9 r$ C, E/ i. q, ]技术方案:
" @" ^" I5 I) D0 T3 {; ?NVIDIA(H100 / H200 / B200 / GB200 NVL72 等) n+ f7 x. ^9 B3 X0 x ]! b3 [% \/ v' Y
Google TPU(v5e/v5p/Trillium 等); z4 J, v+ q; G( F& ^7 z+ |
中国芯片:华为昇腾 910B / 910C 系列、阿里平头哥真武 810E(PPU)
* w5 B1 P* ?; X5 u5 ^算例基准
7 k* L' \* m3 B6 r: t5 S
: `% a& e9 {9 i$ _% r) ]) s3 R4 d以400 MW 级 AI 数据中心为统一标尺(与 ChinaTalk BOTEC 分析保持一致)[1]:
; ]/ H4 C2 c* K- |其中 IT 有效功率约 360 MW:GPU/AI 加速约 312 MW,CPU/存储约 48 MW
5 j- w# x4 J% Q4 ~3 ^4 v: z, `PUE 假设约 1.11(高效液冷场景)[1][29]3 u j% T: ]* o/ {4 @1 G! m
时间窗口:3–5 年运营期(与行业 TCO 分析和硬件折旧相匹配)[28]
. `' j7 L8 h+ Q3 m, L, X( a: b$ B' v关键指标
0 i' Y4 V3 o. k6 |2 ]
9 ~$ }8 _: R A* n$/MW 建设成本(含/不含 IT 硬件)! C$ ~- B1 W# g' p2 ^
$/kWh 电力成本、L/kWh 水耗/ F* m& f' S+ k; s/ X7 Y& p) t
$/token 或 $/百万 token 的综合成本& ]7 b) H# D' ?, {
Token-per-watt / Joule-per-token 作为能效基准[17][18][26]
. V" c! y% T( b0 \# Q3 T项目 IRR/回收期、吨位级 TCO 对比(自建 vs. 云租)
2 D$ M# m8 @/ \1 v% x1.2 高层结论(供决策快速参考)
, I# V9 @$ q4 s: X建设成本:AI 数据中心相对传统云数据中心成本翻倍
5 H1 b8 G% c6 M$ l/ X* i+ R8 j
% o& }! n' s3 T, v传统云数据中心壳体+机电平均约 $10.7M/MW (2025),预计 2026 升至约 $11.3M/MW[2][41]。
7 [$ Z: e1 M( m7 u, XAI 优化数据中心(高功率密度 + 液冷)壳体+机电可高达 $20M/MW 甚至更高[41]。* i; k) R) L9 b; T/ b1 a
按 Accenture/Soben 研究,传统云 DC 为 $8–10M/MW,而 GW 级 AI 数据中心可达 $17M/MW(仅壳体+机电,不含 GPU)[3]。/ Y. G% w0 a! ?. J
区域 CAPEX:中东≈中国 < 美国≈欧洲 < 高端 AI 园区
6 ?' n+ L- U* M8 c; E; K
* b( K, g5 ~ c& J/ Y+ j+ Q中国:$5.5–6.5M/MW,400 MW 约 $2.4B[1][13]
8 c+ P8 S$ `3 u" s, Z+ [美国:$8–12M/MW,400 MW 约 $4.0B[1]8 G+ P) D) ]+ d) \# Q M
欧洲:接近全球平均 $10.7–11.3M/MW[2][41]
2 R0 L: Y' c8 e8 ~中东(UAE Stargate 5 GW):总投资超 $30B,约 ≥$6M/MW[20]" j# t' `7 H; r+ O5 i! J
结论:中国与中东的壳体+机电 CAPEX 明显低于美国/欧洲,同等规模下节省约 30–40% 构筑成本。0 g* S/ R1 Z' l9 z
OPEX:电价与人工决定区域优势$ K$ T- l1 p. ?! x7 I, a; `& Y- E% a
; ?3 Y, m5 f7 Y- @3 l4 P
电价(2025–2026 工商业大致区间):) ^ l- _0 i7 k) N I
中国:约 0.8–1.1 元/kWh ≈ $0.08–0.11/kWh,部分算力基地可通过长协拿到 ≈3 美分/kWh[12][73]; j( t5 w% P* R p8 L I; v
美国:工业用电约 $0.085–0.09/kWh[44]4 F) C5 I& k" h2 o
欧洲:非居民平均 €0.19/kWh ≈ $0.20+/kWh[45]
, o9 F- D" b- Q% }! `中东/UAE:工业用户 $0.07–0.13/kWh[47]* o! {/ w% b; U+ }$ C
人工:
5 E1 |! a- W5 \1 b# H5 O中国数据中心运维:约 $22k/人/年
. d6 j! Q! W* \& G( D& n) s美国数据中心运维:约 $120k/人/年[1]$ t3 y# ^1 A8 s& M% ^& R% R
结论:电价上中国西部/北部与中东有显著优势,人工成本上中国远低于美欧。
. [2 X0 k# J! t- v# ~- w能耗与每 token 能源成本:能效差异远大于电价差异
3 R4 Q% q3 }9 X$ r
1 }. t/ U' ~' o3 ZIEA:2022 全球 DC+AI+加密耗电 460TWh,2026 可能至 620–1050TWh[86][90];AI 专用服务器约 90TWh 量级[30][90]。
0 i* _- j" {# [5 J大规模 LLM 推理能耗估算:H100 集群训练 GPT-3 175B 约 2.46–3.63 J/token(训练)[10][16];经推理优化后,Inference 端典型可做到 0.4–1.0 J/token 级别[17][26]。
' a/ o0 V5 b: w2 ^# d0 x( X* } [7 H将 token 能耗约化为统一口径:0 t" |: }% c+ K$ G% ]7 q" R2 X: |
粗略取 1 J/token = 2.78×10⁻⁴ Wh/token。若电价为:
! ]/ t5 q( c, U, \中国 0.3 元/kWh ≈ $0.042/kWh:电费 ≈ 1.17×10⁻⁸ $/token ≈ $0.0117/百万 token h u H( Z5 N
美国 $0.30/kWh(题设):电费 ≈ 8.34×10⁻⁸ $/token ≈ $0.0834/百万 token( K. Y s5 v f" Y: s2 M
对比:OpenAI GPT‑4.1 / GPT‑5.2 系列对外 API 输出侧价格 $8–168/百万 token[62],电费占比 远低于 1%,真正决定成本差异的是硬件 TCO 和利用率,而非电价本身。
5 t! d$ u4 H' y- i% Y- V1 T. L; E. N/ n不同芯片方案的核心差异* Z2 [4 ]0 E& E; t
8 k* h$ \- |% P2 w+ H& t9 e2 aNVIDIA Blackwell/B200 & GB200 NVL72:
$ N8 g, u! E4 b/ ~: ^9 v& {单 B200 GPU 峰值 ~4.5 PFLOPS FP4/FP8,功耗 600–1000W[68][69]。
& A0 z+ G2 l/ |7 \. `5 K+ PGB200 NVL72 整机架售价约 $3.0–3.35M,72 GPU[34][69],GPU 约占整个 AI 数据中心总 CAPEX 的 39% 左右[36]。
8 `/ {4 G$ ^, Q* ?Google TPU v5e/v5p/Trillium:
3 Y3 ^& _0 r" STPU v5e 8 芯推理:约 2,175 tokens/s(Llama2‑70B,INT8)[67];功耗显著低于 H100,同负载下能耗可降约 5 倍[67][52]。
8 Q1 R- F* F6 }Google 内部披露 TPU v5 能效约为 H200 的 1.46×,Trillium/TPU v7 更高(约 2× 甚至以上)[52][65]。
) Y) D; r0 x7 x# Q( n1 K华为昇腾 910B:) ^5 l* X, H$ o* A9 [! D. w
FP16 算力 320–376 TFLOPS,INT8 640 TOPS,TDP ≈ 310W[80][81][82];能效接近甚至超过 A100,在长序列推理上 token-per-watt 可超 H200[71]。: L; c& Y( ]/ T0 x/ j
单芯片成本约 5 万元人民币 ≈ $7k[60],显著低于受限版本 H20/H100。' l! b! x1 V5 G7 Z: ]
阿里平头哥真武 810E(Zhenwu PPU):
3 k2 t y4 d' F) J) P3 `9 ?96GB HBM2e、700 GB/s 互联带宽[59][111],功耗约 400W 级别[102],整体性能对标 NVIDIA H20/A800,并已形成万卡集群部署[59][111]。 P( i: b. [2 C# s! g
结论:2 H( {4 v a: z& n- ^
能效(tokens/J 或 tokens/W)排序大致为:Google TPU v7/Trillium > NVIDIA B200/GB200 > TPU v5e/H200 ≈ 华为 910B ≈ 阿里真武 > H100/A100。
" V6 C; u/ H$ M8 r/ i O5 M4 _单芯片/整机价格排序:华为/平头哥 < TPU 自用成本(Google 内部) < NVIDIA 公版(H100/B200/GB200)。
9 i m, e4 g) j ?, k+ U2 v对中国市场,在算力性能足够的前提下,昇腾 + 真武 方案的 CapEx/每 token 成本有 30–60% 的价格优势。
$ c( @. o3 o6 `* @! n1 ^. i. e* V自建 vs 云租的 TCO 与 token 成本/ r5 e# } F3 v1 g
5 S( \$ a* l; ^+ n$ zLenovoPress 对 8×H100/H200/B200/B300 本地 vs AWS/Azure/GCP 的 5 年 TCO 对比[28]:
) v) f/ o$ ~4 }8 M8×B300(Config D)自建 5 年 TCO ≈ $1.01M;
7 U" M! U2 x4 N+ {等价 AWS p6‑b300.48xlarge(24/7)5 年 ≈ $6.24M,节省 83.8%。
$ O/ ?7 k8 K) v' }8×H100(Config A)自建对 Azure On‑Demand,回本点约 2,720 小时(~3.7 个月),对 1/3/5 年保留分别约 4,423/6,800/7,591 小时(~6/9.3/10.4 月)[28]。
. l3 H! A/ H/ U, cToken 成本对比示例(LenovoPress 场景)[28]:. @$ \! n+ E: b! W, C1 m
Llama‑70B 推理,8×H100 本地:约 $0.11/百万 token
- a! X O1 E1 [* O0 T1 |' j8 wvs Azure H100 On‑Demand:$0.89/百万 token → 自建 ~8× 便宜。/ b8 t, w" P3 `3 x' E% t# {
同样 70B 模型,自建 vs GPT‑5 mini API(约 $2/百万 token):自建便宜约 18×。, R2 p& l. y, f* `) ^( K$ m9 X; D
Llama‑405B,8×B300 自建:$4.74/百万 token,AWS B300 On‑Demand:$29.09/百万 token → 节省 ~84%。. H0 m0 O! I l1 ~
结论:
8 u0 Q b6 k% @. R( t% X0 `* ]* X高利用率、长周期推理负载下,自建 AI 数据中心的每百万 token 成本可比公有云或高端闭源 API 低 1–2 个数量级。
# r7 t+ ^7 c a' a2 W6 X9 I( qToken 电费占比极低,自建 vs 云租的差异几乎全部来自 硬件折旧 + 云溢价 + 运维与利用率。( _! }+ J+ Q0 b; q
二、建设期成本分布:区域对比' M# W8 Z) d6 Q4 ?
以下重点讨论 壳体+机电(不含 GPU) 与 全栈(含 GPU) 两层。
# n! q9 k0 U6 {' l( S" ~9 D4 t9 H
* _( A* T, _$ y, [( l; H% L2.1 全球/通用结构(以 1 MW 为单位), r+ Q1 ]! d7 Q" T" A! z
综合 JLL、ConstructElements 等[2][41][40]:
: o4 G3 Y. M+ t- n0 {' A" T. H* f7 `/ b& {. J1 U
壳体+机电(Shell & Core)
: F! a [1 B1 O4 F
) |' }1 I. w! t% D. A1 |* K全球传统 DC 平均(2025):$10.7M/MW,2026 约 $11.3M/MW[2][41]
* U5 R) }/ l* ]& z1 n其中按成本构成[40]:6 A X# C" P5 C# f
电力系统(变电、配电、UPS、母线等):40–50%8 u) ?8 L l- b6 e" {! u7 ]5 \* N0 x
机械与冷却(冷机、冷却塔、管路、CRAC/液冷):15–20%. e r- t- @( H. o, B+ m9 f d
建筑与土地、结构:约 15–20% s7 p& k1 b! y
其他(消防、安防、楼宇管理等):约 10–15%9 X0 n: a3 I& t" W3 S
IT 内装与 AI 基础设施(不含芯片)& g3 ^# x) O6 _7 Y+ y% h
- S: s# _& c5 r$ ~) \2 Q$ l高密 AI 集群内部装修(高密布线、机架、液冷板/浸没舱等)会在每 MW 额外增加 $25M/MW 量级[40],对 GW 级园区影响巨大。
& N+ ]& n5 i) YGPU/加速卡硬件 CAPEX
/ b0 n: X1 A# `5 v& h3 d
$ D6 t$ d! Q9 b ]; r7 \* E. ]多数分析认为 GPU 占 AI 数据中心总 CAPEX 的 30–40%,其中 NVIDIA 单家毛利约等于整个行业 CAPEX 的近三成[36]。3 q+ k% r% G( ?) e% j
2.2 中国 vs 美国 vs 欧洲 vs 中东:1 MW 建设 CAPEX1 ^7 L- P5 q7 m1 Q6 b/ i+ p# [' s, q# g
结合 ChinaTalk、JLL、UAE Stargate 等[1][2][20][13](仅壳体+机电):- I. n3 \/ P R2 q
4 h) o: z. G5 `3 C3 z$ W+ r8 S' ^区域 典型建设成本(壳体+机电,$M/MW) 备注$ ]2 J6 Q# c- ~9 k/ t. n) f! G
中国 $5.5–6.5M/MW 以西部算力基地为主,400MW ~ $2.4B[1][13]
l% o% |6 O! a* o" K美国 $8–12M/MW 典型超大算力园区 400MW ~ $4.0B[1]
3 r8 C/ t! c& L0 D" \" v欧洲 $10.7–11.3M/MW 接近全球平均,部分核心城市更高[2][41]
( x2 ^6 n! a3 }* p中东 ≥$6M/MW UAE 5GW Stargate >$30B → ≥$6M/MW[20]; [/ V) T0 S" j4 r7 M6 |
结论:: J" k5 o) q7 C2 E
5 r2 C4 p& Y- j5 j2 f
单位 MW 壳体+机电 CAPEX:中国 ≈ 中东 < 美国 < 欧洲。
; h+ Y/ x( b* M4 v8 M若考虑土地、电网接入和许可周期,中东(特别是 UAE/沙特)在电力可得性和政府补贴方面往往优于欧洲,趋近美国甚至中国。3 W/ T6 E/ ]! \) A- s6 I
2.3 引入 GPU 后的全栈 CAPEX(以 400MW 集群为例)$ ]8 l# P6 \* K7 e
以 ChinaTalk 的 400MW NVIDIA GB200 NVL72 集群为例[1]: @+ I0 [4 ?5 A
! K2 Q( D$ p, _4 ^9 W4 [: y假设:PUE=1.11,电力侧 400MW,中约 360MW 投入 IT;
5 l4 T' l2 p( O) K8 dGPU 配置:
% v4 W3 K6 r% \! ?( f有效 312MW 用于 GB200 NVL72,约可容纳 2,154 racks(每 rack 144 GPUs,对应功耗 ~145kW/rack);
$ L! i, P- N; H3 Q( i9 ~% _# Z每 rack 成本 ≈ $3.0–3.35M[34][69];* P/ V- {! d# }7 k8 K5 F0 B) h$ ?
GPU 总 CAPEX ≈ $6.5–7.2B 量级(ChinaTalk 抽样约 $5.6B 略保守[1])。6 e! t, w% P" j" q' v
与不同区域壳体+机电组合:: \$ ?' M( k5 O/ E: x
" K9 b2 {! W k) o: W5 r
以中值估算:+ k; N: M: R0 c" o' C& L6 X
2 t) O: a2 ^, _0 N5 i
中国 400MW:壳体+机电 $2.4B + GPU $5.6B ≈ $8.0B
2 M$ ~5 v7 h' A美国 400MW:壳体+机电 $4.0B + GPU $5.6B ≈ $9.6B2 x1 D, }4 h; x8 \. K* e
欧洲 400MW:壳体+机电 $4.5B + GPU $5.6B ≈ $10.1B
& B$ `2 N. {% _) ^1 ~& \中东 400MW:壳体+机电 $2.4–2.8B + GPU $5.6B ≈ $8.0–8.4B0 t) U7 B4 [) y
可见:1 w6 d$ B! F! M- v, g0 l0 K
+ q$ @1 q8 V4 M6 x0 K
GPU 成本在各区域大致相同,决定区域 CAPEX 差异的主要是壳体+机电与土地/电力接入。
: M7 m- m. F7 P: h4 g相比美国/欧洲,中国和中东可在 400MW 级别节省约 $1.6–2.1B CAPEX,这对 IRR 有直接影响。+ N" V# P5 m4 M: [6 \( z
三、运营期成本结构与区域对比; B1 Q6 C$ b" ]3 |
3.1 通用 OPEX 结构(高密 AI DC)
; q, v3 }2 l* T4 a' J3 Y结合 ConstructElements、IEA、Microsoft/Google 披露[40][86][103][104]:
7 ~3 b7 I2 R4 w+ |
% L, d! \ z. D; }/ k( K" P电力:约占总 OPEX 的 20–30%(传统 DC),对于 AI DC 因 GPU 负载密度提升,可达 30–40%。
, C, N+ V1 Z$ t% E冷却与水资源:% ^; c$ s+ N, X+ |! c
能耗:传统风冷约占总功耗 30–40%[39];液体冷却可将 IT 与制冷合并大幅降 PUE 至 1.1 左右[29][115]。
% R7 M* g7 f6 Q6 q$ ~水耗:典型 DC 约 1.9 L/kWh 水用量[105],每日用水可达 300,000–5,000,000 加仑 规模[100][101]。
+ P# j/ w1 a+ s人工:视地区而定,在中国/印度/东南亚占比 5–10%,在美欧可达 15–20%。
' F8 _6 w$ m- L5 W3 U# ]托管/物业与维护:
6 v: A" \& s0 A7 l/ `托管:高密机架约 $1,500/机架/月,标准机架约 $600/月[40][28];+ ~2 y H3 N# [6 `7 i0 A' ?0 y
硬件维护:LenovoPress 模型中按设备价 12%/年[28]。
) X& l: [( b! l) W; f* H3 u3.2 区域差异(以 400MW / 3 年期为例)
5 h, x: g* {- s9 W使用 ChinaTalk 的电费与人工估算[1]:
5 E, V. R' I, x! P S8 _3 `
8 T. E" T0 G; e1 Z% Y" ~电费(3 年) – 假设 GPU 利用率 60%,IT 360MW,PUE=1.11:
. R& S/ {# u) \4 v# R中国:约 $0.06/kWh → 3 年电费 ≈ $350M% k, z! e+ x3 O2 v' _2 g* y
美国:约 $0.09/kWh → 3 年电费 ≈ $600M
! u+ E( u# c8 Z" [8 q中东:约 $0.07–0.10/kWh → $400–550M
@$ c6 l4 r, m) \% E0 g2 n5 a欧洲:约 $0.20/kWh 以上 → 电费 > $1B(显著劣势)8 n1 I( l3 _" U9 J: c" ?, R
水费(3 年) – 以 MS Fairwater 站点 280 万加仑/年为参照[1][103]:/ w/ o4 T. H$ C z
美国水价约 $5.18/千加仑,中国约 $2.57/千加仑[1]
( v7 [' u9 i$ I三年水费级别:7 ^3 u$ O: r( N& c* ]4 r
美国:$40k+
& J" M6 g% i3 u/ m; H中国:$20k+
$ Y2 M. \2 q) V2 g/ \结论:水费是数量级上可忽略的小项,真正的约束是水资源总量与选址,而非成本。
' b9 ~5 x9 ]6 M, A% E人员成本(3 年) – 假设 500 名全职运维:0 q+ J F5 c( d2 ]7 d
美国:500 × $120k × 3 = $180M+
$ s+ h2 F( v1 J: r N! @# C$ D中国:500 × $22k × 3 = $33M+: B2 r5 v" F) r- O& n s5 [- V
差异约 $150M,规模与 3 年电费差不多,是中美间第二大成本差异来源。, d- ]( J2 N @/ {& E
整体 OPEX 粗算(3 年) – 400MW 场景下:' I$ m8 Z5 F$ N' J7 F2 c$ r2 ^
) n9 ^ b" s* Y9 j项目 中国 美国 R! P" [; ^* b
电费 $350M $600M6 B1 Z" [, X! w. p, s
水费 <$0.05M <$0.05M) i& d- P1 `' y( K& c
人员 $33M $184M
/ }5 G$ E1 E: z4 U) I; ]* V其他维护/托管 同比例估算,地区差异主要体现在人工与地价
3 p2 k% P* p/ N i5 B, z; h: Q结论:( P7 u; R3 g) q8 ?$ ^
8 A7 }8 a* [* i6 U* X
就 3 年期而言,中国与中东在 电价+人工 两项合计可比美国/欧洲节省 数百百万美元级,与整体 CAPEX(数十亿美元)相比不算决定性,但对净现值和现金流有实质贡献。8 |3 k7 d8 j ^
对大模型服务商而言,更核心的是 GPU TCO 与 token 单价之间的剪刀差,而电价更多影响“边际利润率”而非“能不能赚钱”。; u8 H+ G( J0 ]% S( k9 F4 b- Q) N
四、基于 token 的成本与利润推演
@; C$ L6 [( R' j+ u5 N6 |" W! l& D4.1 能源维度的 token 成本(题设 0.3 美元 vs 0.3 元)
5 P" ^6 d# ?! Y& j$ L统一假设:& V0 {/ J7 i4 E( A( b
! m& m; X# m4 ]典型大模型推理能耗:约 1 J/token(考虑 FP8/BF16 优化、Batch=256–512 时的能耗甜点[26][17][18])+ U4 K H; G# \* t$ D2 e4 M
1J = 2.78×10⁻⁴ Wh → 每个 token 约 2.78×10⁻⁴ Wh
6 H! B8 X. F @6 y) ?% M& m$ i1 w1 百万 token:278 Wh = 0.278 kWh0 v4 v: _9 K4 H4 l
场景 A:美国电价 $0.30/kWh
/ }! J% Z7 H3 Y& l! y: c* u6 A5 S电费/百万 token = 0.278 kWh × $0.30/kWh6 J9 W1 e) f) S& I5 b
≈ $0.0834 / 百万 token
. T, _2 Q/ P, `1 x1 V: z场景 B:中国电价 0.3 元/kWh ≈ $0.042/kWh7 {4 N4 b5 ?" ^+ \. y0 k2 o
电费/百万 token = 0.278 kWh × $0.042& ^* S+ ^% _1 [7 `/ c
≈ $0.0117 / 百万 token+ {7 x5 h5 ~* g* e
对比当前 API 价格(OpenAI 2026Q1)[62]" x8 M. _& W& ?& @+ T( f
以输出侧为主(成本最敏感):6 `. u2 N* U" ^5 s+ {' V2 D
" ^; j/ I) i1 h& L7 }2 @模型 输出价 ($/百万 token)0 U0 R' _! k8 \9 H: p- `: z$ \, I
GPT‑5.2 $14: k( K3 M$ m# I8 l# s+ O# w
GPT‑5.2 Pro $168
( E# ]" Y1 u# z; s' P# OGPT‑4.1 $82 V1 {& |% |2 {, e+ E0 n
GPT‑4o $107 J- A2 Z! S. t9 G( G
GPT‑4o mini $0.60
4 `" l6 o: X9 ? d# d则:
2 o( Z4 n( s% ]" @$ g2 j
& |9 ?' s3 B5 U在美国 $0.30/kWh 的极端高电价下,电费占 GPT‑4o mini 收入的 ~14%(0.083/0.60),占 GPT‑4o 仅 0.8% 左右。
- r* {$ i& z- M+ e在中国 0.3 元/kWh 下,电费占 GPT‑4o mini 收入的 ~2%,占 GPT‑4o 的约 0.1%。
C% ?6 k& _5 }+ u' }% b$ t6 o相比之下,GPU 折旧+云溢价+开发/运维成本才是主导。
4 v9 |# O h& R6 D结论:
0 J" x* S/ }' }* \. U+ Y+ f! S即便在“美国 $0.30/kWh vs 中国 0.3 元/kWh” 的极端对比下,每百万 token 电力成本差异约 $0.07,与主流 API 价格($0.6–$168/百万 token)相比仍属“小数点后两位”的影响。区域电价主要调节“利润率边际”,而不会改变“项目能否盈利”的结论。
5 R t6 d$ z. D& m4 k% I- n9 u) N l3 {8 X; [# G+ w# a4 ~# |7 C
4.2 全成本 per token:自建集群视角(基于 LenovoPress TCO)
! V$ n( m/ H1 P$ }& r7 S以 LenovoPress 的 8×H100 Config A 为例[28]:/ W9 v* _ o/ w# Z- G9 Y
5 K( I7 ] @5 ]" }) Z+ b0 G7 h- Q& |5 年摊销下,8×H100 本地推理 70B 模型:/ b; b& Q+ s$ L( S
小时综合成本(CapEx摊销+Opex):$12.08/h% l, I' Y8 a8 ]
吞吐:30,576 tokens/s → 每小时 ≈ 110M tokens5 O8 ?' r2 {" E2 Q6 D% j
成本/百万 token ≈ 12.08 / 110 ≈ $0.11/M token$ @& d) p- ]. N! j: K- \. A2 A7 Q
电费在其中的占比:
7 R, f; D' c% `& g* OOpex 6.37$/h 中电力+冷却约 $0.87/h[28]
" V! o. {2 Q3 y! B电费/百万 token ≈ 0.87 / 110 ≈ $0.0079/M token
4 E8 F4 q1 P- D- j H5 I# l3 M电费占 总 token 成本 ~7% 左右。% B6 E& L* p' }6 v7 U
若将美国电价从 ~$0.12/kWh 提高到 $0.30/kWh,则电费约增 2.5 倍,对总 token 成本影响约 +10–15%。
( L8 D4 D8 u7 M4 o/ x* g若迁至中国西北 0.3 元/kWh 或中东低价长协,电费可再降 40–60%,总 token 成本再降低约 5–10%。
! z, S, I; r* T4 l) D3 n
% F/ ^! M4 O1 ]6 Q1 J- a) O因此:4 g* U) P8 P: C( L3 @- f
5 ], n7 y" G- `3 }: Y在自建集群场景下,电价对 token 成本有可见但非决定性的影响(变化量级在 ±10–20%)。; W) {! a. i( a. C- M- `4 r& |
在云租和 API 模式下,电价影响则被进一步摊薄,绝大多数利润被云厂商的溢价和 GPU 供应链吸走。. o% ]; D/ ?0 q7 q8 L
五、不同芯片方案的建设与运营成本对比
/ Q" R" B8 P: P: X' h% k5.1 NVIDIA 方案(H100/H200/B200/GB200)3 T5 ~6 s `, B. k7 x# u8 v. ]6 t
CAPEX:
+ V8 f6 D8 ?2 O4 ]) `- W
$ f; `6 D& ?& g a9 C3 AH100:单卡市价 $25k–35k,8 卡服务器约 $250k+(Lenovo 配置价 $250k 左右)[9][28]。
- G; H: r8 M; m E5 ?$ U( w! cH200:显存提升,单卡价更高,8 卡节点约 $280k[28]。
* J2 }6 I% a' o+ X0 t4 @B200:Blackwell 代 GPU,8 卡服务器约 $338k[28]。% l' L- E; V4 u4 D. G0 `! P
GB200 NVL72:2 m1 h! r# z, N
每 rack 带 72 GPU + 36 Grace CPU,售价约 $3.0–3.35M[34][69]。
& @: c# K! }6 V% K ^( ~. Y冷却系统每 rack 额外 $50–56k[35]。
% `6 f0 b0 @* H( t$ L/ m; |+ h/ U$ L在 400MW 场景中,GPU 总 CAPEX 约 $5.6–7B,占总体 CAPEX 近 40%。
1 C8 X6 |: [) ^ lOPEX & 能效:% H2 J, I3 ~5 ~# D* e+ k
$ u9 E9 q) k+ B4 ^
单 GPU 功耗:
% P% Q2 N; f5 z$ \% CH100:TDP 700W;集群实际单 GPU 含服务器/网络开销可到 ~1,500W[16]。8 ?3 L( L' a* x( Y) ?8 b& h
H200:功耗类似或稍高,但性能/W 提升[9][10]。
% X/ J( |+ P, L: U/ v% q+ KB200:标称 1,000W TDP,但实测约 600W 左右[68][69]。4 h3 ~0 z* F+ k& K$ a
Token 性能:
& x' H1 f8 v" {5 E, X6 q/ hB200:官方推理基准中,可达 60,000 tokens/s/GPU 级别(gpt‑类模型)[68]。8 @/ L2 U: F+ Z9 }0 w
NVIDIA 的优势:; `# }. w. y* E w2 l4 Q0 b( m
. W5 O6 T1 |. U4 u软件栈成熟(CUDA/TensorRT‑LLM),易于榨干硬件性能,batch 与多 GPU 并行调度成熟 → 在同等 PUE 与模型条件下可达更高 tokens per Watt。
1 J" u5 I1 f$ M# h/ k8 z但硬件价格与毛利极高,从 TCO 角度,“谁买单 GPU 溢价”是关键——云厂商多半将成本转嫁给 API 用户。" p7 K9 N# C0 r# L6 I5 z N/ W, x
5.2 Google TPU 方案
: I, |; e& @# h8 V. GCAPEX:
( r3 C, V% j% O: o+ p/ Z: V: C
& K5 [/ L, T" f9 U1 {8 w* A, _单 TPU v4 定价约 $3.22/芯片小时,v5/v6 在云端按实例小时定价对外[52][54]。
7 h3 ]& I% P: ^0 w9 d. t( CGSR 估算:TPU 的出厂 ASP 约 $4,500–5,000/片(Google 内部成本)[54]。4 I% i) Z$ f" C! ]
8 TPU v5e 实例约 $11/h,而 8×H100 云价可高达该数值的 5–10 倍[52][54]。
. Y6 }# [5 [# f2 s6 ~能效:7 O2 I! r6 t; z; Z3 C
. o' f5 U- [% `1 \; STPU v5e vs H100:* r6 C# C( v+ b8 ^
同级推理场景下,8×TPU v5e ≈ 2,175 tokens/s(Llama2‑70B,INT8)[67],H100 需更高功耗才能匹配。 k6 Z6 e7 g1 o
测试表明 v5e 功耗约为 H100 的 1/5 左右[67][52]。9 D. N( z6 _1 N6 ?/ N3 X9 s. K: L
新一代 Trillium/TPU v7:3 h n: g. ~* d* u7 {
能效比 TPU v5p 提升 ~67%,对 H200 或 B200 整体上能实现 2–3×性能/W 优势[52][65]。
) j* A- _3 q/ }; E9 ~2 QGoogle 方案的特点:4 V: Z( F+ V& e6 }& G# e8 s5 p
8 v) g% q4 _1 w) R4 v; ]2 w i: B自用闭环——Google Cloud + TPU + Gemini,利润来自整体云栈,而非单个芯片;1 K" g& K0 c( p3 ^3 w) d
对外公布的 API 价格较为激进,TPU 方案在 tokens/W 与 tokens/$ 上具有显著优势,尤其在内部工作负载。
$ A h* }/ l* q, i/ Z9 i0 j5.3 华为昇腾 910B / 910C 方案/ Q8 \& E) W( D
CAPEX:' f- {0 m7 Q& Y2 B) J
; R- _$ M2 ~+ a
单 910B 芯片成本约 50,000 元人民币 ≈ $7k[60];910C 约 110,000 元[60]。
1 L4 E) \ d% m/ u: ]8 V3 g. S与 A100 对比:+ y( O+ ?/ Q5 ], ` w7 u5 ~
FP16 算力 320–376 TFLOPS,功耗 310W,性能接近甚至略高于 A100(400W)[80][81][82]。 ~6 W# H6 }% Q- @# a
市场报道中,NVIDIA H20 在中国售价约 10 万元/片,而 910B 更便宜 30–40%[61][72]。
7 c* _9 m5 {. {# t# Z使用昇腾构建类似 400MW 级别集群,总 GPU CAPEX 相较 NVIDIA 可节省 30–60%,视集群规模与供货条件而定。
, o, [! o9 S/ U1 ~) K- E& Y6 sOPEX & 能效:$ c! ]3 u- B/ p
& c& ?7 H9 F; L! }: o3 t
910B 功耗 310W,FP16 320–376 TFLOPS → 性能/W 与 A100/H20 接近或更优[80][81][82]。
( ~, t; }6 q0 T0 }1 I0 B" ^部分推理 benchmark 显示,长上下文(>4k token)推理时,910B 在 tokens-per-watt 上可超过 H200[71]。
. B2 E P/ G* g& {在中国电价(0.3–0.4 元/kWh)环境下,昇腾方案在 TCO/tokens 维度有明显优势,但生态与软件栈仍在追赶 CUDA。
2 V- ]! t& s9 F! I! S- o0 s. a5.4 平头哥真武 810E(PPU)方案
1 X! Y8 T% v3 wCAPEX:. n+ P$ v. @4 U+ z: I6 ?8 w
. ~- ]: Z. t3 t" W; s8 J1 E
技术参数:8 Y" p; Q- V' ^2 A" ? h
96GB HBM2e,片间互联带宽 700GB/s,自研 ICN 互联,PCIe 5.0 ×16,400W 功耗级别[59][102][111]。& O! v9 `/ Q& \% w2 y( q7 y
性能:官方宣称整体性能超过 A800 与主流国产 GPU,与 NVIDIA H20 大致相当,升级代际可逼近/超过 A100[59][110]。
- b( l' {' {) ~# [" e价格:$ [ [7 P% Z( e2 E+ b/ m q
未公开详细单价;多个媒体报道指出“单位算力成本可下降 ~40%”,与英伟达 H20 有 3–4 成价差[74][112]。& k# W' Z6 _( o2 x
结合国内报道:
" j4 J6 @1 S0 G2 q! ?) H$ N% }7 U2025 年出货量数十万片,已在阿里云实现多个万卡集群部署,服务 400+ 客户[59][111]。
% x* f- F# O* a数量规模与生态成熟度迅速提升,使得 真武+昇腾 成为中国公有云/算力租赁的主力基础。
7 e6 @ h# J. P9 fOPEX & 能效:
# N4 d# Z+ k- i* q0 q0 E! k8 i, m* I# j1 t+ C \/ c$ y# o! Z
400W TDP、96GB HBM2e,使其在 高上下文、RAG、大模型训练+推理一体化场景 中具有良好性能/能效平衡;
- j8 \% D! e) \, w- L" T5 O在中国低电价 + 低人工成本环境下,真武方案可将 AI 推理服务的综合 token 成本进一步压缩 —— 对标 NVIDIA H20,本地算力提供商可在保持 ~8–9 成性能的前提下降价 30–40% 仍保持毛利[74][112]。 e( r* B9 @4 _* S
六、综合比较与策略建议
( P2 F- t) _" F9 ~' s% {# N1 R6.1 区域维度:在哪里建 AI 数据中心?
/ U! U0 ]) f# M U% y纯经济性(TCO/tokens)排序(假设无政策/合规约束):
% l! q$ F6 t! m2 F+ ?2 C# C* f f3 }/ f7 M S' [9 L- L$ m
中国西部/北部(电价低、人力低、建设成本低), J: i# l; C. F% T$ e9 k
中东(UAE/沙特)(电价中等偏低、土地与电力可得性好、政策支持)" S4 v8 Q2 c8 J! S0 t
美国电价低但人工高;东海岸/加州电价上涨压力大7 N, g( G& F/ Y* @9 Y- {
欧洲电价高、审批严格,但接近高价值企业客户和数据主权要求
* M6 |0 T u8 v. z" o! P: y若以“美国 $0.30/kWh vs 中国 0.3 元/kWh”极端场景比较:
8 l% Y/ G+ [. F8 j/ \$ U. p! s( I c$ ^
纯电费/百万 token 差异:约 $0.083 vs $0.012 → 差别 ~$0.07/M tokens;* C* h% u. P+ z( V& [7 a6 W
对比 API 价格:差异对整体利润率的影响远小于是否使用 NVIDIA vs 国产芯片、自建 vs 云租的差异;: V9 H( |9 p& }) r, r6 [( a
但在极高利用率的 自建超级集群 场景,电价仍然能在 5 年 TCO 上带来 10–20% 的边际优化,是选址决策的重要考虑。
( F" c0 u9 s/ N9 t6.2 技术栈维度:选哪家芯片/云栈?2 h+ B( o/ L& t' u; j+ J
若目标是全球最优 tokens/$ 且不受出口管制:
, Q5 k: T2 p Z/ O; J4 I% H$ x7 I$ G1 u2 z
Google TPU v7/Trillium + 自建 on-prem:性能/能效与成本的综合最优,但前提是可以直接获得 TPU 硬件与软件栈授权(现实中仅限 Google 内部和极少数大客户)。3 i. c" w/ X9 @- m) L% q u6 F2 I* w5 ]
若在美国/欧洲,能自由采购 NVIDIA:
6 H+ S9 T6 T0 d+ C; l/ @# a4 s2 W! D& `
短中期内,NVIDIA B200/GB200 NVL72 仍是最佳实践:
) Y4 H6 ^4 {1 _4 c4 ~+ {6 |成熟的软件栈与生态,极高的 tokens/s/GPU;
$ |8 [ k/ Z/ ^" n. M在云厂商/超大规模自建模式下,配合液冷与 PUE~1.1,可取得较低的 token 成本; E# v9 r1 f$ d _( Z% k
但要谨慎评估 GPU CAPEX≈总投资 40% 的集中风险。* Z7 d5 `: l5 D7 N8 p; S
若在中国或存在出口管制约束:
' D2 x: ^% N1 K3 f. o/ w. ^0 n" S w; M6 y
昇腾 910B/910C + 平头哥真武 810E 是现实可行的主力组合:- r2 k( f) {& i2 X8 ~: L0 [1 w$ W* r
性能上已能覆盖大部分 GPT‑4 类推理需求;$ K1 S3 T( p9 \9 S6 o, e! i
单片成本显著低于 H20/H100,集群 CAPEX 明显更友好;& {8 r" J: l0 U' D1 z6 Y7 w) |
软硬件全栈国产(CANN + MindSpore + 通义/Qwen 等),可避免制裁风险;3 B# x( U8 a/ v ^+ {
建议配合:, t4 A% ?, I2 {- {) ~5 P# ]' e& Z
高效液冷(PUE~1.1)、
* @; {. m- E) Z( R8 Y0 d大 batch、路由(浅层任务走小模型/低成本芯片)、$ w" I ?: Y9 }' F2 e
强量化(FP8/INT4)与分层缓存策略,进一步摊薄 token 成本。) P4 F! m" W) H" ]
长远看,“tokens-per-watt / PCE” 取代单纯 PUE/FLOPS 成为核心 KPI:
1 ~9 w: X0 I* Y2 Q! }1 O" b( ] {3 j W' u- t/ Y2 O" f
数据中心运营者应从“PUE 1.5→1.1”的设施思维,转向“每瓦输出多少有价值 token”的AI 工厂思维[29][118];
. [8 q) M* E$ l1 {* Z4 l7 G4 a这意味着:' V3 Y' `1 `# T2 R% B- D- S
优先选择 更高 tokens/J 的芯片架构(例如 TPU v7、B200、后续国产芯片);3 n) _, ^1 y1 U2 {# g- d* m1 D% {
精细化调优 batch size、路由策略、CoT 深度,将“energy-per-token”作为最优先指标来优化[17][26]。
' p( a+ [2 @. x J0 A2 i6.3 针对你关心的具体问题的简要回答
/ N* {" L$ i7 [' M5 NAI 数据中心建设 vs 运营成本的大体比例?. O7 n7 G6 S) t" i! B4 _+ C3 }. X
& S1 |: m; i, e9 O+ ^& u1 }在 5 年期 TCO 视角下,CAPEX(尤其 GPU)约占总成本 50–70%,运营成本(电力+冷却+人工+维护)约 30–50%。, b: G# D7 c; W# s, n; z
其中 GPU 自身 CAPEX 占到总 CAPEX 的 30–40%[36]。) k( i0 \ m) c/ j# U. b) e* s
中国、美国、欧洲、中东的成本结构区别?+ p& H9 u/ Q2 z6 r- C
0 D: k: k" f: M4 ^- k+ ^
建设期:
4 `/ k# e( g0 D" J' j n: y中国/中东的壳体+机电成本明显低于美欧(约 5–7 vs 8–12 vs 10–11M $/MW)[1][2][20]。5 z+ e9 @6 @" K" j8 x3 v
运营期:; _" ~# v) j$ P* ?) W) z
电价:中东 ≈ 中国西部 < 美国平均 < 欧洲3 |0 b! d" f: T I' c* _
人工:中 国 ≪ 美 欧,中东居中。3 l: H+ y K; Y) F# ~" u
在美国 $0.3/kWh 与中国 0.3 元/kWh 下 token 成本与利润率?3 _$ ?2 P4 a# A' R' }( C. }+ B# O+ y
" ^2 B0 P% S7 |3 C) v* J, C& T对于典型 1 J/token 推理负载:. L G' n+ o8 m, P
美国 $0.30/kWh:电费约 $0.083/M token
) J" ]7 B; B. o4 O. }' B5 [; K中国 0.3 元/kWh:电费约 $0.012/M token2 C+ A' Y! w( e8 K1 n" }* N3 W
对比 OpenAI 等对外价格($0.6–168/M token),电费无论在中国还是美国都只是利润表里的“小头”,主导因素是 GPU TCO 和平台溢价。
( ?5 D4 q7 P" e" S) a: b2 Q不同技术方案(NVIDIA / Google / 昇腾 / 平头哥)的建设与运营成本谁更有利? F: g0 ?/ e1 O, z( Z: g
1 e7 [! t- m6 A' }/ `在可获得 TPU 的前提下:Google TPU v7 在 tokens/W 和 tokens/$ 上最优;
5 a1 o4 u; y7 z8 M3 P- ^全球通用方案:NVIDIA Blackwell 全家桶(B200/GB200)+ 液冷,但 CAPEX 巨大;
) j; Q# _6 I9 z& W6 B+ {) V U' U中国/被管制市场:昇腾 + 真武 是当前最有经济性与可持续性的路线,综合来看能把 token 成本压到 NVIDIA 方案的 40–70%。 |
评分
-
查看全部评分
|