爱吱声

标题: 华为"韬(τ)定律"——先进半导体设计的系统方法论 [打印本页]

作者: 大黑蚊子    时间: 5 天前
标题: 华为"韬(τ)定律"——先进半导体设计的系统方法论
本帖最后由 大黑蚊子 于 2026-5-29 00:07 编辑
- k2 V9 o& J3 K3 r) M# f1 O, J: G& o
第一章  韬(τ)定律的提出背景与理论框架
; ?: v, W% v3 M  Z3 I6 r- G; ^. y. G* l

+ G& v1 O' s4 i* v! T1.1  摩尔定律放缓与"几何缩微"的困局2 \0 A7 K4 a+ g8 c: ]8 C

( X& j* K# E* |, M! F0 U1 O2 v半导体工业的发展史本质上是"几何缩微"(Geometric Scaling)的历史。在摩尔定律(Moore's Law)和登纳德缩放定律(Dennard Scaling)的引导下,芯片性能通过晶体管尺寸的不断缩减、单位面积集成度的指数增长而持续提升,时间长达半个多世纪。
, L* E& O) O$ P* ?) z8 }然而,这一范式在7nm以下节点遭遇了根本性困难:
( {6 M% r# v. ?, ?6 X% P3 E) P* X
何庭波在ISCAS 2026的主题演讲中直接指出:"传统演进提供的微缩增长,已经无法满足越来越多的性能、功耗、集成度的需求。因此在移动终端领域,我们必须在摩尔演进之外探索新的技术路径。"
" ~2 ]3 F. L" N% x. |
5 Q3 h, D# O) ?9 {5 Y3 v1.2  从"几何缩微"到"时间缩微"
, B. [& ~! |/ o* q  d' t( A9 h0 o: V; n. i8 O% W
韬(τ)定律的核心思想是范式转移:将芯片性能优化的核心目标,从"把晶体管做小"(几何缩微)转为"把信号路径做短"(时间缩微)。这一思想并非凭空而来——在学术界和工业界,从Elmore延迟模型到STCO(系统工艺联合设计),"以延迟为优化目标"的认知早已有之。但华为的区别在于,它首次将这一思想系统化为一套跨越12个数量级(皮秒到秒)的统一设计方法论。# r9 U0 B' ~% v* _8 {; ^4 v
2026年5月26日,华为在IEEE ISCAS 2026首日发表了由副董事长何庭波署名的论文"A Time Scaling Theory for Multi-Layer Electronic Systems",正式提出τ定律。在次日会议中,海思麒麟与巴龙首席架构师黄勇(Huang Yong)等几位IEEE Fellow详细分享了LogicFolding(逻辑折叠)的技术细节。. V3 V& p+ _0 M8 `4 i: O4 p( x& V

$ [) F# L+ G. Y
  U# Y* I% y- I- z1 d3 y
4 K; l* G+ e4 I$ t7 h* a% a% p5 W3 B  F7 L& z+ T# c
1.3  τ 定律的数学定义3 y* z6 `" K/ N4 Z

0 N0 o; c, H/ O! B; D. j论文中将τ定律定义为跨层KPI框架,而非Dennard量级的比例定律。其数学表达为:7 m' S' i; }3 N$ Q
    τ = f(τ_transistor, τ_circuit, τ_chip, τ_system), M  }4 T: K4 M  w5 _
    τ_{n+1} = τ_n / α
% p! k& s4 G; f. D1 \2 |/ G9 y其中:8 y9 ^3 \" p) [( s, `: Y

) C+ k- `% \0 i) i( ~: z) H3 j: U; zα 的经验区间:移动约1.3×/年,自动驾驶约1.5×/年,AI工作负载最高可达10×/年。τ并非新器件物理的发现,而是一个可操作的延迟/时延KPI——它的价值在于统一了工艺、电路、架构、系统四层的对话语言,使得所有层级的设计决策都可以围绕"时间"来算账。
& V9 i8 g: l: q8 Y# D8 l
* J4 H& R- N6 }0 G/ U) @+ y1 l1.4  跨层次时间常数的统一框架
! _  I# N1 S6 p2 x- Y2 ^. h$ L2 S! s8 {7 V+ j$ Q% [6 Q0 H% H
τ定律最重要的洞察在于:当工艺微缩红利消退,系统性能的提升空间主要存在于各层次之间的"接口损耗"中。传统Fabless模式下,IP供应商、芯片设计公司、EDA工具商、封测厂各管一段,层级之间通过标准接口交互——这种分工虽然高效,但每个接口都意味着时间损耗。τ定律的做法是将这些散落在不同层次、不同公司、不同供应商的优化目标重新拧成一条线,以全局时间最优为目标进行联合优化。
( S* }' N2 b* N, t9 w2 t9 x! J! h' @0 e: f5 q2 B
第二章  LogicFolding(逻辑折叠):τ定律的工程实现
! `: F0 b! f9 N5 v1 s) M6 l& g8 B) I' X. H" ~2 ?6 Y
如果τ定律是理论框架,LogicFolding就是它在芯片设计领域的工程落地。黄勇在ISCAS第二天的演讲中明确表示:"今天分享的是过去几年在移动终端SoC芯片设计领域的一些工作——基于逻辑折叠的移动终端SoC设计实践。"
3 U6 n  \( |& |5 p/ ]. Y( S" V9 }8 L% w9 i
2.1  逻辑叠逻辑:与传统3D封装的本质区别
2 v4 b/ y& ^. i; Y$ q# Z- T4 ~  Q0 n# w! V# ~% u
产业界已有多种成熟的3D技术方案:HBM通过存储堆叠提升带宽密度,CIS堆叠实现像素阵列和逻辑的分层优化,3D V-Cache通过缓存堆叠提升特定场景性能和能效。但黄勇指出:"这些方案大多属于相对固定的结构,以及粗颗粒度的堆叠方式,它们的互联密度、设计自由度和逻辑拆分能力仍然有限。"% ]5 `+ `4 o+ ?+ b, d6 U
传统3D封装与LogicFolding的核心区别在于设计颗粒度:# O2 m& P6 P+ {% F% A8 L
! }: Z2 c9 i: K. Z
黄勇阐述折叠后的SoC架构:"折叠以后,上层Die和下层Die不再有独立的模块子系统,而是上下层通过海量互联形成模块子系统。上下层Die不再是独立的单芯片,而是一个单芯片不可分割的一部分,还能方便地实现上下层Die资源的均衡分配。"
1 z6 G' q: e  ]& o, u" ?& l6 D$ `( _# ~/ i  P; j

8 x% s0 I- I3 p& Q' q6 `" f+ H, l$ f7 I# S- c& `9 N$ o1 o
: @/ ?8 Y& w9 C, H$ c% [. K
2.2  W2W Face-to-Face Hybrid Bonding" w* \% v6 T- |

- w/ Q1 _+ N; E% f2 rLogicFolding依赖于两项核心工艺:: @$ w9 {1 V* v3 H3 Y' j- O

* l' `: ?4 n3 C( r相比于D2W(Die-to-Wafer)方案,W2W的优势在于支持远超D2W的互连密度——这是logic-on-logic的前提条件。代价则是无Die级配片、无系统级冗余——无法像D2W那样挑KGD(Known Good Die),良率对键合工艺更加敏感。
# k8 d( V: U4 X' }! ?! t2 {' {
7 Z$ c: j& v7 @2 i, z. R, j. ]; w3 K  R
; r5 F& j- s3 l$ K% j5 `) n

* m, r) r/ A! e2 O" w; X: v9 v) D) }% i! b: X

+ o+ V5 k8 G! w8 d  ~3 V( r- w
9 x: L$ N2 V7 V; Q3 p7 E$ v2.3  细粒度逻辑分区(Fine-Grained Logic Partitioning)' {+ j, C) h. o7 p- U; U

; z/ Y5 G5 h* w$ ~4 f' J5 R这是LogicFolding设计理念中最核心的概念,也是工作量最大的部分。传统3D设计中,一个IP模块被打包在单个Die上("模块钉死在某一Die")。而LogicFolding要求在IP设计之初就以3D布局为出发点,同一模块内的标准单元可跨TOP/BOT分布——利用上下两层的结构,寻求逻辑链路的最短路径。
3 A1 D8 U* }. a4 r三个关键技术要点:6 f" {7 D+ b! w- _

( g5 f& k% x2 _9 t& D1 D, f0 r+ F* f8 e
/ ~! t# h! A" K  ]( |
+ H% M+ T" D2 B. V1 s6 ^+ v

8 N8 Y' ~# K! |7 c1 G" Y2.4  SkyClock:跨Die时钟方案+ @/ }9 W0 {: H% W

2 y5 I  {6 ?" D! A; S# C- a- L. b跨Die时钟分布被多位分析者评价为"全场技术含金量最高的一页"。LogicFolding设计带来两个根本性时钟问题:
) ?4 W2 k, ]# j2 k
7 j7 {+ M) k7 FSkyClock的解决方案:Clock Mesh主体放在上层Die,通过高密度HB直接下插到底层Die的Local Mini Clock Tree,下层Clock Tree极简化。成果:最大Clock Skew从135 ps降至101 ps(-25%),核心时钟最大深度-42%。: G! g8 u* s: B
6 _$ p* X( S4 x! @4 u4 M  h: T

7 V, p+ y$ [: i2 T% h( F6 w# E! k. x4 a& p2 w
9 n7 H2 b9 H! o9 d: l2 }" p8 \9 i) |
2.5  散热与供电管理
( H; K6 |  B  ?8 ^5 |5 }6 G1 ^. l0 C! ]  r2 z4 F
LogicFolding引入了全新的物理设计挑战:- F' l5 g' M. |, y
, V' G; ?1 K+ P( P  [

. Q! \: w9 m8 f2 L; e% ^
8 L& q' D% ?/ l/ m/ W3 K+ u# m6 F5 [$ R( }. o: P) Q
) H$ g: f# f* O3 o1 x; B* r
- k5 q; E* F9 B' U0 E1 ^+ e
, X' n/ O" X( {& }. ?* Q0 `
0 q# H' @/ d9 ]8 W* _3 S+ ^3 L
2.6  DSP案例的PPA数据
; h1 U# P. Z" g" m" K9 E
1 R" S6 `' c7 P, X. y$ I( O黄勇以一个基带DSP模块为例,展示了LogicFolding相对传统2D设计的收益(这份数据被多位分析者评价为"只能用震撼形容"):8 l& h$ L0 A) O+ o. S/ P

, o& }' ^* a  o1 ?# {
指标相对2D的变化
Die面积-40%
主频+37%
总功耗-24%
Buffer数量-56%
线长-25%
线电容-34%
时钟树面积-19%
时钟线长-28%
时钟电容-56%
核心时钟最大深度-42%
最大Clock Skew135 ps → 101 ps(-25%)

* _' ^7 ]* _- s6 A关键物理路径缩短数据:SRAM访问黄色路径从676 μm降至307 μm,红色路径从570 μm降至约10 μm以内;逻辑到逻辑最长的关键路径从680 μm降至451 μm。: [1 p& a6 s. w0 Y, p+ I
一个DSP IP的纯路径优化就这么多收益——"芯片设计发展了这么多年,逼近摩尔极限又喊了这么多年,突然天降一个升维设计方案,能降低这么多信号路径。"
8 K$ U2 p9 L0 O9 X% ^  V
7 x5 y9 o2 T% R0 L' R, x' ~. O- z& e2.7  芯片级性能收益与路线图6 j% S$ X  P5 N* v# h5 l
; o! S* _% ?$ v5 U
基于麒麟2025年产品(未指明具体型号)为基线(=1),公布的全芯片级收益数据:
) K; M' ]) D& M* Q
' R# C" o8 q' l7 o" z% d
指标2026年2027年
晶体管密度(Chip Level)+60%+70%(2028年+80%)
CPU单核性能+15%+44%
CPU多核性能+24%+56%
GPU性能+38%+87%
NPU性能+140%+213%(绝对性能3.1倍)
CPU能效+12%+34%
GPU能效+40%+78%
NPU能效+81%+118%

# T3 _6 j) P3 T+ s& X密度路线图:LogicFolding(2025年基线=1)2026年1.6×、2029年1.8×。对比Leading Foundry(2020年基线=1):1.5×(匹配节点)→ 1.8×(1.4nm节点)。华为给出的对比结论是——用逻辑折叠做到了与先进制程演进同等的密度收益。3 {9 a  O1 s  L. y6 p/ I) L5 x
, C9 x5 F0 M6 {8 g# Z% |

# o' _; A0 G1 e2 A: [! d& u3 c5 C/ n
7 u0 u- i* H" V
第三章  IP-EDA-工艺全栈重构
- I9 ^/ D# a" Y9 p
+ `% U9 v( O/ f3 ~/ V" xLogicFolding从概念走向真实芯片产品,面临的根本挑战不在于某一环节的优化,而在于"整个工具链和设计方法学都需要从零重构"。黄勇在演讲中坦陈:"应该需要很多年才会有完善好用的工具链,现在的工作必须在工具很不成熟的条件下完成。"/ d) X( {: t+ |
8 ?7 a$ T- {/ _+ Y* ?8 a, y+ ]
3.1  3D原生IP设计:从黑盒到协同( _5 D0 t) M) a8 b4 {

5 C/ S0 P' i9 l) U( z. ?, G传统的Fabless芯片设计是以平面IP为核心进行的。Arm IP拿过来,不管怎么封装,它都是一个区块一个IP。在2D设计的成熟链条中,各方交付的是一个黑盒:接口固定、时序固定、修复机制固定——"我交付了,你别碰我内部"。
; B( v. K+ L: o- LLogicFolding彻底打破了这一模式。同一个IP不再仅存于2D平面,而是在上下两层Die上协同工作——这相当于给芯片设计升维了。一个SRAM IP在折叠设计中,某些Bit-Line/Word-Line因3D折叠变短,访问频率可以提高;某些Bank因为热环境不同需要更细粒度的监控;跨层路径因为Bonding Variation需要额外Margin。传统的黑盒交付模式无法满足这些需求——你需要SRAM为了你的3D可靠性和全局时间目标去改内部逻辑、改错误恢复、改冗余结构、改上报语义。# H) v7 P  J8 S4 V! O& U/ }
这就是τ定律被称为"只有海思能做"的原因——海思被迫在过去几年把软件栈、指令集、关键IP、SoC集成、互联协议、先进封装、3D集成、系统Fabric全部做到自主可控,从而拥有了"命令各个层次的架构师为了全局τ目标而改动内部设计"的权力。这是全栈自研在商业逻辑上的自然延伸。
2 e+ G; ]. z2 q& }* x4 f5 P8 j
# }* W% ~4 t) q& J
0 L, y! k" I" j$ k4 a
1 [+ d( K: z( u* D1 x! R% Y4 C9 N' u, l. r
3.2  EDA工具链:从"假3D"到"真3D"
8 x' V+ s1 [& B4 Y4 N2 v) {9 u# Y  Q3 i
"设计流程和方法学是逻辑折叠遇到的最大挑战。从平面转向立体空间,不再有成熟的工具链支持。"黄勇在演讲中直接点出了EDA的核心问题。5 y5 {. O% ~4 |- Q2 w! W2 N
当前国际主流EDA工具对3D设计的支持停留在"伪3D"阶段——将3D设计打平成2D后在每个Die上各跑2D工具,优化目标仍然是单Die内的时序、功耗和布线拥塞。而"真3D"(True-3D)要求:
4 X" h) }9 e1 R( {/ j; B9 {
5 l+ I/ z9 w+ e5 h学术界已有重要进展:北京大学团队的早期真3D流程结果显示,相对"伪3D"方案,线长减少约30%,WNS改善6%,TNS改善12%,峰值温度仅上升不到3%(近乎无损线长)。华为目前的Enhanced EDA+Multi-Die Co-Opt Loop(含良率联合优化)正是在这一方向上推进。考虑到何庭波明确写的麒麟2026和2027已经在Silicon阶段,说明华为已经在不成熟的工具条件下完成了流片——投入之巨大可见一斑。
9 X6 B2 l+ V* s1 O  ~1 a5 H0 A4 @; D: [0 B6 _6 v# J
3.3  跨Die静态时序分析(Cross-Die STA)
; {* t. c4 _; g" T: ?0 n3 r' z# Z$ z! [
跨Die STA是3D签核的核心痛点。传统的时序分析基于PVT Corner组合,但在LogicFolding中,Top Die和Bottom Die可能处于完全不同的工艺/电压/温度角——导致Corner组合数量级上升。华为公布的解决路径包括:SkyClock方案压Skew;Cross-Die Clock Skew Minimization Techniques;以及多Die统一的时序建模方法。
1 c* J) b1 F+ K; A- a5 A" F黄勇在演讲中还提到时序收敛(Timing Closure)——LogicFolding不仅增加了Corner数量,还因为跨Die路径的物理延时差异增大而使时序窗口变窄,对设计和Signoff都提出了更高要求。+ R# D1 M) V* l$ Q
- u0 G4 ~/ G0 f% c
3.4  良率模型与成本分析
1 [2 m) g0 U. ]& A! `% ]" @1 E1 [2 I! W
折叠良率的公式为:Y_Folding = Y_Top × Y_Bottom × Y_Bonding。三个因素相乘,直觉上良率应当远低于单片2D方案。但华为指出了几个关键的反直觉因素:
  V, n( m0 ^  Z- R# a
, i% k) f4 B/ N! f8 L: e但良率模型的限制同样明确:在手机2层小Die上可行,不等于推到大面积AI Die上同样成立。华为在Cost & Yield一页只给公式、不给任何具体数字——这恰好是"华为自己也还没填上的那一格"。
) c, ?; l) U. N5 l/ E2 C5 v+ f: E: h& \! `: w8 `. M/ ]; ?
$ @% j( A* Q4 D& D* N: ^, A

% f( B* R. i, a) O: p3 W$ ?  h) A: b8 H$ j1 Y9 g9 f; M9 h
第四章  实践验证:麒麟2026/2027流片
9 Y8 |1 M& T; i! Y) B! J# @% q) D
$ P1 K. m0 K0 ~* _6 `7 o6 O8 A& {' N4 s
4.1  手机线LogicFolding已经进入Silicon阶段! ]! q/ Y8 y  g' R3 D' G7 m, R6 x

/ j+ Y3 c) B( U9 Q何庭波在ISCAS 2026的发布会上明确写道:"麒麟2026和2027已经在Silicon阶段。"黄勇次日演讲的性质是"分享过去几年在移动终端SoC芯片设计领域的工作"——用现在完成的语态描述已完成的工程实践。可知LogicFolding不是PPT方案,而是已经完成了至少两代产品(2026/2027)的设计和流片,其中2026款已进入工程测试阶段。( D( W- ~6 b" ]( O
公布的2026年芯片级关键指标:P-Core能效+41%、最高频率+13%、主频达3.1 GHz。这些是Silicon Measured数据而非Simulation——验证了LogicFolding从设计到制造的整条路径已被打通。
% V$ x/ M( P5 `. m"如果它还没落地,我会说这东西要实现,必须IP从零开始,要把IP-EDA-工艺全通了才行,实在太难。但是他在发布的时候,麒麟2026和2027已经Silicon了,所以我无可反驳。"——分析者评价+ f2 s3 a+ P0 N

6 W, Z+ S1 Z, x( S3 l9 N4.2  制程现状的重新评估:N+2/N+3的良率证据
1 Y# [9 \/ }' [: ^. v" Q% G' ]
% {% M5 y* O( Z5 o" o通过华为目前在售手机的芯片配置,可以反推各制程节点的实际良率状态:/ W! i2 I9 W4 @4 B) o1 D

1 e4 b5 J8 l! U9 {关键证据:8000A作为残血版放在更低价的畅享90中,这是典型的Binning策略——Binning的前提是绝大多数Die是好的,只把分布尾部的边缘片做小阉割。如果N+2真是传闻中的灾难良率,它根本塞不进一台还要走量盈利的千元机。
3 l( b* `8 w$ ]* g1 U6 a! K9 P8 Q- k8 c

: H- W7 z9 Q0 X3 p) p4 I7 T0 Y( ]第五章  数据中心线:鲲鹏CPU与昇腾SuperPod
4 |5 U" l8 y7 C% `7 Y% A; a! j( ?0 u0 [
τ定律的叙事分两条线:手机线(Kirin LogicFolding)解决"在受限制程下如何持续提升能效";数据中心线(鲲鹏CPU+昇腾NPU)解决"在AI大算力场景下如何打破互联瓶颈"。; o( K2 H% t  f# T6 H+ N% ~5 _
/ m1 n7 |) a5 I5 v0 q* W6 V
5.1  Circuit Folding与Chip Folding- ?" h9 B( _/ `. }, M
# o# X7 G0 c, B! E3 z
在鲲鹏CPU上,华为使用了两层折叠策略:+ @. t5 D  T( t+ z4 o7 @0 o
9 n0 A5 h( ?+ `' J: l
# G1 W& S5 \- A, G; z
指标Kunpeng 950Kunpeng 960(目标)
核心频率~3.2 GHz4.0 GHz(+54%)
核心数96待定
金属层28层(Skybridge)42层
堆叠方式2 Die W2W HB3 Die
HTL密度>200/mm²
主要瓶颈Gear Ratio需≤3

, q! r3 }$ J9 v6 |% r9 PKunpeng 960的目标是4.0 GHz——华为明确表示"4GHz不是口号,路径存在",取决于工艺迭代和Gear Ratio的改善。4 _' o- k4 \/ N* {' e

8 Q/ r8 ^. `0 ]  F3 R5 j8 f2 b5.2  Unified Bus:用系统架构换时间
/ z2 {1 \0 ?( M  U$ w. K# \" v& J: q
) p( s4 P1 p  ]7 b. F) Z* }- qUnified Bus(统一总线,UB)是τ定律在互连层的核心实践。李博杰(前华为研究员)通过OpenURMA开源项目对UB做了全链路实现与评测,揭示了UB是"靠架构不靠工艺"换取性能的典型范例。/ [1 B; ~) P0 n9 D
传统RDMA网卡挂在PCIe后端,一次远端访问的关键路径上要走五趟PCIe(Doorbell→DMA取WQE→远端读→本地写→CQE写),光这五趟就约1650 ns。UB将控制器直接放上片上总线,CPU的一条Load/Store指令本身就是Verb——那五趟PCIe直接消失,只剩约30 ns的片上总线穿越。端到端延迟对比:UB Load/Store ~500 ns vs RoCEv2 ~2236 ns——快约4.47倍,没有任何工艺变动。! t+ S! @$ v* @+ G
更关键的是连接状态的扩展性:传统RDMA每张网卡维护的连接状态是O(N×M),UB拆分为O(N+M)。在1024×1024规模下,UB仅需110 KB SRAM,RoCE需要537 MB——省了约4855倍的状态量。吞吐方面,UB提供分级Ordering语义,WR吞吐高2.80倍。- j% T1 `/ }- }1 L
"4倍延迟、4855倍状态、2.8倍吞吐——没有一项依赖新工艺,全是架构重构的结果。这才是'时间缩微'最该被看见的形态。"——李博杰: m4 K. O+ R9 m4 h. ^- I
$ X* S6 X- O7 \; n) F9 \% ^2 b
5.3  Hi-ONE光互联与SuperPod演进9 ~, `6 P3 C- y; c7 k
+ k( f5 M; y' M) f  B
在昇腾SuperPod的Scale-Up互连上,华为引入了Hi-ONE光互联方案:8 Tb/s每芯片每方向、224G×36 Lane、电SerDes距离从100 cm缩短至5 cm、机柜级100 m级光学Reach。UB实现的远端访问从数十μs降至100 ns——约500倍的延迟缩减。
; v" _5 @# l# f4 n; j  C& Y9 C! n& W/ `& M/ q# i
代际NPU数量聚合带宽关键特性
Ascend 910C (2024)384301 TB/s电互联
Ascend 950 (2026)8,19216.3 PB/sUB + Hi-ONE
Ascend 960 (2028)~16,384>16 PB/s光学规模
Ascend 990 (~2030)待定待定LogicFolding进AI大Die
- Q% y; D$ p7 ~9 C
) z/ A: k, h; u$ @$ r4 I+ x
5.4  Ascend 990:LogicFolding进军AI大Die
  s) Q( v3 N3 m: a9 M) S+ O  w; K0 z  G9 h* m
这是τ定律叙事中远期最大的"赌注":将手机2层小Die的LogicFolding技术推广到约700 mm²的AI加速器大Die、进化到3-4层堆叠。在手机端,小Die的缺陷良率回收(面积减半→单Die良率≈√Y₀)是代数上可行的。但在700 mm²大Die上,大面积本身就是缺陷良率的灾难区,Y₁×Y₂×Y₃×Y₄的复合将面临巨大风险。所有技术细节都很详细,唯独良率一页只给公式不给数字——这恰好是华为自己也还没填上的那一格。手机端,他们很有信心;AI端,那场仗才刚开始。
  l! A' ?5 B) z6 f# K  H5 D( ]8 P+ s5 K4 d
第六章  全栈联合调优:τ定律的独占性优势& F/ K4 X. S: s. q# r- m
+ d# L6 `8 Q( Q- O- G+ e

- P. R: D. |+ D6.1  为什么只有海思能做?
& O5 ~* y& B8 s* g: a* \* F+ X9 C
: }- K) M1 @. G! B* a2 _% wτ定律和LogicFolding,表面上是定义了一个全局时间的优化目标。但这种"全局最优"的实现,需要的不仅仅是技术上的可行性,更是一个其他人难以复制的组织条件:全栈可控。
7 u' i0 W, r  U1 q6 S. Y+ I在大多数芯片公司里,芯片设计是一场漫长的拼图游戏。CPU Core是一个IP,NPU是另一个IP,DDR Controller、PCIe、SerDes、NoC、安全岛各是一个IP——每个IP都有自己的交付合同、验证边界和可靠性假设。你可以把这些模块摆得近一点、连得密一点,但你很难要求它们为了一个全局τ目标,把自己的内部逻辑、状态机、容错策略一起重写。这不是技术问题,是商业协作、验证责任、交付节奏上的不可行。7 k0 J% A6 K" `
华为海思在过去几年被迫走了一条特殊的路:软件栈自己做、指令集自己定义、关键IP自己掌控、SoC集成自己扛、互联协议自己推、先进封装和3D集成自己打通。这条路当然很苦,但苦到最后会形成一种很特殊的技能点——"从指令集到散热膏"的全栈联合调优能力。/ n  Y. [  W5 u

. r% u( M' n9 l: i8 F# s6.2  IP黑盒问题的突破* e. T- K! S0 e: `( \
: |. [* t+ \" b$ Z7 @+ b9 ]
举一个具体的例子来说明τ定律独占性的来源。假设一家创业公司也想搞3DIC,它从一个传统IP供应商外购SRAM IP。正常情况下,这个SRAM交付的是黑盒:接口固定、时序固定、修复机制固定、能跑多少频率就是多少频率。但在LogicFolding设计中,这个SRAM需要:因为3D折叠变短而调高访问频率、因为热环境不同而增加Bank级监控、因为Bonding Variation而添加额外Margin、因为某些故障需要从Fatal降级为可通过Redundancy+Firmware修复。
' e" n9 ]% R- K4 E* j/ d2 V要SRAM为你的3D可靠性和全局τ目标改内部逻辑,等于让它把黑盒打开重新参与你的系统架构——这对传统IP供应商来说,技术上可行,但商业上不现实。海思能够做到,是因为它控制了全链条——NoC、内存系统、固件、驱动、调度器都在手上。发现某条跨层Link不稳定,硬件可以标记,NoC可以绕路,固件可以记录拓扑,驱动可以报告给Runtime,调度器可以避免关键任务——系统把它当成"性能降级但仍可用"的资源,而不是"坏了就死"的故障点。
* }2 H$ n( m. P# S5 s. \+ M4 J2 j3 n) u" o1 H9 ~/ s% }
6.3  芯片设计与软件的垂直打通
# Q+ E. A) w$ }  _! _0 s8 |6 e9 e% Q2 A% F' ~6 o  k2 N
"τ定律不只是制造的事"——李博杰在分析中指出,τ定律的真正价值不在于"等效1.4nm"的制造口径,而在于它终于给"用系统级的时间优化换性能"这件事正了名。过去十几年算力的大头增长,很多来自于架构创新(GPU/NPU/专用加速器)、片上互连演进和系统软件优化——不是来自新工艺。Unified Bus的500 ns vs 2236 ns就是一个"架构>工艺"的干净证明。
0 g* U& ~: \7 J2 M: B+ _- v, Q这种从制造延伸到架构和软件的视角,要求从业人员必须跨越传统的专业壁垒。华为当前的组织架构——从指令集(灵犀)到芯片(Kirin/Kunpeng/Ascend)到互联(UB/Hi-ONE)到系统软件(openEuler/MindSpore)——天然适配这一需求。
7 W2 S# R' O7 b4 S- C% _
1 v6 B1 j6 i3 K2 [! \1 @* c第七章  对后续半导体领域的演化推演与预测9 E0 C$ Y6 F1 \" f/ i6 u! w

1 e/ E) v. a9 ?, F  h# b0 N基于上述技术分析和华为公布的实践数据,以下对后续先进半导体领域在IP、EDA、工艺三个层面的演化进行合乎逻辑的推演。/ V$ |+ @5 Y& v5 j7 v  l

% l: e( k2 m  @/ F0 y7.1  IP层面:从平面IP到3D原生IP的范式迁移2 `, B; G. q  Z" G
& N( P* C7 L) R0 }; @
推演1:3D原生IP将成为一个独立的设计品类
1 t) T/ H7 o9 u6 z1 c+ @未来5-7年,"2D平面IP"和"3D原生IP"将分化为两个独立的设计品类。3D原生IP不是简单地在两个平面IP之间加TSV——它要求IP内部的逻辑链路、物理布局、时钟单元和供电网络都围绕跨Die最短路径重新设计。这意味着IP供应商需要从"交付黑盒"模式转向"交付可配置白盒"模式——至少在3D设计的关键路径IP上。这一转变将首先在存储相关IP(SRAM、Cache)和高速接口IP(SerDes、DDR PHY)上发生,因为这些IP对RC延迟和热环境最敏感。
3 w( r+ g7 R" [! l- O4 s' O推演2:IP授权模式将从"买IP"转向"买IP+3D协同设计服务"0 ]) l2 J! w; [3 q5 {( U8 Z
对于外购IP的Fabless公司,黑盒IP在3D设计中将成为瓶颈。未来的IP授权可能包含两层:基础层是标准2D交付,高级层是支持3D协同设计的"开放接口IP"——允许客户在NDA框架下获得IP内部的关键时序和物理参数,以用于跨Die联合优化。这一模式虽然增加了IP供应商的开放风险,但在3D设计成为主流的趋势下将不可避免。
5 c+ D2 y/ P1 b5 w9 ~: W- i5 f! ]5 v( Y$ {4 C+ v0 Y2 s
7.2  EDA层面:真3D工具链的加速成熟
& H% h! M5 f. Y9 a0 Y/ k: _; R( t4 m$ u3 P% f
推演3:Cell-Level真3D EDA工具将在3-5年内形成初步商用能力$ ]" _" t8 Q: @& H: ~( E
当前的"伪3D"EDA方案(打平3D为2D后独立优化)只能作为过渡方案。随着LogicFolding的麒麟2026/2027已经流片,说明了在不成熟工具条件下已经可以完成设计——但成本和周期一定远高于成熟工具。这一现实需求将驱动EDA行业加速"真3D"工具的开发。关键技术节点包括:' f6 ]" q" R6 V: f# G

" n- }% h# @9 p) M$ K6 _6 f3 W8 ^北大团队早期真3D EDA原型的线长-30%结果已经验证了方向的正确性——从学术原型到商用工具的工程化将是未来3-5年的主题。国内EDA企业如华大九天、概伦电子等在这一方向上将有先发优势——因为他们可以直接与海思的3D设计需求对接迭代。7 a# M2 G* ]& r2 Z; [" v9 z& b
推演4:AI驱动的EDA优化将成为3D设计的使能技术
1 y3 Y9 X; Z* G: [: x6 P3D设计的搜索空间是2D设计的指数级扩大——Partitioning×Placement×Routing×Clock×Thermal×PDN的联合优化复杂度远超现有工具的处理能力。AI/ML驱动的优化(如强化学习Placement、GNN辅助时序预测)在3D场景中从"锦上添花"变为"必要条件"——没有智能搜索策略,人工调参不可能覆盖如此高维的设计空间。% @- x  P6 N! z$ f4 U

0 y- l+ D# c+ k- a% N' ~7.3  工艺层面:国产与全球化路线的分叉
( B5 n$ @: m) {/ ~- e* H9 n4 U$ P% ?4 W& Y, V8 f' [
推演5:全球半导体工艺路线将正式分叉
' i$ b' L% i6 z, k$ P% YLogicFolding的提出和工程验证,标志着半导体工艺演进不再只有"把晶体管做小"这一条路。在DUV多重曝光接近尽头后,"逻辑堆叠"+Dual Wafer架构形成了与"继续推动EUV/High-NA EUV"平行的技术路径。
4 s) L9 K* n. e: t' J$ d全球路线分叉的具体内涵:
. `/ d. |* d* I. j% n# a3 V" R, G" `* P
"之前一套流程能给全球所有设计厂商用的时代不存在了。至于分叉之后,结果是什么?五年后,我们来看看吧。"——分析者评价; z1 m8 U0 t8 g' P
推演6:先进封装和键合精度将成为新的制程竞赛焦点6 g+ D5 R, j* }/ f$ Q
当几何微缩受阻,竞争的焦点将部分转移到封装和键合领域。W2W Hybrid Bonding的对准精度(当前~1.5 μm HB Pitch)、晶圆平整度(Z轴一致性)、减薄工艺(应力控制)、TSV深宽比的持续优化,将扮演和光刻精度类似的"制程指标"角色。在这些参数上的进步,将直接决定LogicFolding能堆多少层、能推多大的Die。& h2 o9 j6 w) m$ j  m
, ^5 {, q# @- b( f0 c
7.4  产业链格局:从分工到整合
: V. D" p. d) E: C" T& D( U( K' F
! V% P, f6 {& }- m# v推演7:垂直整合模式将在先进半导体领域获得竞争优势! E9 m' T$ Y$ h8 \
过去三十年的Fabless+Foundry分工模式,建立在"标准平面工艺可以被所有设计公司共享"这一前提上。当IP、EDA、工艺需要为3D设计而重新耦合时,高度分工模式的内在矛盾会被放大——需要一个"中央集权"式的技术主导来全局优化。这意味着:6 ?- k' K0 i9 X* E5 Q. W& a
3 h# o! l; h- }- g& O  I. S
推演8:国产产业链的内循环迭代将加速
1 n, {* O2 I7 S' V) ]* {* W华为已经展示了"在受限工艺上的创新设计可以追赶甚至超越先进工艺的收益"这一路径。这一路径的成功验证将产生两个连锁反应:一是更多国产芯片公司跟随LogicFolding路径,驱动国产IP和EDA生态加速成熟;二是设备/材料/封装的国产供应链因为市场需求端的拉动而加速技术迭代——形成"设计创新→工艺需求→设备研发→良率提升→设计再创新"的正循环。! x! H' f3 q( x8 z

. ?1 H! Z2 Z- d8 A9 C7.5  时间线预测$ q% d: X+ M; ^3 |/ s: Q

# G0 `0 l; h& `9 U9 b' u  H% o
! G. E1 y9 b4 K
时间关键事件预测
2026 下半年Kirin 2026流片公布Dieshot,验证是否双层Logic结构、HB Pitch ~1.5 μm
2027Kirin 2027量产搭载Mate 90,2层LogicFolding在小Die上形成量产曲线
2028Kunpeng 960实现4.0 GHz,Circuit Folding+3 Die堆叠走向成熟
2028-2029首款商用真3D EDA工具链出现(国内企业占先机);3D原生IP开始商业化交付
2029-2030LogicFolding+3-4层堆叠在AI大Die(Ascend 990)上验证——τ定律叙事最关键的一步
2030-2031全球3D逻辑堆叠成为主流设计方法之一;国产路线与全球化路线差距显著缩小
2031+5nm以下制程+3D堆叠的混合方案成为现实,等效密度超越1.4nm

( s5 i$ h6 S7 e1 l. O" S+ H$ f9 x; X9 d1 K4 i
第八章  结  论' C& l  g* F1 a: Q" r* @

0 a) z- h# y& s- l* s( q- p韬(τ)定律的提出,是半导体工业在"几何缩微"路径减速后,第一次有企业提出了一个完整、可操作、经过硅验证的替代性系统设计方法论。它不是新物理定律的发现,也不是新器件的发明,而是"优化范式的迁移"——将性能提升的动力从"把晶体管做得更小"转向"把信号路径做得更短"。- J8 E; Z7 q! b" o7 P
这一迁移的工程载体——LogicFolding(逻辑折叠)——已经通过麒麟2026/2027的流片证明了可行性。芯片级晶体管密度+60%~80%、DSP模块面积-40%+频率+37%+功耗-24%的实测数据、以及从手机到数据中心的完整产品路线图(Kirin→Kunpeng→Ascend SuperPod),共同构成了τ定律的实证支撑。$ q) _1 a# K$ R2 o
τ定律的独占性不在于某一项技术的原创性——Hybrid Bonding、TSV、3D-IC、STCO都不是新概念——而在于华为海思被迫走上全栈自研道路后,获得了"命令所有层次围绕全局时间优化而改动设计"的权力和能力。这种能力不是任何一家Fabless公司可以通过购买IP或授权工具来获取的。
5 ^/ i0 B+ _/ Q! ^* w7 Q对后续半导体领域而言,τ定律的意义在于:它为中国在受限工艺条件下的半导体发展提供了一条可行的、可持续的、经过实证的技术路径。这条路径不仅包括芯片设计的范式升级(从2D到3D原生),还将驱动EDA工具链、IP商业模式、封装工艺、甚至产业链组织结构的系统性变革。
" B+ @$ ~7 B" K# ]# G# t! g5 R. W麒麟2026/2027的流片验证了2层小Die的可行性——这是最重要的第一步。接下来最大的考验在于:将LogicFolding推广到700mm²级AI大Die的3-4层堆叠。手机端的成功回答了"能不能做";AI大Die考验的是"能不能做到大"。
0 t9 O& B# z, x; c后者的难度是指数级上升的——良率、散热、供电、互连密度、信号完整性——每一项在大面积多层级上都会变得截然不同。
4 \- C; q+ G6 W# b. e"过去几十年芯片全球化的发展,虽然是工业皇冠上的明珠,但一代下来积累的屎山不算少,而且Fabless模式的细致分工,虽然减少了各环节的投入成本,但是职责分化也让各环节的壁垒加深。当摩尔定律走到极限时,不管是国产路线还是全球化路线,都要开始寻求IP层面的突破,3D设计是大势所趋,这个级别的革新双方的起点是相同的,都要重新开始。"7 r7 n; n8 ?2 P8 l
4 ~+ o4 B2 d* j& w$ c' ^, u
参考来源
( x& F' i- ~5 F2 r% E6 p) ^; R, v" @  n, R4 d; B
1. 何庭波 (2026). "A Time Scaling Theory for Multi-Layer Electronic Systems." IEEE ISCAS 2026, Keynote Session.& L3 @: x, m2 w+ h1 M2 ^/ t+ P  K& l
2. 黄勇 (2026). "基于逻辑折叠的移动终端SoC设计实践." IEEE ISCAS 2026, Technical Session.(B站IEEE中国全程回放)$ @% z7 J, K0 t* Q% h& J
3. 华为官方PPT:LogicFolding for Mobile Terminal SoC, ISCAS 2026 Day 2.$ H) F  g. Z9 y# o0 h# q+ q# V
4. 咸鱼小山 (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节.
6 a, v$ i9 P* R) E5. Bill (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节(技术分析).
* r, u) U+ ]6 G; k6. 栖于永夜 (2026). 知乎回答:W2W良率分析与SkyClock跨Die时钟方案.; m% \! u1 ?$ P0 R3 r6 ?0 V, I) `
7. 李奇 (2026). 知乎回答:EDA/工艺分叉讨论,3D Partitioning分析.
% M: x) c- e9 s8. i0nium (2026). 知乎回答:Thermal-Aware Partitioning和封装散热分析.5 C3 a$ _3 R/ o- E6 f" H: E
9. 李博杰 (2026). 知乎回答:Unified Bus系统架构角度分析. OpenURMA开源项目: github.com/bojieli/OpenURMA# U5 e% w5 ]; M% s8 p3 F
10. 乱序摸鱼 (2026). 知乎回答:全栈联合调优能力分析.! E) |' n8 a* H; }9 w+ M, Z. w
11. 华为此前公开技术规范:Unified Bus Protocol Specification (2025).
; w1 V7 h' `3 R7 s( `12. 北京大学团队真3D EDA研究:线长、WNS、TNS、热仿真对比.
5 L& r/ p* u. n2 p9 l  Q13. 华为官方新闻稿及多家媒体报道(光明网、搜狐、凤凰网、CCTV等).
作者: 大黑蚊子    时间: 5 天前
这是搜集了资料之后让agent重新组合形成的分析文章,修改格式,上传文字和图片也是agent做的6 F8 [  [3 `) `0 ^! T+ e

" p& s5 l* x, S试了下好像感觉还可以
作者: 方恨少    时间: 5 天前
提问,请教蚊行,或者蚊行的牛马:
& v. E0 `& V# A- k7 ?3 B
8 ?2 ?5 k0 Q$ D' {+ [$ A+ ^
Face-to-Face Hybrid Bonding(正面对正面混合键合):两片晶圆(Wafer)正面对正面,通过阵列式的铜柱(Cu Pillar)实现超高密度键合。
$ q8 i3 h1 K- x" Q% I5 v
& z& l! V. w0 b) R0 b
如何实现?是先分别在两片晶圆上制造电路,然后通过铜柱连接在一起,还是先在一片晶圆上制造下层电路,然后布设铜柱,再制造上层电路,最后把第二片晶圆扣在最上面?第一种方式对精度要求是巨大挑战,第二种方式个人感觉目前不可行。* L5 Q* Q3 G0 O( ?

( E9 g- D* `/ D4 h$ W: R读后感:这种方式对散热,时钟,电磁效应是巨大挑战,也就是对设计的巨大挑战,在AI之前是不可能的,现在借助AI才成为可能。最后对良率也是巨大的挑战,估计开始阶段的良率会低的可怕,如文中所述,只能分散到不同产品线,也就是华为借助中国消费者对华为的支持,才能cover住成本。
8 @& W) r1 Y$ b& \, [5 I& m0 ]8 I8 |$ L7 c  }
也如文中所述,这和传统的芯片设计制造就是两个路径,这相当于芯片设计制造的微观世界里的全国一盘棋的计划经济模式。估计早就有人想到,但恐怕真的只有面对生存危机,受到全国全产业链支持的华为才能走通。而这一旦让华为走通并且发扬光大,那未来芯片业就要变天了,很多小IP设计公司要么被华为收编,要么就可以关门了。如果美国不能及时跟进的话(其他国家绝无可能),那台积电都不算筹码了,估计如果十年后大陆登陆某小岛,直接就通知美国,赶快来几艘船把这些破烂拉走,别占我们地方。
$ N. o: N% y- j  U
2 I! ~% j/ J( Q4 ], A( E7 u
作者: 晨枫    时间: 5 天前
大黑蚊子 发表于 2026-5-28 03:47
7 w# ]2 D% w/ a% i* x( w' Z  Z这是搜集了资料之后让agent重新组合形成的分析文章,修改格式,上传文字和图片也是agent做的
- e8 V5 @9 j4 c$ P& j' n# ?% d$ ~, B* A" f& S) D- l5 k
试了下好像感 ...

  k7 \: q' _' B1 E& K1 E哇,Agent那么厉害了啊!佩服!6 p( \: F& k, S9 N/ C6 N
更佩服能指挥Agent的蚊行。帅才!
作者: 大黑蚊子    时间: 4 天前
方恨少 发表于 2026-5-28 23:30
' m  E% J  j, v6 N提问,请教蚊行,或者蚊行的牛马:

8 G: x5 W% [( H8 P: L5 D( V应该是第一种方法,具体怎么对齐封装咱就不知道了8 G( k0 z6 M& h+ \0 x4 B% V1 o# w. ^
因为华为后来说可以有效利用不同工艺生产的组件进行拼接,那就应该是可以考虑用不同制程工艺生成不同的部件再组合起来,想想都觉得头大,甚至感觉只是在放卫星吹牛逼; u8 U& c% K6 x9 M7 L

5 A1 o& D$ j  x9 d  J* G$ T但是华为自己说麒麟2026/2027(应该是)已经完成了流片,2026进入了工程测试阶段,9月就要正式发布,这就有点儿惊悚了
4 C* A$ Q& w2 D# j  p, K, y人家不是在画PPT,人家已经做出来了,而且良率和成本看上去还都不错
作者: moletronic    时间: 4 天前
你们对华为这个吹得有点过了。。。作为Process Engineer, 俺没看出华为出了啥突破性的东西,Hybrid Bonding是已经在用的东西了。华为就是有提高,感觉也比不上YMTC前面搞出来的XStacking意义大。本来以为华为在设计那边搞了突破,但看可梦之的评价好像也不高。
, b& \; S2 }9 X6 A1 X感觉就是把各项技术综合整合来跳过EUV壁垒,这如果做成当然也是很厉害的,看看下半年9050的表现就可以打分了。
作者: moletronic    时间: 4 天前
大黑蚊子 发表于 2026-5-28 08:10
, z+ F; k7 Y2 H# i' d* Y1 J应该是第一种方法,具体怎么对齐封装咱就不知道了0 D  @: i( T' z- n) M
因为华为后来说可以有效利用不同工艺生产的组件进行拼 ...

0 j6 m7 m; Y' Z5 y5 T6 CD2W (Die to Wafer) bonding,不是W2W (wafer to wafer) bonding. 拼接不同工艺生产的部件不是问题。
作者: WiFi    时间: 4 天前
moletronic 发表于 2026-5-29 01:16
3 ~/ s9 c5 `) n: T9 q7 c- V4 ]0 h; i你们对华为这个吹得有点过了。。。作为Process Engineer, 俺没看出华为出了啥突破性的东西,Hybrid Bonding ...

0 ?) `. o% n3 d  l0 X9 X% v3 y8 o
很尊重你和可梦老弟一直以来提供的业内第一手技术解读,学了很多。这里给两位提供一个其它视角。: v9 Q' I% u, _7 {* l
& _( A, b% p8 x+ Z1 p: u" u1 j
我们习惯美国公司内部和公司之间工作方式的“业内”人,一般按单人、单公司能力估算菊厂工程能力、产品能力。我刚开始就陷在这个坑里,认为微软:菊厂工程师1:5以上的能力对比,菊厂开发、产品能力有限。
8 O9 D# d4 r2 ^. |7 J% [8 n4 a/ d
' ~8 s8 N( g8 A, {+ ^但是,实际工程、产品实践结果是比微软200%,500%的快速工程,产品结果。甚至是技术突破。2 w3 h2 {* A/ k$ i4 C7 N, ~* u! O& x

* A' w+ T0 B7 o6 F! G+ X为什么?
( k" G8 f4 a. ^8 r! m+ z. ~
$ @5 R; b7 j$ S3 ]7 y0 l- }只要各个节点有1,2个真正的技术带头人,再加上一个能把所有能力一般的个人、协助公司,合作伙伴公司有序管理起来的强有力的工程管理组织流程是关键。
6 j5 v- y5 X& c/ V
( f9 e4 p/ I+ Q0 E4 s( |% T就像蚊行文章说的,不能看单点先进性,要看把整个产业链统一起来以后的整体先进性和革命性。
/ V$ A- S; P' q3 d
+ q, H( r. R% ~0 s* c* N% q福特汽车生产线如果让之前的汽车厂家的工程师看,肯定说这有啥技术突破。但是,这个对于工业生产来说就是革命性的。
  E+ B. R9 V% j! ]
作者: moletronic    时间: 4 天前
本帖最后由 moletronic 于 2026-5-28 10:39 编辑
9 f" s- A5 s6 C  q, T% P  m- e4 D& ]+ g0 ^8 V% |
俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性’之类的评价要求比较高。9050的评测数据出来前俺觉得就说革命性还早了点。
作者: WiFi    时间: 4 天前
moletronic 发表于 2026-5-29 02:37( T+ y- g* y: d# [
俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性 ...

4 z9 P! u+ C4 N0 o' ?* x2 n! e同意同意。菊厂牛皮吹破也不是一次两次了。
作者: leekai    时间: 4 天前
moletronic 发表于 2026-5-29 02:37
- U! E4 K# |. Q1 S2 }, {" n" H俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性 ...
& l9 H7 q" s, x" ~' h
要相信系统论的力量。
作者: 大黑蚊子    时间: 4 天前
moletronic 发表于 2026-5-29 02:37
" b% b! N, f/ f俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性 ...

. M3 J/ N0 i2 }9050这个不算革命性,但这个方法论还是可以称得上革命性的9 A# D3 ?& ]* X7 r9 Q6 y( G0 w2 l2 ^
看现在的消息9050应该是缩小了面积后再折叠的,估计是良率方面的考虑
6 `/ V; |3 s- F  q( X. G$ Z如果9050能够达到8gen3的水平(4nm,大核3.3G,八核),那我觉得就算符合预期了
4 ~; n8 x$ z# p1 y
作者: testjhy    时间: 4 天前
看了蚊行的解读,谈谈我的看法:- }1 K0 O7 f) u7 n  j, [1 a. q0 l
1、系统性思维:根据功能、性能、功耗等统一设计应用芯片,而不是功能芯片,这就是自己拥有EDA工具链的巨大优势,利用自家的EDA工具可以平衡各功能块的集成度,各Die或Wafer性能、功耗等的平衡,如果发现有些EDA工具达不到的,增强EDA相关设计能力来完成,整个设计按照目标的逻辑来完成,所以称为逻辑折叠。而传统的CPU、GPU厂商只能利用别家的EDA工具做固定的功能块,然后成为物理折叠。. @( r* J0 Q. \& z: b8 i
2、目前以系统性对抗国外光刻等尖端性,跟上时代的步伐& q, c) u3 `  i% R+ w' t  d9 B
3、系统性并不排斥尖端性,等我们光刻设备上来后,这套体系将如虎添翼。
作者: 大黑蚊子    时间: 4 天前
testjhy 发表于 2026-5-29 16:24
3 J' P, [7 ^0 a看了蚊行的解读,谈谈我的看法:) B, v% w3 K6 k8 f
1、系统性思维:根据功能、性能、功耗等统一设计应用芯片,而不是功能芯片 ...

% e  N8 V4 F6 `+ ~# `% c" |; o- w( T更本质一点的话,韬定律这套东西其实是在抢夺先进工艺的定义权
2 J5 d! Z$ P$ b% w. P从14nm之后,所谓的x nm早就不是对应物理概念的那个数字了,本身也是个等效算法甚至是商标0 ]8 [6 c8 k) H6 `3 C
既然如此,那就把nm这套老办法去掉,大家按照完成系列通用任务的效率来看,谁效率高谁就是先进的,效率高不就是用的时间少嘛。9 P% N+ P' T7 u/ W$ E
也别纠结什么EUV/DUV的,谁能完成任务谁就是好汉
! c3 U& u  ^8 u- o3 \* h- z' [. Q3 F$ q
如果这个9050在性能和功耗上能够追平高通的8Gen3,那就差不多可以认为是相当于4nm的水平
* {1 x& c' P* i  P, p9 ]用Duv做出4nm来,那不就是Intel当年心心念念一直要做成的事情嘛,最后没成4 F+ f# E! o6 o. H) a# `0 X; P
DUV这么搞下来,成本还真不一定比EUV贵4 f0 ?+ w5 Q' [( A9 h, ]

作者: WiFi    时间: 4 天前
大黑蚊子 发表于 2026-5-29 22:43
6 y3 L1 J1 _# |) R6 V, ?更本质一点的话,韬定律这套东西其实是在抢夺先进工艺的定义权
8 Q( p/ o/ A: s6 p9 C* X从14nm之后,所谓的x nm早就不是对应物理 ...
8 l; }; b0 V) @! d4 d
菊厂在抢夺定义权,尤其是国际标准的定义权上面是有执念的
作者: moletronic    时间: 3 天前
是不是俺对“革命性”的定义太高的原因啊,俺对9050的期待值可是更高的,应该能达到台积3nm的水平。9 @4 C- m* A" @; a+ ?
另外,牙膏厂当初可不是用DUV做3nm,是10nm。这其实不算太难,台积对应的7nm就是全DUV制程,后来是为了减成本才用EUV。早期EUV生产成本还是太高了。% S. u& Q* S+ J- t" W
华为这个方案很难说能比用EUV的单层方法便宜,毕竟处理的层数要加倍了。
作者: 马鹿    时间: 3 天前
WiFi 发表于 2026-5-28 13:09
4 Z2 F; h, T- {! L5 G# {4 C很尊重你和可梦老弟一直以来提供的业内第一手技术解读,学了很多。这里给两位提供一个其它视角。& n/ m# U# X+ |  r: M' l. _

* F/ t: ^% T1 f, G3 @我们习 ...

! `9 d- I; P3 a* v4 }1 O: i6 w: d站你這邊, 帶過國內團隊, 他們特別適合大規模作戰, 特別能打, 他們一兩個人厲害就行。
作者: 方恨少    时间: 3 天前
大黑蚊子 发表于 2026-5-29 00:102 L. N, a2 m6 k9 E! y9 G2 I7 \5 p& E
应该是第一种方法,具体怎么对齐封装咱就不知道了$ Q3 {$ H8 T) [( @3 ?" D
因为华为后来说可以有效利用不同工艺生产的组件进行拼 ...

1 u6 P4 h/ U+ W, A# z2 N9 E4 F4 B$ o第一种方法能实现也已经很逆天了。但我还是担心良率问题,虽然华为声称已经在300多款芯片上做了实验,下半年产品就要发布了,但产品问世了,性能一目了然,大家都能测出来,而良率和成本这东西,华为自己不公布,别人谁也查不到。+ Y( O# z! Q# D  O7 X, s
' c2 d, n/ I0 C  B
华为这次公布韬定律的时机也很有意思,除了技术方面,大概还有政治博弈的因素。特朗普刚刚访问中国,表现得规规矩矩,英伟达黄仁勋最后时刻扒飞机也要来,AMD苏姿丰虽然没能混上一张机票,但特朗普刚走就来访问中国,尤其是当年制裁华为跟进最积极的美光居然也来了。这说明,美国对中国的芯片制裁,是否还能压制住中国,或者说还能压制多久,已经产生松动。华为公布韬定律,也有对美国喊话的意思,早晚压制不住,甚至可能被反超,不如早点合作共赢,收手吧,阿祖。
作者: 晨枫    时间: 3 天前
方恨少 发表于 2026-5-28 09:30
8 L! w% t* ~) i  u提问,请教蚊行,或者蚊行的牛马:
0 f- j0 M+ c6 a' i% e
有没有可能是将晶圆布设铜柱后对接,然后上下层同时刻电路?感觉这样才能保证对接精度?
作者: WiFi    时间: 3 天前
方恨少 发表于 2026-5-30 04:30
' j( \4 r, K, u& e2 H第一种方法能实现也已经很逆天了。但我还是担心良率问题,虽然华为声称已经在300多款芯片上做了实验,下 ...

  o" c- y/ L3 r9 K' I2 f“大概还有政治博弈的因素”% k1 g6 L3 q8 N) e- L

/ Z7 w$ _1 T, k0 s我认为没有政治。海思为发表这个论文准备多半年了,因为麒麟2026芯片马上要发布。必须赶上这个节点先把理论抛出来,然后用麒麟芯片的性能来闭环论文给出的数据。
! ?( ^5 ?" G% Z) N
) m  L) X. T  B5 G; C- m这样这个理论就立住了。
作者: 晨枫    时间: 3 天前
WiFi 发表于 2026-5-29 19:06
- m$ P2 @7 A7 U$ r! h“大概还有政治博弈的因素”$ B: [2 w$ U8 w9 l  m' x" ^
( E. s* x$ u4 C0 H' l
我认为没有政治。海思为发表这个论文准备多半年了,因为麒麟2026芯片马上要 ...

, ^# d! u( {; P' q- x: L5 H2 h% _同意。华为一直是行多于言的,没有一点对麒麟2026的信心的话,没有必要在这个节点出这个丑。
作者: 方恨少    时间: 3 天前
晨枫 发表于 2026-5-30 04:53
1 q% [9 q) H2 I9 z' j有没有可能是将晶圆布设铜柱后对接,然后上下层同时刻电路?感觉这样才能保证对接精度? ...
- _% a  K+ p( W8 g$ [4 f
这样的话虽然可以保证对接精度,但键合之后再在晶圆上布设电路的话,电路就布设在上下晶圆的外侧正反两面了,个人认为不可能。$ B0 {% ?0 F$ U, Q( h( J5 Z1 f( ?

! @( E' h: O% ~% S/ G8 m, s对于上下两层waffle分别铺设电路,再布设铜柱对接,将上层wafer倒扣在下层wafer上的方法,还有一个问题是工艺流程,是先进行wafer键合再进行切割,测试,还是先分别进行切割测试,再对接键合。如果先对上下两层wafer进行整体键合,再切割测试,良率可能会非常低。如果上下两层wafer先分别切割测试,再进行键合,可以保证良率,但工艺可能更复杂,流程更多,时间肯定也更长,也许成本反而会上升。
* I2 q3 ]0 k: p( ^3 ?; o9 d: n. q8 C6 D3 X/ `
做最粗陋的的数学计算,假设上下两层wafer的良率都是50%,如果整体对接,最佳效果是50%好的部分对接到50%好的部分,当然这是不可能的。如果能保证如此精确,良率就不是50%,而是百分之百。最差的情况,50%好的部分对接到50%坏的部分,那良率就变成0了。个人认为最优解应该是折衷,比方如果下层wafer的良率高,是75%,而上层wafer的良率低,是25%,应该先将上层的wafer切割测试,选出好的部分,键合到下层wafer后再进行切割。当然,这只是最简单的数学计算,实际情况中良率非常复杂。; v- Q6 z7 U9 Q: T- U
; q: [3 X! _% d& G8 T. K
不知道这种方法是不是就是上面moletronic提到的D2W (Die to Wafer) bonding。
作者: 晨枫    时间: 3 天前
方恨少 发表于 2026-5-30 04:22
) X4 E, W1 x: B5 y& t9 U这样的话虽然可以保证对接精度,但键合之后再在晶圆上布设电路的话,电路就布设在上下晶圆的外侧正反两面 ...
0 R- q  A2 b. r+ s3 m
有道理。要不华为怎么郑重其事呢。
作者: 可梦之    时间: 前天 09:52
方恨少 发表于 2026-5-28 23:30
. d% m/ N- S9 K- v, _$ C" \提问,请教蚊行,或者蚊行的牛马:

. P- M6 a! p+ F; ~0 d第一种方案。先单独生产两个die,做好铜柱,然后打磨平整,face2face的键合。需要低温键合,不能超过300度,否则容易损坏芯片。同时在背面做TSV把管脚等引出来。: l8 \& V" ?  E- W" b* P' r

2 K! T8 u4 P0 R% v  s& T$ U% v$ ~hw厉害的地方在于把HB/TSV的密度都大大提高了。HB最小间距降低到了1.5um,TSV是6um。这样,两个die之间可以做到5000万级别的互联线。这使得更低层次的逻辑互联成为可能。否则HB互联只有几万几十万的情况下,只能做到logic到sram这种block级别的划分和互联。
1 h5 o- F+ W- U8 e  m/ O% Z& t2 {3 H3 A
当然这是有代价的,一个就是5000M互联线的良率问题,hw给的答案是冗余。但是clock/power这种可以做mesh的网络好做,signal连线怎么做冗余,总不能每个都占用两个hb做冗余吧。
& n2 q: z" C# P! n6 U0 N0 \) Y) L9 ]0 t, ^# z+ d3 l$ E
还有一个问题是散热。hw给的答案是做逻辑拆分和PR的时候就要考虑热,不要把两个发热高的放在一起。但是这又与逻辑折叠相悖,本就是要把相关的逻辑放在一起,这些大概率会同时发热。我看图片可能大部分还是logic和sram堆叠,控制发热。另外一个是提高封装散热。没有说细节,我怀疑做那么多TSV可能主要是为了散热,利用TSV的铜柱把热量从背面散出去。因为管脚不需要这么多TSV。* K- B' @5 o# D* @8 y

! \* t3 \4 Z8 }5 x
作者: 可梦之    时间: 前天 10:29
方恨少 发表于 2026-5-30 18:22) H/ e- v. W0 f( P9 a$ o4 i
这样的话虽然可以保证对接精度,但键合之后再在晶圆上布设电路的话,电路就布设在上下晶圆的外侧正反两面 ...

- d; u- U0 o0 v! B, m7 O9 P  \  l- L8 U- j& R- r3 m  s
HW提到hybrid bonding的良率可以做到100%。用的是冗余的方法, 但是具体细节不清楚。
作者: 隧道    时间: 昨天 00:11
可梦之 发表于 2026-5-31 09:52% k7 P0 }% v# P( n
第一种方案。先单独生产两个die,做好铜柱,然后打磨平整,face2face的键合。需要低温键合,不能超过300 ...

- n6 X4 @( \4 P" C" E  ^这个冗余应该不是做两个靶子,而应该是把一个靶子做大。
作者: 可梦之    时间: 昨天 00:13
隧道 发表于 2026-6-1 00:11% n* F' i5 B* @5 E3 [& h0 E
这个冗余应该不是做两个靶子,而应该是把一个靶子做大。

( E- v8 Y2 z% u4 Ypitch只有1.5um,铜线最大也就做到1um,偏差还有0.5um. 做大了密度就不够了。而且如果wafer平整度不够,上下没有连接起来,做大了也没用。
作者: 隧道    时间: 昨天 00:26
可梦之 发表于 2026-6-1 00:137 B1 P, O! }3 z* e" v" D
pitch只有1.5um,铜线最大也就做到1um,偏差还有0.5um. 做大了密度就不够了。而且如果wafer平整度不够, ...
, A: K$ {9 E& @! d4 r
看产品上市的性能吧。估计hw不会说细节,最终还是看产品。
作者: 可梦之    时间: 昨天 00:35
隧道 发表于 2026-6-1 00:26
$ m% P2 R  K9 F$ B看产品上市的性能吧。估计hw不会说细节,最终还是看产品。
& R, s  a) S6 }# c: }; A( G
良率不太能看出来,可能从产量上可以看出一些端倪。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2