爱吱声

标题: 再谈华为的逻辑折叠 [打印本页]

作者: 可梦之    时间: 前天 10:20
标题: 再谈华为的逻辑折叠
本帖最后由 可梦之 于 2026-5-31 10:23 编辑
7 T! a6 _2 E' X$ P8 W! W
4 |+ i3 O5 p9 K! ]8 ]逻辑折叠制造商采用的w2w+hybrid bonding。先单独生产两个die,做好铜柱,然后打磨平整,face2face的键合。需要低温键合,不能超过300度,否则容易损坏芯片。同时在背面做TSV把管脚等引出来。
- z) d' u) w' s# u3 V, x* U! e# K2 Z' h; {, b, z( B7 A; W
hw厉害的地方在于把HB/TSV的密度都大大提高了。HB最小间距降低到了1.5um,TSV是6um。这样,两个die之间可以做到5000万级别的互联线。这使得更低层次的逻辑互联成为可能。否则HB互联只有几万几十万的情况下,只能做到logic到sram这种block级别的划分和互联。1 ~6 y  _8 Y1 V& z% e

* H. C  F; ?- I. H2 T$ ^* J1 w当然这是有代价的,一个就是5000M互联线的良率问题,hw给的答案是冗余。但是clock/power这种可以做mesh的网络好做,signal连线怎么做冗余,总不能每个都占用两个hb做冗余吧。
! O* e6 u% g3 d: _. A/ o
6 J' c3 M" b+ ~( D6 g0 f) K3 Y0 i* B还有一个问题是散热。hw给的答案是做逻辑拆分和PR的时候就要考虑热,不要把两个发热高的放在一起。但是这又与逻辑折叠相悖,本就是要把相关的逻辑放在一起,这些大概率会同时发热。我看图片可能大部分还是logic和sram堆叠,控制发热。另外一个是提高封装散热。没有说细节,我怀疑做那么多TSV可能主要是为了散热,利用TSV的铜柱把热量从背面散出去。因为管脚不需要这么多TSV。
, c0 Y. c$ A5 ^' J& q8 o
' d( q' P( r! n# R( K  y$ Y, \. w; D# f软件方面,hw承认现有EDA支持度还很低(包括国外EDA),主要靠人工,效率不高。EDA是比制造更大的瓶颈。hw的方案是在synthesis之前加入了partition这一层,划分模块和上下die,然后整个flow做迭代。这方面hw还是很nb的,虽然我猜做的是相对简单的,logic folding的潜力还有很多没有挖出来。
6 S" D3 q* G* Q, `7 ^
6 d$ N- j7 X# g. \& M3D EDA学术研究一直有,最近也有北大的论文被炒的火热。但是学术界论文要落地还有很多问题。我们看没有哪家EDA厂商蹭这个热点,也说明的确没有突破,否则早大力宣传了。受影响最大的还是PR工具,前端工具相对影响不大。国内做PR的有鸿芯微纳、立芯等,2D的都问题多多。华大、概论等也开始做PR了,但是目前进度还不如前两家。hw自己也有搞,Macro-placement据说搞的不错,但是整体的PR是没有的,否则也不会扶持某家EDA公司。这里面placement相对容易些,学术论文比较多,routing更难,学术论文相对都少不少。
; I' b4 i! r8 Q9 u, ?! W6 z* B; w: K9 I3 E& k
对STA影响相比要小些,RC抽参工具将HB抽象之后,STA核心算法不用变,除非垂直的HB的电感效应太大不能忽略(大概率不会发生)。主要影响是MMMC和OCV。如hw所说,corner数量大大增加,同一个pipeline,一个ff是SS,另外一个ff是FF的情况之前也不会发生。OCV方面,没有具体数据。但是提到HB的overlay accuracy是0.5um。要知道HB pitch已经降低到1.5um,铜柱直径不会超过1.0um,那么对齐最大差0.5um的情况下,这个偏差已经非常显著了。当然HB的铜柱比较粗,电阻也比较小,寄生电容不太大的情况下,还是可控的。更好的一点是,对齐错位应该是整个die一起的,所有的HB都偏差0.5um,之间的variation也不用很大。
/ m0 S" }5 g- x& n; x/ A
' H# r9 j% Q+ Z6 K6 u4 k5 W逻辑折叠也是有物理上限的。f2f的方案只能做两层堆叠。多层肯定要用tsv,鲲鹏给的3层方案就是上面两层core用f2f,下面的uncore用tsv连接。用tsv的话,连接数是个瓶颈。但另一方面,多层的logic拆分,肯定会造成die-to-die之间的连接数陡增。TSV要做密的话,wafer可能要进一步减薄,但是现在已经从几百微米减薄到10微米之内,如果进一步减薄,良率怎么保证。
/ X  X6 R. ^9 V) ~# q7 v9 W) x+ l
; [$ j9 P: }9 t) t0 x' S1 o还有一个大瓶颈是散热。手机芯片几w几十w的堆叠在一起问题还不太大。大芯片上百w,AI芯片可能几千w甚至更多,堆叠起来散热如何解决?黄说NV不用是有技术原因的,一方面NV卡现在散热都是头疼问题,进一步堆叠挑战过大。另一方面,现在AI芯片显存问题更严重,与其logic堆叠,不如多搞几层HBM,把显存提上去。1 v6 {3 D8 B0 W9 d) T9 z

% R4 z& e' t& C9 p% Y总之,hw是很牛逼的,在处处受限的情况下闯出一条路来,有可能是一条康庄大道。生物进化史上类似事情无数次发生。但是现在就断定这条路一定比原来的路更好,为时尚早。芯片行业集中了全世界的聪明人才,即便海外也有很多华人,并不存在一个想法只有你能想到,别人想不到,区别在于具体的实现细节。赢学大家都爱,但是不符合科学/科技发展规律。
6 Y, E3 v3 |5 i- {# @% J, B0 b% O4 H2 E" b
5 I8 U% r& c0 [: W$ h
# Z; o/ |' Y' q/ p4 d. n' q
% O- l+ H; s5 J0 ^% h' I0 p

作者: 大黑蚊子    时间: 前天 13:37
HB最小间距降低到了1.5um,TSV是6um。这样,两个die之间可以做到5000万级别的互联线。

! x- L) w1 H: n: J: i( L# P, E6 G2 s  w) I1 `. z$ E
我在知乎上看到夏晶(华为鲲鹏/昇腾的首席架构师)在某个答案的评论里吐槽过,说这个指标太保守了
作者: 大黑蚊子    时间: 前天 13:42
3D EDA学术研究一直有,最近也有北大的论文被炒的火热。但是学术界论文要落地还有很多问题。我们看没有哪家EDA厂商蹭这个热点,也说明的确没有突破,否则早大力宣传了。受影响最大的还是PR工具,前端工具相对影响不大。国内做PR的有鸿芯微纳、立芯等,2D的都问题多多。华大、概论等也开始做PR了,但是目前进度还不如前两家。hw自己也有搞,Macro-placement据说搞的不错,但是整体的PR是没有的,否则也不会扶持某家EDA公司。这里面placement相对容易些,学术论文比较多,routing更难,学术论文相对都少不少。

( Z  Z. R  d" T3 h5 z
7 j) A& r9 S8 y据说EDA这方面是两家,立芯和行芯,都有华为哈勃的投资
, }& r( H* ]: E1 i还有小道消息说这两家的能力比华为自己的EDA团队强
作者: 可梦之    时间: 前天 13:58
大黑蚊子 发表于 2026-5-31 13:37
, h3 x: M3 ]' |我在知乎上看到夏晶(华为鲲鹏/昇腾的首席架构师)在某个答案的评论里吐槽过,说这个指标太保守了 ...

' O0 Y) M( S2 g鲲鹏/昇腾芯片更大需要更多的互联线,所以密度还要进一步增加。所以现在鲲鹏只是做chip folding,一个die是逻辑的core,一个die是其他的uncore。明年才会做三层,用上logic folding。
作者: 可梦之    时间: 前天 14:02
大黑蚊子 发表于 2026-5-31 13:42
- d3 H" @7 D9 v- _0 R据说EDA这方面是两家,立芯和行芯,都有华为哈勃的投资
. ^5 R+ G+ t7 m0 t- ^, ^' }2 x' k1 W还有小道消息说这两家的能力比华为自己的EDA团队 ...
& [, ~/ F' i6 F
立芯有哈勃投资,行芯应该没有。但行芯的RC工具的确进入了hw。
" p5 h* n4 @3 u+ s0 M  l后一句认可。华为搞EDA研发不是舒适区,还是做大甲方滋润。; Z, e9 T8 F/ z, b; ]8 l4 T

作者: 大黑蚊子    时间: 前天 15:13
可梦之 发表于 2026-5-31 13:589 E" T  L* y5 T$ g. d5 d$ l; N
鲲鹏/昇腾芯片更大需要更多的互联线,所以密度还要进一步增加。所以现在鲲鹏只是做chip folding,一个die ...

1 `2 v* Q; y% ~5 E6 H/ L  h我看那个路线图做不到三层吧,应该要到28年以后
9 m4 e# W' I  _' I7 q: T! r6 E% K
% F1 \9 l, c+ J关于夏晶的发言,还有这么一段,我当初看到的时候给记下来了,后来再找发现这哥们应该是给删了,我贴在这里,反正爱坛小众,不太应该会有人追杀到这里% y, Z6 V3 \$ g" B8 Z
% N* b0 W6 E9 {  q0 W
作者:Dio-晶
* ]# ?' `  F5 V1 y给韬一点自信. [. |3 e$ h+ X5 n9 v0 G
黑子蛮多,评价所谓韬不就是堆叠、3D集成、先进封装什么的,并引用台积电、AMD的材料为参照,是业界通用能力,叠加EUV还能更强 :)
: o' S% l1 h5 _# g- Y6 g( v2 D. S. [那为啥不做呢? 你想过没有? ! _8 _3 [* k% }3 {) A" a/ N. w- w
为何世人知其路,而罕至其深处?* A( ~- ~3 N3 S9 E
诚然AMD也有MIXXX系列的3D结构,BroadCom也有相应3.5D什么的路标。$ |" y' l4 W2 k/ Z
学术界论文更是汗牛充栋,工业届为啥没有再进几步,更深入折叠一下? 0 C0 v1 w7 G# G# t+ i3 E
其实这真的是一个岔路口!!!!!1 S" G6 T& E+ P0 @. J! V
讲几个简单的逻辑,原本我是准备在会上回答的,奈何没人问,sign。) b5 ?# {( E$ }( B" u' J9 {
1、TSV,也就是所谓打孔(其实还包括一些其他3D特征的对象和rule),它们其实是一种Device,在加工上和一个FET管子是同等级别的特征的。但是,功能上的管子,例如NAND2,是工艺原生之子,而TSV是工艺后生之客。# |" {  V/ F9 k0 t: Z8 g
啥意思呢? 就是你定义一个2nm的工艺的时候,在第一天是不会考虑TSV这种器件的,因为它只会让你的刀变慢 :) 4 h& ~4 y" X, J; t
几乎所有的TSV设计,都是在工艺成熟之后再叠加的。也就是工艺研发需要二次入场,这种研发的复杂度比原生第一次的研发要麻烦很多很多。
& Z& U' b. }0 n) R# o6 b! E1 N既熟则安,既利则惰,Fab能在先进工艺赚钱,就没人愿意二次开发新器件。2 r* f: H; M6 a
而且越先进的工艺,原生Cell,就是NAND2越脆弱,越经历不起万针扎身的淬炼。你看AMD的Bottom就还只到6nm,很难前进的。
5 j# t" Q+ x+ ~! o: c2 a3 G
% @6 S- W) H. N2、其实折叠互联这事,天生与工艺精度是反方向的。你再想想那个Gear Ratio,也就是何总那张图,要令上下 Die 之中,标准单元直连相通,便需要Bonding Pitch 逼近 Cell 尺寸,而Cell 愈小、工艺愈进,Pitch 便要愈小。
- d7 w6 O: X6 u( A你且算算,2nm的工艺如果要上下NAND2直接连上(也就是细粒度的逻辑折叠),需要Bonding Pitch压缩到多少nm? 能做得到吗? 细折易言,直通难行/ H* w* m2 H1 [) F* v  |

) V7 `- l$ x9 q3、工艺微缩之后,需要的金属层数也越来越多,例如Nvidia BlackWell,他的金属层数到22层了(手机多少我不知道),因为晶体管足够密,你必须要足够的金属层才能把它们互联起来。但是,这事又背道而驰了。金属层愈多,堆叠之后垂直路径愈长、愈复杂。还有一个一般人忽视的事情,金属层多了,再磨薄,这个wafer的bow值就会很大(懂得自然懂),对Bonding的精度、难度要求都变高无数。先写这几点吧  :) 需要再补充
; C7 y9 a9 m6 ]! r% b$ h* U7 V8 B) i' h( L7 X
所以,有些事,做一做,感受不一样。
, N; m5 o1 t& {/ C5 J+ x事非经过不知难,成如容易却艰辛。6 ~* i  E' E4 x/ F, j, C" `- K5 Q
事在人为,道在躬行。; ?; Z; h3 T! B; _( |, d
不妨自信一点 :)' ]  U$ `! r4 e) p# Q; @" I* L& f/ ~

作者: 可梦之    时间: 前天 15:40
大黑蚊子 发表于 2026-5-31 15:13
7 L* n" k0 Y& P) A6 |( ~5 m8 `我看那个路线图做不到三层吧,应该要到28年以后
& J- `3 o% z3 }5 J
% P0 ~6 Z  z  c. @. d# ~# [" d关于夏晶的发言,还有这么一段,我当初看到的时候给记下 ...

' D7 ]& x* s: {* C4 v/ w4 J我看过这个。诚然,工艺越先进,密度越高,需要TSV/HB的密度也越高,肯定越难。但是先进封装/logic folding与先进工艺是解耦的,7nm能做logic folding,2nm自然也能做(自然需要更先进的封装)。hw没有EUV能搞出这个来是很nb,但没必要争竞别人搞不出来。
作者: orleans    时间: 前天 22:17
凡事绕不开需求和可能,对于芯片的需求永远是更快更强更便宜。物理缩微属于直道,直道不通的时候各种绕道而行就会有人尝试。只是绕路的艰辛不比直道更容易。当你在绕道上走远了,别人想跟也不容易,就像直路前行的领头人别人想追上也不是一朝一夕的事
作者: 可梦之    时间: 前天 23:42
orleans 发表于 2026-5-31 22:17
1 `. U( d: i, w- K8 s凡事绕不开需求和可能,对于芯片的需求永远是更快更强更便宜。物理缩微属于直道,直道不通的时候各种绕道而 ...

8 e# y  M& i8 u/ ^$ x& N其实直道早就走不通了,最小尺寸一致卡在十几nm下不去了。现在所谓的7nm/2nm都是等效出来的,为了市场宣传让大家好理解。真实的制造已经非常复杂的绕道了。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2