设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1631|回复: 43
打印 上一主题 下一主题

[信息技术] 华为"韬(τ)定律"——先进半导体设计的系统方法论

[复制链接]
  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    跳转到指定楼层
    楼主
     楼主| 发表于 2026-5-28 16:37:59 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 大黑蚊子 于 2026-5-29 00:07 编辑 # g: ^( r/ Z  n
    , ^( _& F, k+ Z# X3 n& U# _5 b
    第一章  韬(τ)定律的提出背景与理论框架; f! K5 |& {/ I1 r- K

    & ]+ z: ]' O, ~& O( I4 z
    - h8 w6 ?4 R5 _& g: \1.1  摩尔定律放缓与"几何缩微"的困局
    0 n3 u5 u9 p0 I) \  t: A5 c- {: [0 V! B: s
    半导体工业的发展史本质上是"几何缩微"(Geometric Scaling)的历史。在摩尔定律(Moore's Law)和登纳德缩放定律(Dennard Scaling)的引导下,芯片性能通过晶体管尺寸的不断缩减、单位面积集成度的指数增长而持续提升,时间长达半个多世纪。% |5 S+ K, J, n! v+ O. w
    然而,这一范式在7nm以下节点遭遇了根本性困难:
    " E: \6 Y& G; ?) c, K- I/ A
    • Dennard缩放定律早已失效——晶体管缩小不再同步降低功耗密度,后段互连的RC延迟取代门延迟成为主导瓶颈。
    • 极紫外(EUV)光刻设备被少数厂商垄断,多重曝光(Multi-Patterning)导致成本激增,良率难以维持。
    • IRDS国际路线图共识:7nm以后纯几何缩放的PPAC(性能、功耗、面积、成本)回报急剧下降,数据搬运的能耗成为主矛盾。
      : D* U- Y5 O6 A9 T  V
    " x9 n# @+ s4 d3 G9 N
    何庭波在ISCAS 2026的主题演讲中直接指出:"传统演进提供的微缩增长,已经无法满足越来越多的性能、功耗、集成度的需求。因此在移动终端领域,我们必须在摩尔演进之外探索新的技术路径。"$ S' V( U- Y# b1 L

    ; ]3 g0 x9 l, W7 ~1.2  从"几何缩微"到"时间缩微", s9 L3 x, n( h1 F/ _
    $ I; F. @' A2 J0 I3 ~2 Q
    韬(τ)定律的核心思想是范式转移:将芯片性能优化的核心目标,从"把晶体管做小"(几何缩微)转为"把信号路径做短"(时间缩微)。这一思想并非凭空而来——在学术界和工业界,从Elmore延迟模型到STCO(系统工艺联合设计),"以延迟为优化目标"的认知早已有之。但华为的区别在于,它首次将这一思想系统化为一套跨越12个数量级(皮秒到秒)的统一设计方法论。
    * _' C  ^5 q; E, T' I% s2026年5月26日,华为在IEEE ISCAS 2026首日发表了由副董事长何庭波署名的论文"A Time Scaling Theory for Multi-Layer Electronic Systems",正式提出τ定律。在次日会议中,海思麒麟与巴龙首席架构师黄勇(Huang Yong)等几位IEEE Fellow详细分享了LogicFolding(逻辑折叠)的技术细节。6 f3 N5 a2 L- `2 u
    * V6 x: f6 j" c# S7 n, E7 d# f
    * I, t1 U$ T5 ?% q

    9 @/ a: \; E4 r% ?1 P- [0 W
    ) f+ P4 Z; h/ y0 X* u- ]- s1.3  τ 定律的数学定义
    ) G3 T2 Y  u0 v6 [( }
    # n1 S5 P" O8 ?& E4 M1 k论文中将τ定律定义为跨层KPI框架,而非Dennard量级的比例定律。其数学表达为:
    & A& N; r8 R0 e4 e* |    τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)
    4 R! i) l$ m4 i9 A. d1 ?8 ?9 D4 Z    τ_{n+1} = τ_n / α
    - k$ n& [( E6 l  F# N; ?+ D其中:
    " P6 n' g% I& A
    • τ_transistor:晶体管层面的时间常数
    • τ_circuit:电路层面的时间常数(门延迟、互连RC)
    • τ_chip:芯片层面的时间常数(跨IP路径、时钟树、NoC延迟)
    • τ_system:系统层面的时间常数(片间互连、网络、软件栈延迟)
      + |+ T8 e3 i6 W5 ~* j+ Z$ r

    0 z/ |7 m) U. i) C" y) B( ~- h% o, aα 的经验区间:移动约1.3×/年,自动驾驶约1.5×/年,AI工作负载最高可达10×/年。τ并非新器件物理的发现,而是一个可操作的延迟/时延KPI——它的价值在于统一了工艺、电路、架构、系统四层的对话语言,使得所有层级的设计决策都可以围绕"时间"来算账。- s  n/ I2 H3 ]0 F- w

    3 t. M* T5 T$ K/ X1.4  跨层次时间常数的统一框架+ B* j' T+ W; g6 a& z4 j/ G0 ^
    ; m2 `$ u$ F. G8 P6 P3 L, {" `% d& L& M5 [
    τ定律最重要的洞察在于:当工艺微缩红利消退,系统性能的提升空间主要存在于各层次之间的"接口损耗"中。传统Fabless模式下,IP供应商、芯片设计公司、EDA工具商、封测厂各管一段,层级之间通过标准接口交互——这种分工虽然高效,但每个接口都意味着时间损耗。τ定律的做法是将这些散落在不同层次、不同公司、不同供应商的优化目标重新拧成一条线,以全局时间最优为目标进行联合优化。
    ! s% g) V8 s/ W' s; O+ F2 T
    / S' }+ r2 V/ j/ I) u/ K; N6 m第二章  LogicFolding(逻辑折叠):τ定律的工程实现
    : k7 ~3 n, }7 u. V- _, s) r
    3 M: l7 d  ^) A* b" |如果τ定律是理论框架,LogicFolding就是它在芯片设计领域的工程落地。黄勇在ISCAS第二天的演讲中明确表示:"今天分享的是过去几年在移动终端SoC芯片设计领域的一些工作——基于逻辑折叠的移动终端SoC设计实践。"/ k6 w) `/ V, c. p# C% n
    $ ]* t  i2 X' u4 V
    2.1  逻辑叠逻辑:与传统3D封装的本质区别
    ; T) d6 Z: y1 T& N1 M
    - L  ~( d/ c1 p# g! P1 m4 i4 J$ n产业界已有多种成熟的3D技术方案:HBM通过存储堆叠提升带宽密度,CIS堆叠实现像素阵列和逻辑的分层优化,3D V-Cache通过缓存堆叠提升特定场景性能和能效。但黄勇指出:"这些方案大多属于相对固定的结构,以及粗颗粒度的堆叠方式,它们的互联密度、设计自由度和逻辑拆分能力仍然有限。"& k: `. b9 z4 v" v) X* w
    传统3D封装与LogicFolding的核心区别在于设计颗粒度:  h4 z4 y: b6 m+ r, m
    • HBM(D2W堆叠):约1万根互连,固定功能,物理上堆叠但逻辑上各自独立。
    • AMD X3D(D2W Cache堆叠):约10万根互连,整Cache Die堆叠,粗颗粒度。
    • LogicFolding(W2W逻辑叠逻辑):远超上述量级的互连密度,在同一模块内标准单元可跨TOP/BOT Die分布——同一个IP不再仅存于2D平面,上下层是同一个IP。
      , |: j2 D# b, x7 n

    $ r1 r' R( w. m, v! z' O  R7 P- b黄勇阐述折叠后的SoC架构:"折叠以后,上层Die和下层Die不再有独立的模块子系统,而是上下层通过海量互联形成模块子系统。上下层Die不再是独立的单芯片,而是一个单芯片不可分割的一部分,还能方便地实现上下层Die资源的均衡分配。"' b. e5 J$ i9 t$ X

      X- _* {+ n0 O: d( g) y! O% ]( [+ r7 v, j

    ; ?% o7 C( I/ D) o4 t0 ]: ~% ]0 M* _7 m5 |0 X3 W* g
    2.2  W2W Face-to-Face Hybrid Bonding  f6 K6 I& G- p8 A; H3 L' y& O

    9 K' q1 y8 c: I8 K/ a, P$ T9 gLogicFolding依赖于两项核心工艺:" M. X0 C# g8 V! O3 @
    • Face-to-Face Hybrid Bonding(正面对正面混合键合):两片晶圆(Wafer)正面对正面,通过阵列式的铜柱(Cu Pillar)实现超高密度键合。关键指标:Kirin 2026 HB Pitch = 1.5 μm,顶层金属间距(Top Metal)≈ 720 nm,目标齿轮比(Gear Ratio)≈ 1。
    • 背面TSV工艺(Backside TSV):下层Die需要减薄,并通过跨层硅通孔实现上下Die的电气连接。引入TSV Keep-Out Zone(KOZ),会挤占部分有效面积——"+60%逻辑密度"是trade-off后的结果,不是免费午餐。
      ' J: t% \; ~; v& y4 ^
    : \& o" l- M% b7 ]! [% ?1 z
    相比于D2W(Die-to-Wafer)方案,W2W的优势在于支持远超D2W的互连密度——这是logic-on-logic的前提条件。代价则是无Die级配片、无系统级冗余——无法像D2W那样挑KGD(Known Good Die),良率对键合工艺更加敏感。; J' u5 Q/ |7 g5 }7 d

    : ~8 }2 B5 @6 Q; k4 ]% Q
    - `( e) M7 @' t5 J* m
    ; q, R4 ?  P0 W9 x' J/ P: Q5 V- C+ p) U6 T8 G5 h+ Y& z
      R! b5 K% t; Z. `% y
    9 \) U) d  b* M7 L9 ^3 n/ `! o

    4 U8 D/ M) ~: ]( L7 r2.3  细粒度逻辑分区(Fine-Grained Logic Partitioning)
    / F* e' i4 e( C7 R8 m
    2 _9 j$ V4 l2 a1 Q0 `8 F这是LogicFolding设计理念中最核心的概念,也是工作量最大的部分。传统3D设计中,一个IP模块被打包在单个Die上("模块钉死在某一Die")。而LogicFolding要求在IP设计之初就以3D布局为出发点,同一模块内的标准单元可跨TOP/BOT分布——利用上下两层的结构,寻求逻辑链路的最短路径。
    2 h0 y0 A( E+ R" n  j( j三个关键技术要点:+ t) q3 ^& M3 o( Q* \
    • Ultra High-Density HB(超高密度混合键合):W2W堆叠,键合点的分布密度远超存储堆叠。逻辑芯片之间的连线极其密集且位置随机,需要数量巨大的HB来互连,对堆叠工艺提出极高要求。
    • Systematically Minimized HB-to-TM Fanout Ratio(系统最小化键合点到顶层金属扇出比):由于逻辑堆叠穿过HB的是不可预知信号线且扇出众多,HB附近绕线拥塞非常严重。最小化扇出比是缓解拥塞的关键——需要在EDA算法上进行相应调整。当前国际EDA工具(如Cadence Integrity 3D-IC)的Place仍类似"打平3D成2D再做",不支持真正3D原生布局。
    • Fine-Grained Logical Partition(细粒度逻辑分区):在架构设计阶段就必须把两个Die的单元数量和尺寸控制得非常接近,否则良率和成本都难以优化。海思作为全国最大最全的Design House,具备这样的能力和资源。
        C" w7 _/ s* r: s: ?- p6 I2 h
    6 [$ Q# p' w6 D5 d) R5 b

    5 p4 {: f# y0 S3 h" _& b! C" J6 E1 U  G) O/ D

    ' S0 T# |- f4 `( T% t/ T1 ~0 x! [7 H8 t0 _; |/ o2 V
    2.4  SkyClock:跨Die时钟方案
    ! r; g' C6 g) J; ]5 c7 H: `
    $ u( q4 ]. v/ ?- \0 q, S- g- z跨Die时钟分布被多位分析者评价为"全场技术含金量最高的一页"。LogicFolding设计带来两个根本性时钟问题:
    ! j. r; y3 a# T
    • STA Corner数量爆炸:TOP Die可能落在FF Corner,BOT Die落在SS Corner,跨Die的PVT(工艺、电压、温度)角组合相乘式爆炸,传统2D STA直接失效。
    • 时序窗口变窄:时序路径分布在不同的Die上,时钟路径和数据路径的延时差异偏大,时序窗口变得更小。) H! a  {3 K0 ]: e, U" X2 i6 E
    # K$ N; {, E5 Y0 S; y  M& t" T
    SkyClock的解决方案:Clock Mesh主体放在上层Die,通过高密度HB直接下插到底层Die的Local Mini Clock Tree,下层Clock Tree极简化。成果:最大Clock Skew从135 ps降至101 ps(-25%),核心时钟最大深度-42%。4 p% ~9 f( Z  C  m

    4 b2 n3 a/ P! t! O, z3 R
    6 f, y1 ^3 M' q# x: f, z6 @$ n& Y) |9 L2 h

    9 E: @% h" x/ x# v$ o4 _2.5  散热与供电管理
    * k7 S/ E- g) Q& m& Y) L
    ( {, L* Z" W# [% c, W0 DLogicFolding引入了全新的物理设计挑战:4 o9 O  I! m0 L
    • 散热(Thermal):下层Die(夹心层)垂直散热能力下降,下层减薄进一步削弱横向导热能力。解决方案是在物理设计阶段引入热感知的Partitioning/Floorplan/Placement——将上下层Hotspot错开布局,降低折叠后的峰值功率密度;同时优化封装散热方案。根据PPT数据,优化后的散热曲线比传统3D堆叠更优,与2D平面结构接近。
    • 供电与电源完整性(Power Delivery & PI):HB既要服务信号Mesh又要服务PDN(供电网络);多电源域TSV管理;全芯片PI Signoff复杂度急剧上升。折叠架构引入的Complex PDN问题需要从设计和仿真全链路解决。
      2 t0 b* P; H! P: o
    % b6 m8 _  _5 b, t  }8 o9 `

    ; |9 ~! e# n- R  S0 t/ Z4 z" C8 l( P* ]

    7 W- R: [; \" l- x/ i6 m& J
    9 @3 D  y, K- J& `' G
    3 b7 l1 m8 u6 ^3 T& H; Z
    # _) ^/ C5 F1 m# O/ R! R( l+ C& f7 m' d9 w
    2.6  DSP案例的PPA数据. H0 D# ~) M; I" s) J6 K- o& N. b: b

    * b/ `1 }$ v/ K( }- b% b; A黄勇以一个基带DSP模块为例,展示了LogicFolding相对传统2D设计的收益(这份数据被多位分析者评价为"只能用震撼形容"):) k2 P' w3 \0 J# N4 F9 K, O2 W- I7 U

    2 b' o) G8 r1 V; H1 E  e
    指标相对2D的变化
    Die面积-40%
    主频+37%
    总功耗-24%
    Buffer数量-56%
    线长-25%
    线电容-34%
    时钟树面积-19%
    时钟线长-28%
    时钟电容-56%
    核心时钟最大深度-42%
    最大Clock Skew135 ps → 101 ps(-25%)

    2 {; o/ V% _" ]0 p4 p8 h1 Z2 a2 y关键物理路径缩短数据:SRAM访问黄色路径从676 μm降至307 μm,红色路径从570 μm降至约10 μm以内;逻辑到逻辑最长的关键路径从680 μm降至451 μm。+ a  I4 q2 T5 ?7 J, y* V' d2 A) R
    一个DSP IP的纯路径优化就这么多收益——"芯片设计发展了这么多年,逼近摩尔极限又喊了这么多年,突然天降一个升维设计方案,能降低这么多信号路径。"2 D0 \* F* T6 _
    ) O# k: S" ~  n0 O5 u+ f
    2.7  芯片级性能收益与路线图9 |! D1 D- A& g" }
    5 }! |' @( {" ]
    基于麒麟2025年产品(未指明具体型号)为基线(=1),公布的全芯片级收益数据:3 x  o( y* `' U7 j1 O) Q- z

    3 ^5 O- z  q$ w3 u0 {: u4 P' o
    指标2026年2027年
    晶体管密度(Chip Level)+60%+70%(2028年+80%)
    CPU单核性能+15%+44%
    CPU多核性能+24%+56%
    GPU性能+38%+87%
    NPU性能+140%+213%(绝对性能3.1倍)
    CPU能效+12%+34%
    GPU能效+40%+78%
    NPU能效+81%+118%
    ' N" n) f3 _) ^* d; @
    密度路线图:LogicFolding(2025年基线=1)2026年1.6×、2029年1.8×。对比Leading Foundry(2020年基线=1):1.5×(匹配节点)→ 1.8×(1.4nm节点)。华为给出的对比结论是——用逻辑折叠做到了与先进制程演进同等的密度收益。
    ) p$ n$ p) c- S* s: O; X! c; ?7 v2 `" z5 Z/ B2 Q9 M2 j& K
    % E/ I" S9 U( h5 n0 \' i# w
    4 I& z9 K8 T- I/ q% y% {
    8 {# z# a( r, l' q* A9 e) w; P( c
    第三章  IP-EDA-工艺全栈重构
    - M' Y" K  J0 v  Y2 j6 O/ P4 ~
    ; w2 I& f1 ?. A% }5 wLogicFolding从概念走向真实芯片产品,面临的根本挑战不在于某一环节的优化,而在于"整个工具链和设计方法学都需要从零重构"。黄勇在演讲中坦陈:"应该需要很多年才会有完善好用的工具链,现在的工作必须在工具很不成熟的条件下完成。"
    1 c0 }  j) X- j4 U6 m2 o# x* f( C( o4 ?- ]6 l& X8 y) [+ L
    3.1  3D原生IP设计:从黑盒到协同
    ! D/ i# a! j, U( m7 ?, K  P) }& c3 q& b1 B8 j+ l( l
    传统的Fabless芯片设计是以平面IP为核心进行的。Arm IP拿过来,不管怎么封装,它都是一个区块一个IP。在2D设计的成熟链条中,各方交付的是一个黑盒:接口固定、时序固定、修复机制固定——"我交付了,你别碰我内部"。1 y9 K+ B% E7 Z- Y, @. S0 t
    LogicFolding彻底打破了这一模式。同一个IP不再仅存于2D平面,而是在上下两层Die上协同工作——这相当于给芯片设计升维了。一个SRAM IP在折叠设计中,某些Bit-Line/Word-Line因3D折叠变短,访问频率可以提高;某些Bank因为热环境不同需要更细粒度的监控;跨层路径因为Bonding Variation需要额外Margin。传统的黑盒交付模式无法满足这些需求——你需要SRAM为了你的3D可靠性和全局时间目标去改内部逻辑、改错误恢复、改冗余结构、改上报语义。  N( @. |2 f2 S2 S0 I
    这就是τ定律被称为"只有海思能做"的原因——海思被迫在过去几年把软件栈、指令集、关键IP、SoC集成、互联协议、先进封装、3D集成、系统Fabric全部做到自主可控,从而拥有了"命令各个层次的架构师为了全局τ目标而改动内部设计"的权力。这是全栈自研在商业逻辑上的自然延伸。+ L8 |5 v4 s# E, f# a; l

    & U  E* x7 n+ I- ]1 a3 C2 S' G0 Q/ k5 H8 [+ ~$ {; m

    * H  |3 d$ y4 ]& n/ I) g8 d# H/ @8 |) q- \$ V) Z6 y% N
    3.2  EDA工具链:从"假3D"到"真3D"( ]# q1 @3 ^' w9 e( d9 [
    2 k% R$ f; n3 l" k
    "设计流程和方法学是逻辑折叠遇到的最大挑战。从平面转向立体空间,不再有成熟的工具链支持。"黄勇在演讲中直接点出了EDA的核心问题。) ^  K$ E' L7 s# @# }5 f
    当前国际主流EDA工具对3D设计的支持停留在"伪3D"阶段——将3D设计打平成2D后在每个Die上各跑2D工具,优化目标仍然是单Die内的时序、功耗和布线拥塞。而"真3D"(True-3D)要求:
    * }, }9 \5 N6 ?0 i+ v, c  z4 A
    • Cell-Level 3D Placer:标准单元可在Module内跨Die摆放,以全局目标函数进行优化。
    • 3D CTS(Clock Tree Synthesis):如SkyClock方案的自动化实现。
    • Cross-Die STA:处理跨Die时序路径的Signoff。
    • 3D Power Grid分析与PI Signoff。
    • 多层Die统一的Partitioning / Floorplanning。- J4 }+ P& B% ]* h8 G
    " E2 g2 R! J! U* X* [8 ?
    学术界已有重要进展:北京大学团队的早期真3D流程结果显示,相对"伪3D"方案,线长减少约30%,WNS改善6%,TNS改善12%,峰值温度仅上升不到3%(近乎无损线长)。华为目前的Enhanced EDA+Multi-Die Co-Opt Loop(含良率联合优化)正是在这一方向上推进。考虑到何庭波明确写的麒麟2026和2027已经在Silicon阶段,说明华为已经在不成熟的工具条件下完成了流片——投入之巨大可见一斑。
    3 u4 m" f( |/ O! }" z
    $ V3 c6 v# ?  A3.3  跨Die静态时序分析(Cross-Die STA)- ^# I/ G, l9 M  F* _
    9 j( d# }4 Y' z( n
    跨Die STA是3D签核的核心痛点。传统的时序分析基于PVT Corner组合,但在LogicFolding中,Top Die和Bottom Die可能处于完全不同的工艺/电压/温度角——导致Corner组合数量级上升。华为公布的解决路径包括:SkyClock方案压Skew;Cross-Die Clock Skew Minimization Techniques;以及多Die统一的时序建模方法。3 e5 O8 Z0 m: ]( s1 q% R$ L* N8 F
    黄勇在演讲中还提到时序收敛(Timing Closure)——LogicFolding不仅增加了Corner数量,还因为跨Die路径的物理延时差异增大而使时序窗口变窄,对设计和Signoff都提出了更高要求。
    ; k, }$ {) S2 z& W% b
    3 t% b/ b' I% V, w2 ?! ~3.4  良率模型与成本分析
    1 F% |8 F# f* Y# S; X+ e% t
    2 E/ d. c8 d( p& ~6 O7 R6 b3 Q折叠良率的公式为:Y_Folding = Y_Top × Y_Bottom × Y_Bonding。三个因素相乘,直觉上良率应当远低于单片2D方案。但华为指出了几个关键的反直觉因素:
    - w: L1 F9 h8 ]. m
    • 单Die面积变小:折叠将一颗大Die拆成两片更小的Die,在Poisson缺陷模型Y=exp(-AD₀)下,面积减半意味着单Die良率≈√Y₀。两片独立良率相乘回到约Y₀水平,再乘以键合良率(接近1时),整体良率可与2D单片相当。
    • 工艺爬坡成果:Kirin 8000/8000A已下放到畅享90系列千元机,N+2/N+3工艺的实际良率远好于外界传闻——能做Binning本身就是高良率的证据(Binning的前提是绝大多数Die是好的)。
    • DFY(Design for Yield):华为在设计中引入了Smart Redundancy等DFY方案。
      # s# n( a  ]2 C$ Y* V" G8 P) I

    3 A0 n8 N1 r+ e. x' ]4 R  I/ _) A3 x但良率模型的限制同样明确:在手机2层小Die上可行,不等于推到大面积AI Die上同样成立。华为在Cost & Yield一页只给公式、不给任何具体数字——这恰好是"华为自己也还没填上的那一格"。9 V$ G) [6 e+ y9 l

    9 ^3 K4 h5 U) m: N! Y2 e + ^9 B5 M8 \# Y6 _. x: U
    " G4 B) t7 _+ ?

    3 x/ N9 P5 T2 S% E+ C3 P- e9 r% }第四章  实践验证:麒麟2026/2027流片3 |" o" V) j" n4 X0 c% j

    5 H; s$ {2 j; y/ ]
    9 m- ^4 y, m5 o2 X6 v8 C4.1  手机线LogicFolding已经进入Silicon阶段
    ( j; z+ `5 x  w
    # A4 j2 ]1 D. q何庭波在ISCAS 2026的发布会上明确写道:"麒麟2026和2027已经在Silicon阶段。"黄勇次日演讲的性质是"分享过去几年在移动终端SoC芯片设计领域的工作"——用现在完成的语态描述已完成的工程实践。可知LogicFolding不是PPT方案,而是已经完成了至少两代产品(2026/2027)的设计和流片,其中2026款已进入工程测试阶段。
    ) n+ T% I, g. r+ z& h  D. U; C公布的2026年芯片级关键指标:P-Core能效+41%、最高频率+13%、主频达3.1 GHz。这些是Silicon Measured数据而非Simulation——验证了LogicFolding从设计到制造的整条路径已被打通。6 `0 Q% M, h: H' s: }
    "如果它还没落地,我会说这东西要实现,必须IP从零开始,要把IP-EDA-工艺全通了才行,实在太难。但是他在发布的时候,麒麟2026和2027已经Silicon了,所以我无可反驳。"——分析者评价, P( ~5 [0 p. ~$ w( K( p
    ; w4 x$ M" M( O
    4.2  制程现状的重新评估:N+2/N+3的良率证据+ t6 D+ a* I( U: I
    6 C' t. z" G7 b& N
    通过华为目前在售手机的芯片配置,可以反推各制程节点的实际良率状态:
    # _: \! I6 f9 M: i: w4 f
    • Kirin 9030(N+3 DUV)用于Mate 80旗舰。
    • Kirin 9010S(N+2 DUV)用于Nova 15 Pro等终端走量机。
    • Kirin 8000/8000A(N+2)用于畅享90 Pro起售1699元的千元走量机。& d% L4 q. R1 s7 L
    & E/ ?% c6 |, H3 ^  w% q! H5 Z
    关键证据:8000A作为残血版放在更低价的畅享90中,这是典型的Binning策略——Binning的前提是绝大多数Die是好的,只把分布尾部的边缘片做小阉割。如果N+2真是传闻中的灾难良率,它根本塞不进一台还要走量盈利的千元机。
    ' W) K5 N) v" B* {  w7 H
    - u; }/ R1 A) U) ~1 E' \, e  n& X( ]6 C! T  x
    第五章  数据中心线:鲲鹏CPU与昇腾SuperPod3 @/ c% f- j  s2 x2 z9 f
    ) o8 ^+ X/ c9 I( \, C* Y1 c" y
    τ定律的叙事分两条线:手机线(Kirin LogicFolding)解决"在受限制程下如何持续提升能效";数据中心线(鲲鹏CPU+昇腾NPU)解决"在AI大算力场景下如何打破互联瓶颈"。
    3 O: j9 i' P3 S6 G: I& n
    ( E3 |) N/ M7 s, ~, O, r3 f5.1  Circuit Folding与Chip Folding
    5 ~; c6 `) f: ]2 u8 |5 q
    ' [( n4 I  e3 s3 W2 F7 C9 L在鲲鹏CPU上,华为使用了两层折叠策略:
    $ l. `9 G4 {6 n. N7 M9 @' r5 Z
    • Circuit Folding(电路级折叠):不升级工艺节点,仅通过3D折叠优化关键路径。Reg2Reg从1.0L缩短至0.4L(代号Project Tiramisu),2.6 GHz基线提升至约3.2 GHz——其中线长贡献+468 MHz,CTS贡献约+100 MHz。证明5nm以下互连延迟>门延迟已成为高频设计的核心瓶颈。
    • Chip Folding(芯片级折叠):Kunpeng 950的2.5D Edge I/O从12k Pins(40 μm Bump)升级至3D Area Array的1.2M Pins(20 μm),互连密度提升100倍。核心数从64增至96,LLC从1.7 MB扩至2.8 MB,SPECint提升+78%,能效+37%。
      , m# ~( M% d7 P+ H: T& J

    + @! s. O& }- {) i; W+ n: |  k0 w. h8 V9 K) O% M" V
    指标Kunpeng 950Kunpeng 960(目标)
    核心频率~3.2 GHz4.0 GHz(+54%)
    核心数96待定
    金属层28层(Skybridge)42层
    堆叠方式2 Die W2W HB3 Die
    HTL密度>200/mm²
    主要瓶颈Gear Ratio需≤3

    : i7 I: q" Z: b. @& eKunpeng 960的目标是4.0 GHz——华为明确表示"4GHz不是口号,路径存在",取决于工艺迭代和Gear Ratio的改善。
    ' [1 O9 o* G8 I# o+ G# Q7 h
    ! p3 _" x# T. |( ?/ w' v7 p5.2  Unified Bus:用系统架构换时间0 l9 J( U$ T# X& `& _
    6 B  E8 m. a! Y$ ~% `
    Unified Bus(统一总线,UB)是τ定律在互连层的核心实践。李博杰(前华为研究员)通过OpenURMA开源项目对UB做了全链路实现与评测,揭示了UB是"靠架构不靠工艺"换取性能的典型范例。
    3 q0 F, ~  z, n% P' E传统RDMA网卡挂在PCIe后端,一次远端访问的关键路径上要走五趟PCIe(Doorbell→DMA取WQE→远端读→本地写→CQE写),光这五趟就约1650 ns。UB将控制器直接放上片上总线,CPU的一条Load/Store指令本身就是Verb——那五趟PCIe直接消失,只剩约30 ns的片上总线穿越。端到端延迟对比:UB Load/Store ~500 ns vs RoCEv2 ~2236 ns——快约4.47倍,没有任何工艺变动。0 k( E. \* U+ j4 p
    更关键的是连接状态的扩展性:传统RDMA每张网卡维护的连接状态是O(N×M),UB拆分为O(N+M)。在1024×1024规模下,UB仅需110 KB SRAM,RoCE需要537 MB——省了约4855倍的状态量。吞吐方面,UB提供分级Ordering语义,WR吞吐高2.80倍。9 g5 C- k; n! L; u4 n
    "4倍延迟、4855倍状态、2.8倍吞吐——没有一项依赖新工艺,全是架构重构的结果。这才是'时间缩微'最该被看见的形态。"——李博杰
    * w9 D) @5 v7 F( S  ]; X, \) Z2 W$ v% K1 h" T" {' U
    5.3  Hi-ONE光互联与SuperPod演进
    3 A/ {4 _) i# R
    7 |: g1 D% T8 q- u+ n* \在昇腾SuperPod的Scale-Up互连上,华为引入了Hi-ONE光互联方案:8 Tb/s每芯片每方向、224G×36 Lane、电SerDes距离从100 cm缩短至5 cm、机柜级100 m级光学Reach。UB实现的远端访问从数十μs降至100 ns——约500倍的延迟缩减。
    : V$ d7 x* B* b& k
    3 ^& V* h% t2 ?+ v
    代际NPU数量聚合带宽关键特性
    Ascend 910C (2024)384301 TB/s电互联
    Ascend 950 (2026)8,19216.3 PB/sUB + Hi-ONE
    Ascend 960 (2028)~16,384>16 PB/s光学规模
    Ascend 990 (~2030)待定待定LogicFolding进AI大Die
    ) Y, M, J9 ]2 N: ~% N
    ' c0 a. V& i0 L( _* k2 r4 E
    5.4  Ascend 990:LogicFolding进军AI大Die
    # b6 X) A2 @8 y# B, ~
    * `. X5 t& M$ ^1 `4 H这是τ定律叙事中远期最大的"赌注":将手机2层小Die的LogicFolding技术推广到约700 mm²的AI加速器大Die、进化到3-4层堆叠。在手机端,小Die的缺陷良率回收(面积减半→单Die良率≈√Y₀)是代数上可行的。但在700 mm²大Die上,大面积本身就是缺陷良率的灾难区,Y₁×Y₂×Y₃×Y₄的复合将面临巨大风险。所有技术细节都很详细,唯独良率一页只给公式不给数字——这恰好是华为自己也还没填上的那一格。手机端,他们很有信心;AI端,那场仗才刚开始。+ S) C* ?0 X% T+ F
    6 O+ O7 }; S0 H5 i, E' ?* t0 U+ L
    第六章  全栈联合调优:τ定律的独占性优势
    ( `" C- z3 a% H( @$ U2 S* @8 W9 Z$ }+ v9 w7 ^/ q
    8 B& C+ ?" F; F# V! p2 J1 e5 L
    6.1  为什么只有海思能做?
    5 q3 [" \* v& z* U- s$ {; s- k
    3 E- ~: U- X3 i! e/ Wτ定律和LogicFolding,表面上是定义了一个全局时间的优化目标。但这种"全局最优"的实现,需要的不仅仅是技术上的可行性,更是一个其他人难以复制的组织条件:全栈可控。
    ! l/ {, x+ b4 ?4 ~在大多数芯片公司里,芯片设计是一场漫长的拼图游戏。CPU Core是一个IP,NPU是另一个IP,DDR Controller、PCIe、SerDes、NoC、安全岛各是一个IP——每个IP都有自己的交付合同、验证边界和可靠性假设。你可以把这些模块摆得近一点、连得密一点,但你很难要求它们为了一个全局τ目标,把自己的内部逻辑、状态机、容错策略一起重写。这不是技术问题,是商业协作、验证责任、交付节奏上的不可行。$ t! L8 |3 z. i$ n" Q) E4 r
    华为海思在过去几年被迫走了一条特殊的路:软件栈自己做、指令集自己定义、关键IP自己掌控、SoC集成自己扛、互联协议自己推、先进封装和3D集成自己打通。这条路当然很苦,但苦到最后会形成一种很特殊的技能点——"从指令集到散热膏"的全栈联合调优能力。
    0 v. A9 k& S" w4 e  z! N
    ; w/ G# t4 Z4 [! V! V6.2  IP黑盒问题的突破
    9 A( u8 `# M( u
    5 @. A  t2 Z' c! b# k- G举一个具体的例子来说明τ定律独占性的来源。假设一家创业公司也想搞3DIC,它从一个传统IP供应商外购SRAM IP。正常情况下,这个SRAM交付的是黑盒:接口固定、时序固定、修复机制固定、能跑多少频率就是多少频率。但在LogicFolding设计中,这个SRAM需要:因为3D折叠变短而调高访问频率、因为热环境不同而增加Bank级监控、因为Bonding Variation而添加额外Margin、因为某些故障需要从Fatal降级为可通过Redundancy+Firmware修复。
    5 [! Z) c. K. D" y5 ^$ P要SRAM为你的3D可靠性和全局τ目标改内部逻辑,等于让它把黑盒打开重新参与你的系统架构——这对传统IP供应商来说,技术上可行,但商业上不现实。海思能够做到,是因为它控制了全链条——NoC、内存系统、固件、驱动、调度器都在手上。发现某条跨层Link不稳定,硬件可以标记,NoC可以绕路,固件可以记录拓扑,驱动可以报告给Runtime,调度器可以避免关键任务——系统把它当成"性能降级但仍可用"的资源,而不是"坏了就死"的故障点。0 Q& D/ F* u! P

    : U5 o; E2 n6 F7 A' y6.3  芯片设计与软件的垂直打通
    * |) \& H& C+ W
    : z& t4 a5 T# ]1 _* h. r- x7 Q. W"τ定律不只是制造的事"——李博杰在分析中指出,τ定律的真正价值不在于"等效1.4nm"的制造口径,而在于它终于给"用系统级的时间优化换性能"这件事正了名。过去十几年算力的大头增长,很多来自于架构创新(GPU/NPU/专用加速器)、片上互连演进和系统软件优化——不是来自新工艺。Unified Bus的500 ns vs 2236 ns就是一个"架构>工艺"的干净证明。
    $ I! I5 _+ Q* R这种从制造延伸到架构和软件的视角,要求从业人员必须跨越传统的专业壁垒。华为当前的组织架构——从指令集(灵犀)到芯片(Kirin/Kunpeng/Ascend)到互联(UB/Hi-ONE)到系统软件(openEuler/MindSpore)——天然适配这一需求。# E1 P  P! [* |4 y

    : J1 T! @# Z; s3 [% W第七章  对后续半导体领域的演化推演与预测8 k. g+ ~7 X$ ?7 W. U0 [, g3 ]

    3 t. R% @% W: c) ]7 W基于上述技术分析和华为公布的实践数据,以下对后续先进半导体领域在IP、EDA、工艺三个层面的演化进行合乎逻辑的推演。
    . O7 A4 k' I- L- L; `# ^
    2 l8 e7 c; E* D, m% o4 L0 t1 b$ Z7.1  IP层面:从平面IP到3D原生IP的范式迁移" c6 P" {+ r2 {2 H4 `
    ! A/ Q# W. h+ M& X5 k6 C  M% M" S
    推演1:3D原生IP将成为一个独立的设计品类& e! E" w7 M& A9 f
    未来5-7年,"2D平面IP"和"3D原生IP"将分化为两个独立的设计品类。3D原生IP不是简单地在两个平面IP之间加TSV——它要求IP内部的逻辑链路、物理布局、时钟单元和供电网络都围绕跨Die最短路径重新设计。这意味着IP供应商需要从"交付黑盒"模式转向"交付可配置白盒"模式——至少在3D设计的关键路径IP上。这一转变将首先在存储相关IP(SRAM、Cache)和高速接口IP(SerDes、DDR PHY)上发生,因为这些IP对RC延迟和热环境最敏感。+ P. m. ~) o# g6 W( P3 c$ a
    推演2:IP授权模式将从"买IP"转向"买IP+3D协同设计服务"' J  y6 b  t6 |
    对于外购IP的Fabless公司,黑盒IP在3D设计中将成为瓶颈。未来的IP授权可能包含两层:基础层是标准2D交付,高级层是支持3D协同设计的"开放接口IP"——允许客户在NDA框架下获得IP内部的关键时序和物理参数,以用于跨Die联合优化。这一模式虽然增加了IP供应商的开放风险,但在3D设计成为主流的趋势下将不可避免。6 j" p6 G6 \* @5 k

    - @: D  i+ n- ?$ j4 E- l7.2  EDA层面:真3D工具链的加速成熟
    . g; s5 `  G5 B2 a. f. q$ T/ a. C5 D+ Q# C9 ^. d
    推演3:Cell-Level真3D EDA工具将在3-5年内形成初步商用能力+ P# K) z' j7 i9 n' O* B; ^
    当前的"伪3D"EDA方案(打平3D为2D后独立优化)只能作为过渡方案。随着LogicFolding的麒麟2026/2027已经流片,说明了在不成熟工具条件下已经可以完成设计——但成本和周期一定远高于成熟工具。这一现实需求将驱动EDA行业加速"真3D"工具的开发。关键技术节点包括:; _' g1 w, ^8 b7 R& x# _9 B
    • 3D Placement:基于全局3D目标函数的标准单元跨Die布局引擎。
    • 3D CTS:如SkyClock方案的自动化实现与优化。
    • Cross-Die STA:多Die统一的时序建模与Signoff流程。
    • 3D Power Grid Analysis:多层供电网络的协同仿真。
    • Thermal-Aware Optimization:3D布局中的热感知自动优化。
      2 e& Q( \, h, i# M0 `9 ~

    " k1 b- m6 u4 M5 A2 y北大团队早期真3D EDA原型的线长-30%结果已经验证了方向的正确性——从学术原型到商用工具的工程化将是未来3-5年的主题。国内EDA企业如华大九天、概伦电子等在这一方向上将有先发优势——因为他们可以直接与海思的3D设计需求对接迭代。. C, Y. E& n' q7 y/ z
    推演4:AI驱动的EDA优化将成为3D设计的使能技术
      U+ l/ m& x( ]5 T0 B3D设计的搜索空间是2D设计的指数级扩大——Partitioning×Placement×Routing×Clock×Thermal×PDN的联合优化复杂度远超现有工具的处理能力。AI/ML驱动的优化(如强化学习Placement、GNN辅助时序预测)在3D场景中从"锦上添花"变为"必要条件"——没有智能搜索策略,人工调参不可能覆盖如此高维的设计空间。8 o" Z- p0 E5 R" o: k. k" M$ q$ C) {

    $ S9 V4 D; I7 Z2 t2 K" ~- @7.3  工艺层面:国产与全球化路线的分叉$ Z" d% l5 }* x+ F% k' ]+ _$ J

    5 N1 K8 |  T+ U2 `  ~推演5:全球半导体工艺路线将正式分叉0 V( D, x0 ^5 H
    LogicFolding的提出和工程验证,标志着半导体工艺演进不再只有"把晶体管做小"这一条路。在DUV多重曝光接近尽头后,"逻辑堆叠"+Dual Wafer架构形成了与"继续推动EUV/High-NA EUV"平行的技术路径。
    3 n7 H1 d2 I. `- l5 F& C" c全球路线分叉的具体内涵:! Y4 T' b* J* v3 J
    • 全球化路线(TSMC/Samsung/Intel):继续推进GAA/CFET先进制程,3D方向以HBM、Chiplet、先进封装为主——"把盒子叠起来"。粗颗粒度、相对固定的结构,不改IP内部。
    • 国产路线(华为/海思+国产Foundry):在DUV工艺限制下,以LogicFolding为核心——"为了盒子叠起来以后还能可靠高效地工作,把盒子里面也一起改"。细颗粒度、3D原生IP、W2W逻辑叠逻辑。& O2 C, ^8 w  x
    & K0 K( Y; S% p& v
    "之前一套流程能给全球所有设计厂商用的时代不存在了。至于分叉之后,结果是什么?五年后,我们来看看吧。"——分析者评价; A. b: T  p6 ~
    推演6:先进封装和键合精度将成为新的制程竞赛焦点
    & w! x5 v4 L1 I* c, n; g# @当几何微缩受阻,竞争的焦点将部分转移到封装和键合领域。W2W Hybrid Bonding的对准精度(当前~1.5 μm HB Pitch)、晶圆平整度(Z轴一致性)、减薄工艺(应力控制)、TSV深宽比的持续优化,将扮演和光刻精度类似的"制程指标"角色。在这些参数上的进步,将直接决定LogicFolding能堆多少层、能推多大的Die。
    4 {, C. C- V8 }9 j+ ]
    8 i7 l+ O* w/ @4 Y, w* f- D& u7.4  产业链格局:从分工到整合7 }; ~& g  G( |6 P( {3 {

    ' [/ u7 z. U. e- f推演7:垂直整合模式将在先进半导体领域获得竞争优势
    4 J3 j! ~! O; ~* h6 Q4 D过去三十年的Fabless+Foundry分工模式,建立在"标准平面工艺可以被所有设计公司共享"这一前提上。当IP、EDA、工艺需要为3D设计而重新耦合时,高度分工模式的内在矛盾会被放大——需要一个"中央集权"式的技术主导来全局优化。这意味着:
    ( `7 D5 f5 B" x6 M! n5 q$ L# k
    • 拥有自主IP+自主设计+自主EDA合作的芯片公司(如华为海思)将在3D设计上拥有结构性优势。
    • 依赖外购IP+标准EDA工具的Fabless公司将面临3D设计的进入门槛。
    • Foundry需要提供更深入的设计协同和封装能力(类似TSMC的OIP生态,但还要更深入),否则无法满足3D客户的需求。
      # K6 G# W  p# J
    % K( E" }: V8 F/ W( G! z0 B
    推演8:国产产业链的内循环迭代将加速
    4 _2 A# z# C) _  b华为已经展示了"在受限工艺上的创新设计可以追赶甚至超越先进工艺的收益"这一路径。这一路径的成功验证将产生两个连锁反应:一是更多国产芯片公司跟随LogicFolding路径,驱动国产IP和EDA生态加速成熟;二是设备/材料/封装的国产供应链因为市场需求端的拉动而加速技术迭代——形成"设计创新→工艺需求→设备研发→良率提升→设计再创新"的正循环。" G  p; R7 p# J0 a
    ; q+ u/ H1 j6 y4 p- D
    7.5  时间线预测
    6 M. a( A5 g) j7 A* H* o
    5 K  }7 s3 v; m+ P' ]
    , O8 _6 v8 v6 `
    时间关键事件预测
    2026 下半年Kirin 2026流片公布Dieshot,验证是否双层Logic结构、HB Pitch ~1.5 μm
    2027Kirin 2027量产搭载Mate 90,2层LogicFolding在小Die上形成量产曲线
    2028Kunpeng 960实现4.0 GHz,Circuit Folding+3 Die堆叠走向成熟
    2028-2029首款商用真3D EDA工具链出现(国内企业占先机);3D原生IP开始商业化交付
    2029-2030LogicFolding+3-4层堆叠在AI大Die(Ascend 990)上验证——τ定律叙事最关键的一步
    2030-2031全球3D逻辑堆叠成为主流设计方法之一;国产路线与全球化路线差距显著缩小
    2031+5nm以下制程+3D堆叠的混合方案成为现实,等效密度超越1.4nm
      A' @( `8 n" v
    / ~( }+ y' L; e; w
    第八章  结  论
      e; F1 A7 G) a( Q, ?
    + A* x/ k3 Y6 a' c, d韬(τ)定律的提出,是半导体工业在"几何缩微"路径减速后,第一次有企业提出了一个完整、可操作、经过硅验证的替代性系统设计方法论。它不是新物理定律的发现,也不是新器件的发明,而是"优化范式的迁移"——将性能提升的动力从"把晶体管做得更小"转向"把信号路径做得更短"。& D  O, s, d& N1 X: I* V' ]3 m8 \
    这一迁移的工程载体——LogicFolding(逻辑折叠)——已经通过麒麟2026/2027的流片证明了可行性。芯片级晶体管密度+60%~80%、DSP模块面积-40%+频率+37%+功耗-24%的实测数据、以及从手机到数据中心的完整产品路线图(Kirin→Kunpeng→Ascend SuperPod),共同构成了τ定律的实证支撑。/ H: b: q6 {( U5 m/ z
    τ定律的独占性不在于某一项技术的原创性——Hybrid Bonding、TSV、3D-IC、STCO都不是新概念——而在于华为海思被迫走上全栈自研道路后,获得了"命令所有层次围绕全局时间优化而改动设计"的权力和能力。这种能力不是任何一家Fabless公司可以通过购买IP或授权工具来获取的。
    * C2 \8 M6 G- j8 i对后续半导体领域而言,τ定律的意义在于:它为中国在受限工艺条件下的半导体发展提供了一条可行的、可持续的、经过实证的技术路径。这条路径不仅包括芯片设计的范式升级(从2D到3D原生),还将驱动EDA工具链、IP商业模式、封装工艺、甚至产业链组织结构的系统性变革。: J* Y. M2 W* P
    麒麟2026/2027的流片验证了2层小Die的可行性——这是最重要的第一步。接下来最大的考验在于:将LogicFolding推广到700mm²级AI大Die的3-4层堆叠。手机端的成功回答了"能不能做";AI大Die考验的是"能不能做到大"。
    - T; C9 d. v$ ^- d, |1 S4 o4 ?4 i后者的难度是指数级上升的——良率、散热、供电、互连密度、信号完整性——每一项在大面积多层级上都会变得截然不同。5 ?1 `; w' i  S0 P: h
    "过去几十年芯片全球化的发展,虽然是工业皇冠上的明珠,但一代下来积累的屎山不算少,而且Fabless模式的细致分工,虽然减少了各环节的投入成本,但是职责分化也让各环节的壁垒加深。当摩尔定律走到极限时,不管是国产路线还是全球化路线,都要开始寻求IP层面的突破,3D设计是大势所趋,这个级别的革新双方的起点是相同的,都要重新开始。"
    * W7 \- Z" l5 w" f. Y9 b: ?6 R9 V3 T' ?" y( k& O; B
    参考来源
    6 W9 ^+ g* e% i, s9 m3 Z
    0 w6 ?; I4 _0 Z, y8 r' [1. 何庭波 (2026). "A Time Scaling Theory for Multi-Layer Electronic Systems." IEEE ISCAS 2026, Keynote Session.
    9 D" k( n5 s2 J* u1 t6 z2. 黄勇 (2026). "基于逻辑折叠的移动终端SoC设计实践." IEEE ISCAS 2026, Technical Session.(B站IEEE中国全程回放)6 U* U, z6 K/ E* J
    3. 华为官方PPT:LogicFolding for Mobile Terminal SoC, ISCAS 2026 Day 2./ \1 L- F; e0 n* C! R2 j* y
    4. 咸鱼小山 (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节.$ h" V6 w2 M. L+ d, R
    5. Bill (2026). 知乎回答:华为在ISCAS 2026介绍逻辑折叠LogicFolding工程思路细节(技术分析).
    * D- M* x' l4 f5 z6. 栖于永夜 (2026). 知乎回答:W2W良率分析与SkyClock跨Die时钟方案.7 m5 ~) A. O1 r# w2 Q
    7. 李奇 (2026). 知乎回答:EDA/工艺分叉讨论,3D Partitioning分析.
    2 u) P( m8 \7 r/ {* j* g8. i0nium (2026). 知乎回答:Thermal-Aware Partitioning和封装散热分析.
    , v/ Q- R2 X, l9 q: z) y8 A; T9. 李博杰 (2026). 知乎回答:Unified Bus系统架构角度分析. OpenURMA开源项目: github.com/bojieli/OpenURMA
    / J2 t0 v5 @1 T  {4 Y; r) g. I8 Y10. 乱序摸鱼 (2026). 知乎回答:全栈联合调优能力分析.
    0 a2 L8 B; D( e5 s# b11. 华为此前公开技术规范:Unified Bus Protocol Specification (2025).
    6 z+ D7 u0 e+ Z2 F4 K, z( d7 q6 W5 j12. 北京大学团队真3D EDA研究:线长、WNS、TNS、热仿真对比.
    7 y" Y! D( N, `9 H7 h' K6 G; o$ X13. 华为官方新闻稿及多家媒体报道(光明网、搜狐、凤凰网、CCTV等).

    评分

    参与人数 11爱元 +114 学识 +2 收起 理由
    云淡风轻 + 8 涨姿势
    马鹿 + 10 涨姿势
    testjhy + 10
    忧郁金桥 + 6 涨姿势
    leekai + 10

    查看全部评分

  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    沙发
     楼主| 发表于 2026-5-28 17:47:23 | 只看该作者
    这是搜集了资料之后让agent重新组合形成的分析文章,修改格式,上传文字和图片也是agent做的' j, z1 m; u* |( m9 Q
    ' J7 B7 a7 J( q$ U+ c% N- c9 U; Z
    试了下好像感觉还可以

    点评

    油墨: 5.0 油菜: 5.0
    给力: 5.0 涨姿势: 5.0
    这真是极好的: 5.0 不负本宫的欣赏: 0.0
    给力: 5 涨姿势: 5
      发表于 2026-6-2 21:37
    给力: 5
      发表于 2026-5-30 03:44
    给力: 5 涨姿势: 5 不负本宫的欣赏: 0
      发表于 2026-5-30 03:03
    油墨: 5 油菜: 5 给力: 5 涨姿势: 5 这真是极好的: 5
      发表于 2026-5-28 23:43
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    17 小时前
  • 签到天数: 2985 天

    [LV.Master]无

    板凳
    发表于 2026-5-28 23:30:54 | 只看该作者
    提问,请教蚊行,或者蚊行的牛马:
    ( f/ R! p6 D0 I4 x3 g0 \, L) a& ]( p5 H
    Face-to-Face Hybrid Bonding(正面对正面混合键合):两片晶圆(Wafer)正面对正面,通过阵列式的铜柱(Cu Pillar)实现超高密度键合。

    6 `+ x8 d2 H8 M) q. p) q) o% }5 c, y0 \+ c: j5 r1 C
    如何实现?是先分别在两片晶圆上制造电路,然后通过铜柱连接在一起,还是先在一片晶圆上制造下层电路,然后布设铜柱,再制造上层电路,最后把第二片晶圆扣在最上面?第一种方式对精度要求是巨大挑战,第二种方式个人感觉目前不可行。/ i; G. F" r+ ]+ h5 u; h0 X) u
    % j9 A: U3 r/ _, U: M2 T
    读后感:这种方式对散热,时钟,电磁效应是巨大挑战,也就是对设计的巨大挑战,在AI之前是不可能的,现在借助AI才成为可能。最后对良率也是巨大的挑战,估计开始阶段的良率会低的可怕,如文中所述,只能分散到不同产品线,也就是华为借助中国消费者对华为的支持,才能cover住成本。; f  M5 `0 a2 ~$ E4 c+ O5 b7 u
    6 r4 i# L$ P+ A+ c% V: f) W' q
    也如文中所述,这和传统的芯片设计制造就是两个路径,这相当于芯片设计制造的微观世界里的全国一盘棋的计划经济模式。估计早就有人想到,但恐怕真的只有面对生存危机,受到全国全产业链支持的华为才能走通。而这一旦让华为走通并且发扬光大,那未来芯片业就要变天了,很多小IP设计公司要么被华为收编,要么就可以关门了。如果美国不能及时跟进的话(其他国家绝无可能),那台积电都不算筹码了,估计如果十年后大陆登陆某小岛,直接就通知美国,赶快来几艘船把这些破烂拉走,别占我们地方。
    / M* j: V7 W0 U1 K( o! X# ^& C; r
    2 d1 n4 d* O+ b" u3 q/ H
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    地板
    发表于 2026-5-28 23:48:37 | 只看该作者
    大黑蚊子 发表于 2026-5-28 03:47
    / b8 m7 L' X1 {! R; Y这是搜集了资料之后让agent重新组合形成的分析文章,修改格式,上传文字和图片也是agent做的  U( i) K, Y8 u$ c
    - m5 v% ~+ t! z# X( z+ E' R0 I
    试了下好像感 ...

    1 g0 ^6 Q5 ?& }$ K哇,Agent那么厉害了啊!佩服!, g4 C7 F! P5 f
    更佩服能指挥Agent的蚊行。帅才!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    5#
     楼主| 发表于 2026-5-29 00:10:57 | 只看该作者
    方恨少 发表于 2026-5-28 23:30
    ( J$ }2 x* K  v( N! B提问,请教蚊行,或者蚊行的牛马:

    % y% P1 y# {. a/ q应该是第一种方法,具体怎么对齐封装咱就不知道了) V* J1 {! T( o7 O! \* D
    因为华为后来说可以有效利用不同工艺生产的组件进行拼接,那就应该是可以考虑用不同制程工艺生成不同的部件再组合起来,想想都觉得头大,甚至感觉只是在放卫星吹牛逼
    ; @) Q/ ?# I2 E; p! V) w
    * G$ R5 L" e, u$ V% B! {但是华为自己说麒麟2026/2027(应该是)已经完成了流片,2026进入了工程测试阶段,9月就要正式发布,这就有点儿惊悚了
    ' p% ]* ?, d# K& A* e4 C7 P人家不是在画PPT,人家已经做出来了,而且良率和成本看上去还都不错

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2026-5-30 03:04

    评分

    参与人数 1爱元 +12 收起 理由
    方恨少 + 12

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2023-2-8 04:51
  • 签到天数: 1811 天

    [LV.Master]无

    6#
    发表于 2026-5-29 01:16:51 | 只看该作者
    你们对华为这个吹得有点过了。。。作为Process Engineer, 俺没看出华为出了啥突破性的东西,Hybrid Bonding是已经在用的东西了。华为就是有提高,感觉也比不上YMTC前面搞出来的XStacking意义大。本来以为华为在设计那边搞了突破,但看可梦之的评价好像也不高。
    4 e* ?) j% c' S( z: h7 U/ a感觉就是把各项技术综合整合来跳过EUV壁垒,这如果做成当然也是很厉害的,看看下半年9050的表现就可以打分了。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2023-2-8 04:51
  • 签到天数: 1811 天

    [LV.Master]无

    7#
    发表于 2026-5-29 01:18:56 | 只看该作者
    大黑蚊子 发表于 2026-5-28 08:10
    ' a% Z. ~3 ^" I9 o应该是第一种方法,具体怎么对齐封装咱就不知道了
    8 D: _  k7 t8 n2 k3 z5 J因为华为后来说可以有效利用不同工艺生产的组件进行拼 ...

    " K" x! |$ y  I7 ?& [D2W (Die to Wafer) bonding,不是W2W (wafer to wafer) bonding. 拼接不同工艺生产的部件不是问题。

    评分

    参与人数 1爱元 +12 收起 理由
    方恨少 + 12

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
    发表于 2026-5-29 02:09:40 | 只看该作者
    moletronic 发表于 2026-5-29 01:16, q/ {6 p4 C( b5 E4 U& p
    你们对华为这个吹得有点过了。。。作为Process Engineer, 俺没看出华为出了啥突破性的东西,Hybrid Bonding ...

    2 O! Z# r/ |% K: F' v/ S9 S7 `: s: C) J
    很尊重你和可梦老弟一直以来提供的业内第一手技术解读,学了很多。这里给两位提供一个其它视角。
    : {% Q, o4 t( G" x" a0 q
    + S! |( i: F4 V9 t我们习惯美国公司内部和公司之间工作方式的“业内”人,一般按单人、单公司能力估算菊厂工程能力、产品能力。我刚开始就陷在这个坑里,认为微软:菊厂工程师1:5以上的能力对比,菊厂开发、产品能力有限。3 A* |/ _/ L. F$ v1 a5 l0 u
    0 X0 Q6 O5 H' V) }4 u1 m1 l$ A
    但是,实际工程、产品实践结果是比微软200%,500%的快速工程,产品结果。甚至是技术突破。% `6 |3 o& B, t) B+ ]
    , r2 I! \0 h: {! j, H6 |
    为什么?
    & E) v- Z+ q: M6 A. D" Z
    / [! o1 M9 \8 {2 {( e& q( d只要各个节点有1,2个真正的技术带头人,再加上一个能把所有能力一般的个人、协助公司,合作伙伴公司有序管理起来的强有力的工程管理组织流程是关键。3 ^1 \0 z6 D' L: E* u
    * C4 J& F3 ^, g0 f% {% G- c
    就像蚊行文章说的,不能看单点先进性,要看把整个产业链统一起来以后的整体先进性和革命性。
    0 O  s4 m# t. U* x% O1 g* U9 n, @7 }1 F+ A+ `/ w
    福特汽车生产线如果让之前的汽车厂家的工程师看,肯定说这有啥技术突破。但是,这个对于工业生产来说就是革命性的。
    ' q! g8 E! F# r* H

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2026-5-30 04:56
    给力: 5 涨姿势: 5
      发表于 2026-5-30 03:04

    评分

    参与人数 4爱元 +38 收起 理由
    云淡风轻 + 8
    testjhy + 10
    老票 + 10 精彩
    leekai + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2023-2-8 04:51
  • 签到天数: 1811 天

    [LV.Master]无

    9#
    发表于 2026-5-29 02:37:47 | 只看该作者
    本帖最后由 moletronic 于 2026-5-28 10:39 编辑
    * i+ _4 F2 V' e. J6 I0 r% w
    8 [6 f. }9 P% Y- |俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性’之类的评价要求比较高。9050的评测数据出来前俺觉得就说革命性还早了点。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    10#
    发表于 2026-5-29 02:55:02 | 只看该作者
    moletronic 发表于 2026-5-29 02:37
    ) e8 v8 X8 r( e7 K俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性 ...

    / Q( D1 M' b; W  c9 X同意同意。菊厂牛皮吹破也不是一次两次了。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 07:26
  • 签到天数: 1357 天

    [LV.10]大乘

    11#
    发表于 2026-5-29 12:50:30 | 只看该作者
    moletronic 发表于 2026-5-29 02:374 b4 y: @7 J( A( _5 K
    俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性 ...

    9 E% b+ }0 l& J要相信系统论的力量。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    12#
     楼主| 发表于 2026-5-29 13:01:01 | 只看该作者
    moletronic 发表于 2026-5-29 02:37! Z: ~7 s* {* l# m+ S, K
    俺一向是很尊重华为的,而且俺认为松山湖人均水平要强过硅谷平均水平的。不过俺个人对于“革命性”‘突破性 ...

    3 C& O* ~9 a/ o5 o0 V9050这个不算革命性,但这个方法论还是可以称得上革命性的
    2 U2 E. S. j) o看现在的消息9050应该是缩小了面积后再折叠的,估计是良率方面的考虑4 v! k" r: v" n1 ^! O! f
    如果9050能够达到8gen3的水平(4nm,大核3.3G,八核),那我觉得就算符合预期了
    5 B2 q' w+ D' j$ O

    评分

    参与人数 1爱元 +8 收起 理由
    云淡风轻 + 8 谢谢分享

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    14 小时前
  • 签到天数: 3278 天

    [LV.Master]无

    13#
    发表于 2026-5-29 16:24:57 | 只看该作者
    看了蚊行的解读,谈谈我的看法:
    7 l- b4 o! {- n8 S& T+ ]8 Z6 Q1、系统性思维:根据功能、性能、功耗等统一设计应用芯片,而不是功能芯片,这就是自己拥有EDA工具链的巨大优势,利用自家的EDA工具可以平衡各功能块的集成度,各Die或Wafer性能、功耗等的平衡,如果发现有些EDA工具达不到的,增强EDA相关设计能力来完成,整个设计按照目标的逻辑来完成,所以称为逻辑折叠。而传统的CPU、GPU厂商只能利用别家的EDA工具做固定的功能块,然后成为物理折叠。# ?4 m3 f# ]8 @/ x9 O2 e/ C6 _) Y
    2、目前以系统性对抗国外光刻等尖端性,跟上时代的步伐% N8 r; P- k3 D( S
    3、系统性并不排斥尖端性,等我们光刻设备上来后,这套体系将如虎添翼。

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
    如同前苏联制造的航天器,单项性能不突出,整体经过系统优化后表现优秀  发表于 2026-5-30 11:18
    给力: 5 涨姿势: 5
      发表于 2026-5-30 03:55

    评分

    参与人数 1爱元 +8 收起 理由
    云淡风轻 + 8

    查看全部评分

    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2026-3-17 22:01
  • 签到天数: 1133 天

    [LV.10]大乘

    14#
     楼主| 发表于 2026-5-29 22:43:53 | 只看该作者
    testjhy 发表于 2026-5-29 16:24
    . k& H4 t1 A- n( _3 G2 c" @看了蚊行的解读,谈谈我的看法:" z1 q( m  v/ H3 `0 T+ N
    1、系统性思维:根据功能、性能、功耗等统一设计应用芯片,而不是功能芯片 ...
    , P& w6 }! v+ O, R: t
    更本质一点的话,韬定律这套东西其实是在抢夺先进工艺的定义权
    & q$ v( N5 ~! z从14nm之后,所谓的x nm早就不是对应物理概念的那个数字了,本身也是个等效算法甚至是商标
    , K% O; e1 L6 h2 ?既然如此,那就把nm这套老办法去掉,大家按照完成系列通用任务的效率来看,谁效率高谁就是先进的,效率高不就是用的时间少嘛。# a: I: K$ k. F- w  C8 G+ n5 Y1 l3 G
    也别纠结什么EUV/DUV的,谁能完成任务谁就是好汉
    / C# H4 f' F' W( v7 y% j8 x, o
    # ]( D& }" {# M* S如果这个9050在性能和功耗上能够追平高通的8Gen3,那就差不多可以认为是相当于4nm的水平
    8 @  O' q3 f. k# E" @* c9 U" \用Duv做出4nm来,那不就是Intel当年心心念念一直要做成的事情嘛,最后没成/ S8 h1 D" G) V
    DUV这么搞下来,成本还真不一定比EUV贵) l9 M' D7 u- R, I& E5 G9 H

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2026-6-11 15:03
    给力: 5 涨姿势: 5
      发表于 2026-5-30 03:56

    评分

    参与人数 2爱元 +18 收起 理由
    云淡风轻 + 8 谢谢!有你,爱坛更精彩
    testjhy + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    15#
    发表于 2026-5-29 23:49:03 | 只看该作者
    大黑蚊子 发表于 2026-5-29 22:43
    / H. R/ L% V  f) _/ n% c更本质一点的话,韬定律这套东西其实是在抢夺先进工艺的定义权9 f, H! `4 v; q2 l
    从14nm之后,所谓的x nm早就不是对应物理 ...

    " [; h7 X6 L' g; q& o! H. O2 w0 h菊厂在抢夺定义权,尤其是国际标准的定义权上面是有执念的
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2023-2-8 04:51
  • 签到天数: 1811 天

    [LV.Master]无

    16#
    发表于 2026-5-30 00:08:43 | 只看该作者
    是不是俺对“革命性”的定义太高的原因啊,俺对9050的期待值可是更高的,应该能达到台积3nm的水平。
    $ ^+ r! E& Z2 k1 _0 o另外,牙膏厂当初可不是用DUV做3nm,是10nm。这其实不算太难,台积对应的7nm就是全DUV制程,后来是为了减成本才用EUV。早期EUV生产成本还是太高了。
    * T* h. ^4 q% y. r3 C华为这个方案很难说能比用EUV的单层方法便宜,毕竟处理的层数要加倍了。

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2026-5-30 03:56
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    20 小时前
  • 签到天数: 3825 天

    [LV.Master]无

    17#
    发表于 2026-5-30 01:48:36 | 只看该作者
    WiFi 发表于 2026-5-28 13:094 d, @; j- Z+ _7 w8 o* `
    很尊重你和可梦老弟一直以来提供的业内第一手技术解读,学了很多。这里给两位提供一个其它视角。8 |& m' ^; J6 I) f" H/ V, g
    7 e' [# Q- h+ s1 w9 ~
    我们习 ...

    / @7 o% L1 \: x9 z. r1 C2 j站你這邊, 帶過國內團隊, 他們特別適合大規模作戰, 特別能打, 他們一兩個人厲害就行。

    点评

    给力: 5.0 涨姿势: 5.0
    给力: 5 涨姿势: 5
      发表于 2026-5-30 03:56
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    17 小时前
  • 签到天数: 2985 天

    [LV.Master]无

    18#
    发表于 2026-5-30 04:30:56 | 只看该作者
    大黑蚊子 发表于 2026-5-29 00:10
    5 A. F- s$ I# ~5 c! l! M应该是第一种方法,具体怎么对齐封装咱就不知道了
    4 l6 n+ u1 S3 c+ t0 q$ u# o因为华为后来说可以有效利用不同工艺生产的组件进行拼 ...
    3 m8 F; ?, _& o) w9 |. I
    第一种方法能实现也已经很逆天了。但我还是担心良率问题,虽然华为声称已经在300多款芯片上做了实验,下半年产品就要发布了,但产品问世了,性能一目了然,大家都能测出来,而良率和成本这东西,华为自己不公布,别人谁也查不到。6 u8 w1 [6 V4 x$ V3 `

    ' R1 I* e7 [" Q% ^/ a3 p% \0 V华为这次公布韬定律的时机也很有意思,除了技术方面,大概还有政治博弈的因素。特朗普刚刚访问中国,表现得规规矩矩,英伟达黄仁勋最后时刻扒飞机也要来,AMD苏姿丰虽然没能混上一张机票,但特朗普刚走就来访问中国,尤其是当年制裁华为跟进最积极的美光居然也来了。这说明,美国对中国的芯片制裁,是否还能压制住中国,或者说还能压制多久,已经产生松动。华为公布韬定律,也有对美国喊话的意思,早晚压制不住,甚至可能被反超,不如早点合作共赢,收手吧,阿祖。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    19#
    发表于 2026-5-30 04:53:56 | 只看该作者
    方恨少 发表于 2026-5-28 09:30
    % F. K- P% y2 V- I提问,请教蚊行,或者蚊行的牛马:

    2 t: r6 X! R8 O' r2 c! h# Z有没有可能是将晶圆布设铜柱后对接,然后上下层同时刻电路?感觉这样才能保证对接精度?
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    20#
    发表于 2026-5-30 09:06:00 | 只看该作者
    方恨少 发表于 2026-5-30 04:30
    4 }9 g6 |2 P( x7 o3 J第一种方法能实现也已经很逆天了。但我还是担心良率问题,虽然华为声称已经在300多款芯片上做了实验,下 ...

    % F8 S! i. @: R8 _# ]" ~“大概还有政治博弈的因素”
    # P6 ?, X+ V0 Y/ V4 P$ s% n9 l! n' ]2 e
    我认为没有政治。海思为发表这个论文准备多半年了,因为麒麟2026芯片马上要发布。必须赶上这个节点先把理论抛出来,然后用麒麟芯片的性能来闭环论文给出的数据。& M& \- y5 L6 P. n" L! [6 q

    4 [: ~  y% @3 C& ]7 c9 r  s( I$ u这样这个理论就立住了。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-24 20:59 , Processed in 0.085914 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表