I.引言
自年MOSFET和年CMOS发明以来,CMOS电路成为低功耗电池供电应用(如数字手表和便携式仪器)的首选技术。随后,光刻技术(lithographyscaling)使CMOS踏入高性能计算的竞争行列中。Dennard年对CMOS缩放(CMOSscaling)原理的总结根据摩尔定律进一步为微电子行业提供了科学的缩放(scaling)方向。然而,到年,平面MOSFET的亚阈值泄漏阻止了Vth、Vdd和频率按比例缩放,这很大程度上打破了Dennard缩放原理(scalingprinciple)。双栅极(SOI)和三栅极(FinFET)的发明使通道得到了更好的控制,从而载流子不会逃逸到衬底。环栅(例如:纳米线和纳米片)MOSFET的沟道被栅电极包围,具有更好的静电控制,从而减少了泄漏并提高了载流子迁移率。使用多纳米片,单位面积内的有效宽度W(W_eff)也得到改善,与FinFet器件相比,允许适度的密度缩放。业界即将对CMOS缩放(CMOSscaling)进行更多改进。ForkFET在PMOS和NMOS之间使用了阻挡层,可以让PMOS和NMOS彼此靠近放置,从而提高晶体管密度并降低PMOS和NMOS之间的互连RC。PMOS和NMOS相互堆叠的互补FET(CFET)显着减少了PMOS和NMOS之间的互连,这是因为垂直堆叠上的互连比水平布线短得多。当可以更好地解决热和可测试性挑战时,未来的技术进步可能允许单片制造更多层的MOSFET(单片3D集成)。
总体趋势是CMOS缩放速度已经放缓,根据IRDS(国际设备和系统路线图)预计将在年达到极限。随着晶体管尺寸越来越小,栅极间距的减小使得源极/漏极更加难以形成良好接触,从而对良率和性能调整提出了更多挑战。对于数字处理器来说,持续的器件缩放(devicescaling)可能有好处,而对于模拟信号处理单元(例如IO、无线电或高压电路)来说,保留在较旧的技术节点上更好。这就需要异构集成。已经表明,芯片分解可能有助于提高性能、外形尺寸、成本和上市时间。在最初成功将HBM(高带宽内存)堆栈与处理器集成在同一封装中以满足AI/ML和超级计算中的数据密集型工作负载的需求之后,3D-IC现在正在形成(takingshapefor)主要的高性能计算产品。
在本文中,我们讨论了3D-IC时代的互连。第二部分回顾了器件缩放(devicescaling)尤其是与器件互联相关的趋势和限制。第三部分讨论了各种应用的芯片到芯片互连,并提供了水平芯片到芯片连接和垂直芯片到芯片堆叠的设计解决方案。第IV节侧重于特别是与抖动、功率和通道优化有关的互连性能分析。最后在第五节,讨论了一些未来趋势。
II.器件缩放趋势和3D-IC
CMOS光刻现在处于亚10nm级(sub10nmspace),发展向3nm及以下。总体趋势是接触多晶硅间距(CPP)、物理栅极长度(Lg)、鳍片间距、最小金属间距(MP)和接触CD(临界尺寸)继续缩小,但速度较慢。一个限制因素是源极/漏极间距。如图1所示,由于finFET或纳米片3D结构的接触面积/间距减小,MOSFET的源极/漏极的外部电阻以及栅极和源极/漏极之间的侧壁耦合电容和边缘电容会随着特征尺寸的缩小而降低,导致带宽和功率的改进微不足道。对于模拟应用,过大的栅极、源极和漏极电阻会降低gm、ft和fmax。由于米勒效应,栅极/漏极之间的侧壁电容效应更为明显,它会影响高速电路的上升/下降时间,从而对功耗和抖动产生不利影响。考虑到逻辑设计的密度缩放和高速电路的性能要求,可以提供多个间距,宽间距器件适用于更低的寄生RC从而使ft更高。还进行了器件和技术的协同优化,以通过金属栅极的双带来降低栅极电阻。先进节点后道工艺(backendofline,BEOL)的电阻效应并没有变得更好。为了解决因积极缩放(aggressivescaling)而导致生产线中端(MEOL)和后道工艺(BEOL)互连电阻率和可靠性的关键和紧急问题,该行业加快步伐在新材料和新工艺方面寻求突破。
图1.MOSFET中的寄生RC
简而言之,器件缩放会产生成本,尤其是在模拟、高速IO或RF电路方面。设计成本和制造成本使做单片SoC的效率降低。通过多个小芯片的封装集成来进行芯片分解是自然路径(thenaturalpath)。
由于3D-IC的优势,主要处理器设计供应商现在正朝着3D芯片集成的方向发展。3D-IC采用水平连接和垂直堆叠的形式,通过不同工艺和封装技术在较小芯片上制造的计算核心、加速器、内存、缓存、IO、电源管理功能(function)可以像乐高积木一样拼凑在一起。每个功能都针对功率、性能和面积进行了优化。我们即将迎来标准化小芯片接口和3D集成流程(flow)。短期内,专有解决方案仍然流行。
可以预见,不同于MOSFET的新技术将逐渐出现。例如,隧道FET(TFET)或电阻式RAM(RRAM)等新技术可能共存或替代现有DRAM,以降低功耗和泄漏。技术迁移会采用进化路径(evolutionarypath)演变成另一种功率、热、带宽或缩放效率更高的技术,而不会突然脱离历史上非常成功的MOSFET技术。3D-IC加速了RRAM、TFET、碳纳米管、光子学等新技术的采用。
3D-IC集成的主要优势是更好的互连能效,减少访问延迟。3D堆叠允许显着减少块间布线距离。在计算核心附近放置更多内存可以让CPU提高性能,因为总布线长度减少了,内存访问带宽和延迟也因此大大提高。例如,片外存储器访问能量约为10+pJ/bit,访问延迟约为ns。由于更高的封装内(in-package)数据带宽,延迟降低了。
3D集成技术中有一些成分(ingredients)可以在各种应用中排列形成各种各样的2.5D或3D结构。从根本上说,这些技术变体可以分为两类:一是垂直连接,例如晶片上芯片、晶片上晶片,使用uBump、键合或绝缘/硅通孔(TIV/TSV)将两个不同的芯片连接在一起。水平连接依靠通过基板或中介层的布线来连接两个芯片。不同的产品采用有机中介层、硅中介层、硅桥、RDL(重新布线层)overMolding或衬底路线等各种布线介质(wiringmedia)。关键设计考虑因素是密度、损耗、串扰、成本和可制造性。中介层介电常数、凸块间距/尺寸、线宽/间距和TIV/TSV直径/高度会影响互连密度和电气性能。有机内插器(organicinterposer)可实现更高的带宽。有源内插器(activeinterposer)可能会为性能提供额外的好处。
III.低功耗芯片到芯片互连的设计
在这里,我们专注于芯片到芯片(D2D)互连技术,以应对芯片间通信的挑战。D2D互连设计有3个主要的FOM(品质因数):线(或面积)带宽密度、能源效率和延迟。对于横向D2D连接电路,目前线带宽密度(shorelinebandwidthdensity)1Tbps/mm,并且还在不断增加。带宽密度最终受限于芯片几何形状的物理约束(例如线宽度和凸块间距),以及通道插入损耗和串扰带来的性能约束。在水平情况下,我们的目标是1.2-2.0毫米的通道范围。更长的覆盖范围是可能的(例如:更低的数据速率、通道均衡、有源内插器(activeinterposer)或错误检测和纠正),但代价是更低的带宽密度、更长的处理延迟或更高的功率。对于垂直D2D连接电路,F2F互连的D2D互连长度几乎可以忽略不计,而F2B互连的D2D互连长度则低于um。下面我们展示了针对水平集成和垂直集成调整的两个D2D接口的设计,同时考虑了上述三个D2D互连FOM。
水平D2D互连:图2(左)是并行PHY接口的高级电路架构,在TSMC的N7/N5/N3工艺中实现了转发时钟,作为支持水平D2D连接的基础IP。该设计以前是通过N7的测试芯片实现的。该系统已经过重新架构,以提高客户的能源效率和线带宽密度(shorelinebandwidthdensity)。硅中介层(siliconinterposer)上支持的最大通道长度可达2mm。基本单元称为通道,由1个公共通道和4个子通道组成。公共通道包括共享功能,例如时钟生成、参考生成和驱动器含义校准(driverimplicationcalibration)。每个子通道有40个Tx通道(lane)和40个Rx通道,以及一个时钟单元。PHY支持2.8-8Gbps的数据速率。这使得每个通道每个方向的最大总数据带宽为Gbps。每个子通道中的冗余有两个额外的通道(lane)。如果在Tx和Rx链路对之间的任何地方发生制造缺陷,则可以激活冗余通道来修复缺陷。为避免不必要的开销,每20个通道中只有1个缺陷是可修复的。可以禁用不可修复的子通道或通道,但同时要将部分降级支持更少的数据带宽。时钟单元在一个子通道中的40个Rx和40个Tx数据通道之间共享。在时钟单元中,在Tx时钟路径和Rx时钟路径中分别有一个DCC(占空比校正)电路跟随一个去偏移环路(deskewloop)。发送去偏移环路(transmitdeskewloop)用于将SoC时钟域与PHY时钟域一致,接收去偏移环路用于将采样时钟与接收数据眼图中心一致。图2(右)是两个小芯片之间D2D接口的物理实现,有3种可能的配置(4+1、2+1和1+1)。首选使用情况是4+1(4个子通道和1个公共通道),这是最节能的,但也支持2+1和1+1以满足对数据带宽需求不太高的应用。凸块间距为40微米。本质上,每个Tx或Rx电路可以占据一个凸块下方的部分区域。凸块下方的其余区域用于时钟分配或去耦电容。PHY的电源从两侧(图2右图所示的顶部和底部)提供。用来支持晶圆级KGD(已知良好芯片)测试期间探针卡(probecard)的探针垫(probe-pad)更大。每列有12个信号凸块,每个凸块运行速度高达8Gbps。除去用于边带握手(sidebandshandshaking)、通道冗余的一些凸起,每个通道实现的线带宽密度(shorelinebandwidthdensity)为1.78Tbps/mm,能效为0.36pJ/bit,面积为xum。
图2.水平D2D互连
(左:电路架构,右:通道平面图)
垂直D2D互连:各种3D芯片拓扑是可能的。图3显示了先进3D集成中的多层芯片堆叠场景。外形尺寸(布线长度、键合间距和TSV直径)变得越来越紧凑和小。本设计中贴片间距为9um。由于减少了D2D互连长度(um),与水平D2D互连相比,通道缺陷更少。每个通道的数据速率增加到16Gbps。图4(左)显示了PHY的架构图。与水平D2D互连不同,时钟单元现在跨80个数据通道共享,公共通道(lane)由两个通道(channel)共享。这有效地减少了来自PLL和时钟单元的电源开销。每个通道每个方向的总最大数据带宽保持为Gbps。由于PHY现在受到电路限制(在这种垂直情况下,bond面积为81um,而在水平情况下ubump面积为um),PHY的平面图更加紧凑,如图4(右)所示,每个Tx/Rx通道占用6个键(6*81um)的面积。总体而言,实现的面积带宽密度为17.9Tbps/mm2,能效为0.3pJ/bit,每个通道的面积仅为xum(不包括PLL)。
图3.垂直芯片堆叠
图4.垂直芯片到芯片互连
(左:电路架构,右:通道平面图)
IV.电路设计和性能优化
图5是Rx、Tx电路和Rx参考生成电路。Rx使用基于传统感应放大器的触发器进行数据采集,参考电压可通过7位电流DAC进行调节。Tx驱动器是低压摆幅NMOS驱动器,VDDQ低至0.3Volt,以降低驱动器功率和串扰。
图5.Rx和Tx的电路实现
图6显示了去偏移环路(deskewloop),它由一个用于8相时钟生成的DLL(延迟锁定环路)和一个用于时钟相位调整的PI(相位内插器)组成。DLL从用于Tx的ADPLL获取其输入时钟,并从Rx_DQS(来自其他芯片的转发时钟)获取输入时钟,。来自DLL的8相时钟馈入CMOSPI。PI时钟分配给Tx(或Rx)的时钟树,时钟树的端点也反馈到PI控制回路中的PD,强制时钟端点与时钟Φx相位对齐。发送去偏移DLL的Φx来自SoC时钟域,它可能来自PHY中的ADPLL或来自SoC中的不同PLL。接收去偏斜环路的Φx来自8相时钟发生器的Φ2,以创建与Rx_DQS的90度相移,从而允许接收时钟与Rx数据眼图中心对齐。PI和DLL环路滤波器以数字方式实现。
图6.去偏移环路(DeskewLoop)
具有延迟T(T是DLL输入时钟周期时间)的延迟元件的传递函数可以表示为exp(-Ts)。图7(a)是一个线性化的DLL,其中明确显示了延迟元件。从噪声传输的角度来看,DLL是输入时钟噪声的全通滤波器,在DLL带宽附近有轻微的抖动放大。在图7(b)中,我们提供了一个更详细的8相DLL模型,其中延迟元件及其控制增益级分为8段。这更准确地建模了整体抖动传递函数。图7(c)是PI控制回路。可以相应地分析整体抖动传递函数。图8(左)显示了8个输出相位vsDLL输入相位的抖动传递函数。图8(右)显示了DLL+PI传递函数的整体抖动传递,取决于所选的DLL相位(Φ1...Φ8)。很明显,去偏移环路会放大抖动,从而导致转发时钟系统中的抖动跟踪不完整。理想情况下,如果我们忽略延迟元素(即exp(-Ts)=1),则去偏斜环路是一个全通滤波器。因此,到去偏移环路输入的转发时钟抖动(包括随机抖动和电源抖动)将完全由数据接收器端的数据路径上的抖动跟踪,正如转发时钟架构所期望的那样。请注意,DLL和PI本身也会产生噪声,但噪声可以忽略不计,因为反相器缓冲区的深度仅为约10个反相器深度。DLL延迟线的电源噪声由DLL高通,由PI环路低通。如果DLL和PI环路之间存在带宽失准,则DLL延迟线上的一些电源噪声频谱可能会泄漏到PI输出。PI的电源噪声通过高通到输出端。抖动影响是相似的。基于上述分析,时钟抖动、PVT偏移和电源下降将主要由去偏移环路跟踪。残余抖动,包括抖动放大部分、DLL和PI自身产生的Dj和Rj,以及时钟和数据路径不匹配导致的Dj,会侵蚀眼图裕度,是系统预算的一部分,通过行为仿真建模。
图7.线性模型(a)传统DLL(b)具有延迟元件的8相DLL模型(c)PI环路线性模型
图8.去偏移环路的抖动传输(左:从DLL时钟输入到8相输出的抖动,右:整体去偏移环路抖动传输)
电源分配网络对电源完整性很重要。必须尽量减少电路板、基板、中介层和芯片上电源网络的IR压降。在上电/断电和电源管理期间,板载、封装、插入器上(on-interposer)和/或片上去耦电容是抑制电压纹波所必需的。图9显示了水平裸片到裸片互连的供电网络性能,具有各种去耦电容选项:无去耦电容、带有TDC(顶部裸片电容)、eDTC(嵌入式深沟槽电容器)或TDC和eDTC的组合。基本上,包括片上MOSCAP和MOM(金属氧化物金属)电容的TDC对高频噪声最有效。另一方面,eDTC的电容密度大约比MOM(金属氧化物金属)电容高30倍,但由于更高的ESR(有效串联电阻),可能不具有良好的高频特性。为了实现20mVpp的目标电压噪声,eDTC在此特定设计中效率最高。这让使用更少的片上decap来缩小PHY面积成为可能。值得注意的是,如果使用的片上去耦电容不足,则通过片上P/G网络的动态IR压降可能会加剧串扰。图中未显示的MIM(金属绝缘体金属)也是不错的decap选择。其电容密度是MOM电容的3倍至10倍,ESR位于TDC和eDTC之间。
图9.不同去耦电容的功率传输特性和电源噪声
通道优化是3D-ICDTCO(设计和技术协同优化)的一部分。用于水平D2D互连的封装(设计1图10)具有高达11mVrmsICN(集成串扰噪声),FEXT/NEXT为-27dB,尽管中介层中有电源/接地屏蔽,如剖面图所示图10。这不是8Gbps数据速率的问题。然而,为了将线带宽密度(shorelinebandwidthdensity)提高到16Gbps或32Gbps(眼高和眼宽更加压缩),需要改善串扰噪声。图11显示了Design2。添加电源/接地屏蔽凸块可将串扰改善8dB以上。随着我们增加每通道数据速率,线带宽密度(shorelinebandwidthdensity)将增加,我们能够在28Gbps通道速率下实现7Tbps/mm的峰值带宽密度(图12)。然而,由于插入损耗和串扰恶化,高通道速率(32Gbps)下的带宽密度变得更差。在更高的数据速率下,我们必须减少通道(lane)深度,这会降低线吞吐量(shorelinethroughput)。
图10.D2D互连串扰减少(凸块顶视图和中介层剖面图)
图11.串扰和插入损耗
图12.线吞吐量(Shorelinethroughput)
由于间距小(水平互连为40um,垂直互连为9um),因此无法直接探测芯片到芯片互连。内置自检电路是检查电路质量的必备工具,包括良率筛选和运行裕度。图13显示了8Gbps互连的基于误码率的眼图扫描。在与其他小芯片集成之前用于筛选KGD(已知良好芯片)的晶圆级测试,以及用于筛选KGS(已知良好系统)的封装部件测试是用于硅后验证的DFT基础设施的一部分。来自KGD/GDS的有缺陷的零件通过前面提到的冗余通道进行修复。
图13.片内眼裕量测试(Ondieeyemargintest)(在VDD=0.75和VDDQ=0.3时测量)
V.讨论与结论
图14是水平互连和垂直互连的芯片显微图。8Gbps版本是独立IP验证工具中具有生产价值的设计(相对于其中的测试芯片),主要
转载请注明地址:http://www.abmjc.com/zcmbzl/4324.html