信号完整性日志
www.lambexpress.com/articles/1057-gbs-and-beyond-with-single-ended-io-in-high-performance-graphics-memory
微米的拇指

16Gb/s及以上的高性能图形内存单端I/O

2019年1月1日

GDDR5已经成为需要高系统带宽的应用程序(如显卡、游戏机和高性能计算系统)的领先DRAM接口。然而,新应用程序的需求驱动了更高的内存带宽。本文讨论了GDDR6的开发,与其他高带宽内存解决方案相比,GDDR6是一种风险更低、成本效益更高的解决方案。我们进一步介绍GDDR6,在保持与现有GDDR5生态系统兼容性的同时,每针带宽比GDDR5增加2倍。本文将讨论电路和信道性能的扩展,并通过测量进行验证,以展示将GDDR6扩展到16Gb/s的潜力。

近10年来,GDDR5一直是高性能应用程序的推动者。虽然第一代设备是以6gb /s/pin的数据速率[1]推出的,但今天,达到8gb /s/pin的卡在市场上很容易买到。然而,即使是最快的GDDR5也只有9gb /s/pin[2],这几乎超过了已经上市的部件的速度。因此,尽管GDDR5取得了成功,但带宽扩展速度明显放缓的问题需要解决。为了抢占市场带宽需求和可用内存组件性能之间不可避免的差距,业界一直在追求两条平行的道路。

一种方法是开发一种全新的内存架构,凑巧命名为高带宽内存(HBM)[3]。由于认识到内存接口性能主要受到较慢的DRAM晶体管工艺以及芯片到芯片互连的限制,HBM选择通过采用极宽(多线)接口来完全重新定义这个问题,从而允许DRAM输入/输出(I/O)电路在DRAM工艺能力范围内良好地运行。然而,这种重新定义需要在支持技术上进行大幅增强,即依赖于硅中间体和通硅通(TSV)技术来耦合GPU/ASIC与DRAM。

HBM,正如它所定义的那样,由一个tsv连接的dram堆栈组成,它位于逻辑缓冲芯片上,它通过一个精细的基于Si间置器的通道以相对较低的每针数据速率与GPU/ASIC通信。虽然HBM体系结构提供了许多优点,但其复杂性(在可测试性、稳定性、持久性和总体成本方面)限制了它只能被应用于最高级别的应用程序。

在HBM发展的同时,GDDR dram家族的进化路径也在继续扩展性能,提供了一种更具成本效益和灵活性的替代方案。在没有重新定义系统的情况下,GDDR5X直接通过内部数据路径和时钟增强[4]解决了关键带宽限制因素,从而在成本更敏感的应用程序(游戏等)中提供了更低风险的采用。GDDR5X目前在市场上的数据速率高达11.4 Gb/s[5]。

即使GDDR5X继续进行增量改进,GDDR道路上的下一个自然步骤是开发能够支持每针数据速率是GDDR5两倍的GDDR6标准。目前,官方的GDDR6 JEDEC标准覆盖了12到14Gb/s的范围,但在本文中,我们将演示GDDR6的可伸缩性至少为16Gb/s/pin。本文的其余部分分为三个主要部分:硅的变化(例如电路和架构)和支持将单端GDDR接口一直扩展到16Gb/s所需的通道增强,以及美光第一个8Gb、16Gb/s/引脚GDDR6产品的性能测量。

硅的变化

美光的第一个GDDR6芯片的图像如图1所示。虽然需要对电路和架构进行更改以实现新的带宽目标,但GDDR6组件定义的主要目标是保持接近演进路径,从而利用先进的GDDR5和GDDR5X基础设施,包括已建立的封装、处理和测试方法。因此,像通用命令协议这样的外部特性从以前的标准中保留了下来。

图1

图1:美光首款8Gb、16Gb/s能力的GDDR6产品的模具照片

就系统应用而言,最突出的新特性是增加了对双通道(2 x16)操作的支持。系统可见的另一个变化是支持更强的模上终止和输出驱动器上拉强度48Ω。虽然输出驱动程序仍然有些不对称(60Ω/40Ω或48Ω/40Ω),但对48Ω的支持提高了信号对称性,同时为增强信号完整性提供了与封装+印刷电路板(PCB)通道的典型特征阻抗更好的匹配。

除了这些变化,以及一些与锁相环(PLL)操作和时钟灵活性相关的规范扩展之外,GDDR6的速度还通过在GDDR代中积累的几项增量改进来实现。数据总线反转(DBI)早在GDDR4时就被引入,并且在降低信令功率[6]的同时,一直被证明可以有效地减轻同时交换输出(SSO)噪声。用于信道损伤补偿的决策反馈均衡(DFE),用于抖动滤波的锁相环,用于减少高速写时钟(WCK)分布中的电源诱导抖动(PSIJ)的稳压电源都包含在早期的GDDR5设计[1]中。GDDR5中加入了输出驱动器增强(类似于预强调),以在速度继续推动时打开数据眼,同时,创新的内部操作模式,如电荷泵的频率控制开关(FCS),用于在整个DRAM中设置不同的电压水平,被证明有助于减少内部电源变化,从而提高数据路径[7]的稳定性。占空比校正和输入时钟均衡,以及电感-电容(LC)谐振时钟树终止和更普遍使用的电流模式逻辑(CML)电路设计,通过减少DRAM时钟分布[2]中的抖动,实现了更高的速度。

为了克服DRAM阵列定时的限制,GDDR5X将数据预取增加了一倍,增加了每次数据访问时呈现给输出驱动程序的比特数。为了在不增加内存系统时钟频率的情况下将DRAM的数据速率提高一倍,GDDR5X支持双数据速率(DDR)和四数据速率(QDR)两种工作模式。DRAM上的锁相环提供一定程度的抖动滤波,同时可以用作QDR模式下的WCK倍频器,尽管GDDR6 JEDEC规范提供了锁相环使用的灵活性,支持在没有锁相环的情况下高速运行。

为了提高从存储器读取数据时的信号完整性,在输出驱动结构中加入了可调的去重音;由于不平衡的上拉/下拉驱动强度定义中固有的不对称性,这是一个非平凡的设计。此外,为了保证更健壮的接口,接口时序和电压裕度的日益复杂和准确的训练和校准已成为必不可少的[8],并且,根据需要,GDDR5及以上支持数据总线的每管脚去偏。最后,为了确保在芯片到芯片通信期间不引入错误,循环冗余校验(CRC)计算的结果通过错误检测码(EDC)引脚以一半的数据速率从DRAM传输到GPU/ASIC[4,7]。几乎所有在GDDR历史上开发或采用的这些增量进步都在GDDR6架构中找到了自己的位置,本文后面的部分将通过美光GDDR6硅的特性来量化相应的好处。

通道增强

虽然芯片到芯片互连由几个关键组件组成,其中许多是由系统架构师负责的,但JEDEC标准中定义的一个关键通道组件是DRAM封装的球网格阵列(BGA)的球分配。球的分配不仅会影响DRAM封装内的信号完整性,而且还会促进或阻碍主PCB通道的路由。这是因为球栅中信号的相对接近性通过垂直通孔过渡到平面路由层扩展到PCB,这可能是PCB基板内100微米深。

球栅通常代表通道所需信号完整性、模具物理层(PHY)的空间要求、更大的模具架构和成本之间的妥协。球栅应该限制垂直互连中不需要的信号耦合(串扰),同时促进信号的干净路由,包括足够和一致的信号返回路径到硅界面的最佳位置。

图2

图2:GDDR5X和GDDR6的jedec指定的BGA球分配的比较(左上象限,仅单字节)

图2比较了jedec指定的GDDR5X和GDDR6包球分配的左上象限;四个象限中的每一个都支持一个字节的数据线。虽然没有以这种格式显示,但从GDDR5X到GDDR6的过渡包括球距从0.65mm到0.75mm的轻微增加。另一方面,如图所示,新定义的GDDR6 ballout通过从包的中心(列2)延伸到第四列,将高速数据信号球分布在网格内更大的区域,从而带来几个优点。例如,VSS球在球矩阵中更均匀地分布,从而获得更好的信号返回。数据线和更关键的WCK线之间的耦合以及数据和EDC引脚之间的耦合都减少了。封装中单向(WCK、EDC等)和双向(DQ、DBI等)信号的接近性在DRAM读写操作期间产生了不同的耦合条件,值得仔细分析。

对GDDR5X和GDDR6定义中最坏情况数据球位置的定性评估表明,GDDR5X情况下的DQ3信号将经历来自DQ0、DQ1、DQ2和WCK的远端串扰(FEXT),来自EDC信号的更有害的近端串扰(NEXT)。(NEXT预计将是一个更大的问题,因为大部分FEXT将通过高速信号的带状线路由得到缓解。)

在GDDR6的情况下,DQ2信号经历了来自DQ0、DQ1和DQ3的FEXT和来自EDC的NEXT。因此,高速时钟在空间上与单端数据线分离。此外,至少有一个攻击者已经从EDC球附近移除,这进一步增加了接口的稳健性。当然,这个定性的讨论并没有考虑到通道远端(GPU)的引脚分配,但是GDDR6 DRAM包的滚出至少促进了芯片之间更清晰的通道路由。

图3

图3:GDDR5X和GDDR6 DRAM封装的串扰比较。

图3通过在最坏情况下的DQ线(左)、GDDR5X的DQ3和GDDR6的DQ2上显示DRAM包内的串扰之和,以及EDC线上的所有串扰之和(右),为耦合的定性讨论添加了一些数据。这两种情况都假设有一个DRAM写操作,因此,除EDC外,所有信号到感兴趣的DQ的远端耦合被求和,然后与左边图中EDC线的相应近端耦合结合。在右图中,所有信号到EDC线的近端耦合被累积。

虽然两个包模型都提取到40GHz,但GDDR5X提取占物理包的一半,而GDDR6提取只占包的一个象限,这可能有助于解释响应曲线“平滑度”的明显差异。然而,从图3的左侧可以清楚地看到,在GDDR6包中,对最坏情况DQ的累积耦合得到了改善,这与我们基于直觉的两种投球的比较一致。右边的EDC响应的改进可能不那么明显,但问题较少,因为规范允许EDC信号以半速率切换。

作为内存技术的开发商,美光并不经常钻研系统架构和设计的世界。然而,正如所有高速接口设计人员所知道的那样,在孤立地开发不同的组件包和主衬底连接时,很难产生优化的复合通道。因此,为了促进更好的DRAM封装和I/O特性,美光购买了最近的“现货”高速显卡来研究典型的DRAM到GPU的互连,作为通道优化研究的参考点(见图4)。这样的方法极大地提高了我们的建模信心,因为我们的假设(通道长度、间距、堆叠等)是通过商用技术证明的。

图4

图4:来自“现成”显卡的gpu - dram通道示例。

图5

图5:产生本文所有仿真结果的端到端通道模型。

也就是说,本文中共享的仿真结果都没有直接对应于所分析的显卡通道。相反,我们选择分享基于不同但合理假设的模拟结果。我们的端到端通道模型是对称的,假设在链路两端的DRAM包下面进行via转换,以及DRAM包路由/构造,如图5所示。

如图所示,通道被分割成段,以便对垂直互连和封装进行更精确的3D建模,而主PCB路由则由2D模型表示,以便灵活地研究通道长度、数据线宽度、路由间距、堆叠等的影响。信道的两端终止,取决于信令操作的方向,通过48Ω或60Ω到1.35V VDDQ电源。模盘上的寄生电容负载假定为通道两端的0.5pF。虽然已经为DRAM的输出和输入路径完成了无数晶体管级仿真,但本文中显示的所有仿真结果都是基于线性驱动器建模,以实现最坏情况模式条件[9]的快速峰值失真分析(PDA)。我们承认,通过线性建模无法完美地捕捉驱动器的不匹配的上拉/下拉特性,但我们仍然相信,基于内部建模相关性,这一假设不会显著改变论文的结果。

本文的目标是演示GDDR6中的带宽可伸缩性,图6展示了基线模型在14Gb/s和16Gb/s下的最坏情况数据眼开口处。值得注意的是,示例通道模型所基于的平台并不是为支持16Gb/s而设计的。因此,图6中所示的情况可能会超出预期性能的界限。然而,可以观察到,通过将可用的DFE功能集成到GDDR6中,该通道可以以14Gb/s的速度提供一个开放的眼睛。16 gb / s;然而,即使在均衡之后,接收到的数据眼也是完全关闭的。

图6

图6:基线通道模拟,使用可用的单点DFE,但没有任何其他通道增强。

那么可以采取哪些步骤在这个基本信道结构(例如,材料、距离、路由横截面等)上启用16Gb/s信令?有一种方法没有被纳入图6中产生眼的模型中,即众所周知的反钻通孔,以减轻组件封装以下垂直互连中的阻抗不连续和串扰。在模拟世界中,评估像背钻这样的过程对整体性能的影响是很简单的。

从通道脉冲响应可以了解到很多信息,如图7所示。首先是一些细节。为简单起见,所有基于pda的计算都是在样本基础上完成的,例如每单位间隔(UI) x个样本,而不是绝对时间。虽然显示的脉冲响应被标记为“伏特”和“样本”,但最终的眼测结果输出为绝对电压和时间。所有突出显示为红色的游标被1个UI (62.5ps)隔开,并被移动,使主游标与结果数据眼的中心对齐。虽然只有13个后游标显示,几个额外的游标被捕获,并包括在所有闭眼计算。必须选择游标的数量,以便不忽略脉冲尾部后面的扰动。对于高速图形信道来说尤其如此,由于信道相对无损,可能会支持由不完美的信道终止以及其他不连续引起的滞留反射。

图7

图7:无背钻和有背钻通道的脉冲响应对比。

图7比较了一条普通数据线的16Gb/s脉冲响应。从定性上看,背钻对信道响应有多种积极的影响。首先,它增加了主游标值(振幅),同时显著减少了前三个后游标。此外,它大大降低了分散在后游标8-13上的信号反射的幅度。仅基于前游标和前13个后游标的叠加,PDA显示的垂直眼开口分别为428.16mV和269.65mV,有后钻和没有后钻。虽然人们可能期望269.65mV能够提供足够的裕度,但在存在串扰的情况下,图5右侧所示的闭合数据眼并不一定令人惊讶,即使是使用DFE。



为了验证关于在信道上观察到的串扰程度的最后一种说法,图8比较了有和没有攻击者(例如,字节中所有剩余的DQ行,以及EDC和DBI信号)的不均衡背钻情况。基于此模拟,在两个通道环境的清洁器(如背钻)中,预计约有238mV的串扰。在没有背钻的情况下,预计会有更多的串扰。因此,本文的目标是演示实现16Gb/s的实际路径,所有剩余的模拟都假设在PCB中反钻通孔作为其他实现步骤(包括均衡)的基础。

图8

图8:仅16Gb/s - ISI的模拟数据眼开口(左),以及来自剩余高速数据线、EDC和DBI信号的附加串扰(右)。

根据对图7右侧原始脉冲响应的进一步回顾,一个实用的、节能的均衡器解决方案可能只需要解决1光标。GDDR6 I/O在输出驱动程序中集成了可调的单点去重音,在输入路径中集成了可调的单点DFE,两者都设计为在1上操作光标。

图9比较了可用的去强调和DFE的相对有效性。如图所示,去强调使眼高提高了6mV,而眼宽降低了1ps。另一方面,DFE在不降低眼宽的情况下提高了65mV的眼高。值得注意的是,所显示的结果是特定于信道的,不足以对任何一种均衡方法的相对值进行普遍评估,尽管在比较相应的脉冲响应时可以进行一些定性观察,如图10所示。

图9

图9:16Gb/s的模拟数据眼开口-无均衡(左),单点去强调(中)和单点DFE(右)。

如图10所示,基于去强调的均衡(绿色和蓝色曲线)降低了信号的整体振幅,同时降低了1光标。因此,去强调的最佳量对应于信号幅度和ISI抵消之间的平衡。对于所考虑的通道,3dB的去强调(蓝色曲线)几乎减少了1将光标移至零,然而,如所示,只需1dB的去强调(绿色曲线),就可以打开更大的眼睛。这是因为3dB的去强调并没有留下足够的主光标来提供一个净增加的眼睛睁开,而1dB的去强调,在另一方面,导致6mV的净正。

直观上,因为DFE将1归零在不降低信号振幅的情况下,可以期望更好的整体结果,如图9所示。图10中捕捉到的另一个细微差别是去强调,而主要处理1后游标,可能会影响其他后游标或好或坏。在这个例子中,2nd后游标会因去强调而略微降级,而DFE则不会发生这种行为。然而,在不同的渠道条件下,去强调可能会影响到更多的问题,可能会产生更好的结果。

图10

图10:通道脉冲响应叠加比较各种均衡方法。

图11给出了另外两个均衡条件。如左图所示,当将“最佳”去强调量即1dB与相应优化的DFE相结合时(取消剩余的1后游标ISI),得到的眼比单独应用DFE得到的眼要小(见图9右侧)。这是因为去强调不必要地降低了信号幅度,而DFE没有提供增益来补偿这种减少。

图11右侧的眼图,对应3dB的去强调,也很有趣。回顾图10的脉冲响应,即使3dB的去强调几乎可以完美地将1归零后游标,产生的眼睛高度保持相同的非均衡情况(而时间降低3ps)。将这只眼与图9中原始的非均衡眼进行比较,可以发现ISI确实由于去强调而降低了,但总体信号幅度降低了类似的量(至少在考虑了所有的串扰和反射时是这样)。


图11

图11:16Gb/s的模拟数据眼开口-联合去强调和DFE(左)和更强的(3dB)去强调(右)。

这里有两个关于均衡的最后观察结果。值得注意的是,本文所述的均衡方法都没有提高眼宽。因此,应尽一切努力尽量减少这些高速并行互连的串扰。同样重要的是,要理解虽然可以在此应用程序中使用其他均衡方法,但JEDEC GDDR6规范并没有明确地调用这些方法,因此这里不进行评估。尽管如此,DFE的1-tap,加上PCB过孔的后钻孔,似乎足以支持16Gb/s信令。

GDDR6性能测量

由于通过将模拟与测量结果相补充通常有助于增加信心,因此分享了基于at的美光第一个GDDR6产品的特性,从图12开始,它比较了在16Gb/s和16.5Gb/s下的测量链路裕度,基于滑动DRAM和测试仪参考电压以及相对于数据时钟和频闪灯的数据相位。绿色点和红色点分别区分无错误操作和检测错误。如图所示,GDDR6对更强的48Ω终止的支持有望提高信号裕度,特别是在更高的速度下。

图12

图12:60Ω和48Ω线路终止时,在16Gb/s/pin和16.5 Gb/s/pin处测量的链路裕度shmoos。

图13从两个角度展示了DFE的影响。首先,最大可达到的数据速率(x轴),由商定的开眼程度(高度和宽度)决定,与不断增加的DFE补偿量(y轴)相对应。至少有两个关键的结论。首先,观察到,尽管测试环境相对干净,但在优化DFE系数选择方面有明显的好处,高于或低于该系数,最大可达到的数据率将降低。其次,16Gb/s几乎可以在没有DFE的情况下实现,因此均衡增加了接口的裕度和可靠性。

图13

图13:在三种DFE设置下测量的可达到的数据速率shmoo(左)和相应的链接边际shmoos:无均衡(右下)、最佳DFE(中右)和最大DFE(右上)。

为了进行更深入的比较,图的右侧显示了三个测量的链路边缘shmoos,分别对应于无均衡、最佳DFE设置和最大(非最佳)DFE。有趣的是,未优化的最大DFE设置并没有显著降低结果,但最优设置显然代表了最佳解决方案,就对称性和整体眼睛高度而言。图14展示了启用去强调的影响。基于这些结果,去强调似乎在ATE通道上提供了实质性的好处。

图14

图14:在没有和启用一次点击去强调的情况下,测量的链接边距shmoos为16Gb/s。

图15

图15:基于PRBS6模式测量的20Gb/s数据眼

虽然前面的结果展示了高达16.5Gb/s的完整DRAM功能,但一个架构的整体性能可能会受到内存阵列本身的时间限制。为了确定这个GDDR6接口是否可以扩展到16.5Gb/s范围之外,设备被置于一种只执行I/O而绕过内存阵列的操作模式。图15所示的示波器测量结果证实,当绕过内存阵列时,通过一个小但有用的I/O电源电压的提升,可以将美光的GDDR6 I/O推到高达20Gb/s。

总结

随着计算系统的不断发展,它们的效率通常取决于内存的可访问性。虽然一些高端应用程序可以吸收HBM的高成本和复杂性,但GDDR DRAM的性能继续扩展,提供了一种更灵活、低风险、具有成本效益的替代方案。通过回顾GDDR5X和基于ate的美光第一款GDDR6产品的测量现状,以及已知的电路和通道增强(即改进的DRAM封装球出定义,具有更宽松的pitch和通过PCB内回钻孔),我们有信心地宣称GDDR6数据速率将超越JEDEC定义的14Gb/s/引脚目标,一直延伸到16Gb/s/引脚。因此,GDDR6对未来几代人来说似乎是一个有吸引力的赞美。

这篇文章是一个编辑版本的DesignCon2018年最佳论文奖得主。
在这里下载全文

引用:

[1] S. J. Bae等人,"60nm 6Gb/s/pin GDDR5图形DRAM,具有多面时钟和ISI/ ssl减少技术ISSCC-2008,第278-613页。

[2] H. Y. Joo等人,”20nm 9Gb/s/pin 8Gb GDDR5 DRAM, NBTI监控器,抖动减少技术和改进的功率分配ISSCC-2016,第314-315页。

D. U. Lee等人"1.2V 8Gb 8通道128GB/s高带宽内存(HBM)堆叠DRAM,采用29nm工艺和TSV有效的微碰撞I/O测试方法ISSCC-2014,第432-433页。

[4] M. Brox等人,"8Gb 12Gb/s/pin GDDR5X DRAM高性价比高性能应用, ISSCC-2017,第388-389页。

NVIDIA TITAN Xp -设计与可视化,https://www.nvidia.com/en-us/design-visualization/products/titan-xp/, 2017年11月3日访问

t·m·霍利斯。”高速内存应用中的数据总线反转”,IEEE电路与系统汇刊2:简要摘要第56卷,no。2009年4月4日。

[7] R. Kho等人"75nm 7gb /s/pin 1gb GDDR5图形存储设备,具有带宽改进技术,《IEEE固态电路杂志》,120-133页,2010年1月。

[8] A. Shiloy,“GDDR5X标准由JEDEC最终确定:新的图形内存高达14 Gbps,”2016年1月22日,https://www.anandtech.com/show/9883/gddr5x-standard-jedec-new-gpu-memory-14-gbps, 2017年11月3日访问。

b·k·卡斯珀、m·海考克和r·穆尼,”多gb /s芯片对芯片信令方案的一种准确高效的分析方法”,2002超大规模集成电路研讨会。技术论文文摘(Cat。No.02CH37302)《美国,檀香山,2002》,第54-57页。

Baidu
map