GDDR5已经成为需要高系统带宽的应用程序(如显卡、游戏机和高性能计算系统)的领先DRAM接口。然而,新应用程序的需求会驱动更高的内存带宽。本文讨论了GDDR6作为与其他高带宽内存解决方案相比风险更低、成本更低的解决方案的发展。我们进一步介绍了GDDR6,因为它提供了比GDDR5增加两倍的单脚带宽,同时保持了与现有GDDR5生态系统的兼容性。我们将通过测量来讨论和验证电路和通道性能的扩展,以展示将GDDR6扩展到16Gb/s的潜力。

近10年来,GDDR5一直是高性能应用程序的推动者。虽然第一代设备的数据速率为6gb /s/pin[1],但今天,市场上已经可以很容易地买到达到8gb /s/pin的卡片。然而,即使是号称最快的GDDR5也只能以9gb /s/pin[2]的速度运行,这勉强超过市面上已有的部件的速度。因此,尽管GDDR5取得了成功,但需要解决带宽扩展速度明显放缓的问题。为了抢占市场带宽需求和可用内存组件性能之间不可避免的差距,业界采取了两条并行路径。

一种方法是开发一种全新的内存体系结构,该体系结构被命名为高带宽内存(HBM)[3]。认识到内存接口性能主要受到较慢的DRAM晶体管过程以及芯片到芯片互连的限制,HBM选择通过采用非常宽的(许多线)接口来完全重新定义这个问题,从而允许DRAM输入/输出(I/O)电路在DRAM过程能力范围内良好地运行。然而,这种重新定义需要对支持技术进行实质性的增强,即依赖硅中间层和通硅通硅(TSV)技术来将GPU/ASIC与DRAM耦合。

HBM,正如它所定义的那样,包括一个tsv互连的dram堆栈,它位于一个逻辑缓冲模上,通过一个基于细间距Si间置位的通道与GPU/ASIC通信,每个引脚的数据速率相对较低。虽然HBM体系结构提供了许多优点,但它的复杂性(在可测试性、稳定性、持久性和总体成本方面)限制了它的采用仅限于最高级别的应用程序。

与HBM的发展并行的是,GDDR dram家族的更进化的路径继续在性能上扩展,提供了一种更经济、更灵活的替代方案。在不重新定义系统的情况下,GDDR5X通过内部数据路径和时钟增强[4]直接解决了关键带宽限制因素,从而在对成本更敏感的应用程序(游戏等)中提供了风险更低的采用。目前市场上发现的GDDR5X每引脚数据速率高达11.4 Gb/s[5]。

即使GDDR5X继续进行渐进式改进,GDDR路径上的下一个自然步骤是开发一个能够支持单针数据速率翻倍于GDDR5的GDDR6标准。目前,官方的GDDR6 JEDEC标准涵盖了12到14Gb/s的范围,但在本文中,我们将演示GDDR6的可伸缩性,至少可以达到16Gb/s/pin。本文的其余部分分为三个主要部分:硅的变化(例如,电路和架构)和支持将单端GDDR接口一直扩展到16Gb/s所需的通道增强,以及美光第一个8Gb、16Gb/s/引脚GDDR6产品的性能测量。

硅的变化

美光的第一个GDDR6模具如图1所示。虽然需要对电路和架构进行更改以实现新的带宽目标,但GDDR6组件定义的一个主要目标是保持接近演化路径,从而利用先进的GDDR5和GDDR5X基础设施,包括已建立的打包、处理和测试方法。因此,像通用命令协议这样的外部特性从以前的标准中保留了下来。

图1

图1:美光第一个8Gb, 16Gb/s能力的GDDR6产品的模具照片

就系统应用而言,最突出的新特性是增加了对双通道(2 x16)操作的支持。另一个变化,对系统可见,是支持更强的模上终止和输出驱动器拉上强度48Ω。虽然输出驱动程序保持一定程度的不对称(60Ω/40Ω或48Ω/40Ω),但对48Ω的支持改善了信号对称性,同时提供了与封装+印刷电路板(PCB)通道的典型特征阻抗更好的匹配,以增强信号完整性。

除了这些更改,以及与锁相环(PLL)操作和时钟灵活性相关的一些规范扩展,GDDR6的速度是通过GDDR代的几次增量改进积累而实现的。数据总线反转(DBI)早在GDDR4中就被引入,并被证明在降低信令功率[6]的同时有效地减轻了同时交换输出(SSO)噪声。用于通道减值补偿的决策反馈均衡(DFE),用于抖动滤波的锁相环,在高速写时钟(WCK)分布中最小化电源诱发抖动(PSIJ)的稳压电源都包含在早期GDDR5设计[1]中。输出驱动增压(类似于预强调)被纳入到GDDR5中,以打开数据眼,随着速度的继续推进,同时,创新的内部操作模式,如电荷泵的频率控制开关(FCS),用于设置整个DRAM的不同电压水平,被证明有助于减少内部供电变化,以提高数据路径[7]的稳定性。占空比校正和输入时钟均衡,以及电感电容(LC)谐振时钟树终端和更普遍使用的电流模式逻辑(CML)电路设计,通过减少DRAM时钟分布[2]中的抖动,实现了更高的速度。

为了克服DRAM阵列计时的限制,GDDR5X将数据预取加倍,在每次数据访问时增加提供给输出驱动程序的比特数。为了在不增加内存系统时钟频率的情况下将DRAM的数据率提高一倍,GDDR5X支持双数据速率(DDR)和四数据速率(QDR)两种操作模式。DRAM上的锁相环提供一定程度的抖动滤波,同时可以用作QDR模式下的WCK倍频器,尽管GDDR6 JEDEC规范提供了锁相环使用的灵活性,支持在没有锁相环的情况下高速运行。

为了提高从存储器读取数据时的信号完整性,在输出驱动结构中加入了可调的去强调;这是一个非平凡的设计,由于在不平衡的上拉/下拉驱动强度定义中固有的不对称。此外,为了保证更健壮的接口,接口时序和电压裕度的日益复杂和精确的训练和校准已成为必不可少的[8],并且,根据需要,GDDR5和以上支持数据总线的单脚去斜。最后,为了确保在芯片到芯片的通信过程中不引入错误,循环冗余校验(CRC)计算的结果通过错误检测码(EDC)引脚以一半的数据速率从DRAM传输到GPU/ASIC[4,7]。几乎所有这些在GDDR历史上发展或采用的增量进步都在GDDR6体系结构中找到了自己的位置,在本文后面的部分中,将通过描述美光的GDDR6硅来量化相应的好处。

通道增强

虽然芯片对芯片互连由几个关键组件组成,其中许多是系统架构师的职责,但JEDEC标准中定义的一个关键通道组件是DRAM包的球网格阵列(BGA)的球分配。球分配不仅影响DRAM包内的信号完整性,而且它可以促进或阻碍主PCB通道的路由。这是因为球栅中信号的相对接近性通过垂直通道过渡到平面路由层扩展到PCB,这可能在PCB基板中有100微米深。

球格通常代表了通道所需的信号完整性、模具物理层(PHY)的空间要求、更大的模具结构和成本之间的妥协。球栅应该限制垂直互连中不需要的信号耦合(串扰),同时促进信号的清晰路由,包括足够和一致的信号返回路径到硅接口的最佳位置。

图2

图2:GDDR5X和GDDR6的jedec指定的BGA球分配的比较(左上象限,仅单字节)

图2比较了jedec指定的GDDR5X和GDDR6包球分配的左上象限;四个象限中的每一个都支持一个字节的数据线。虽然没有在这个格式中显示,但从GDDR5X到GDDR6的转换包括球的间距从0.65mm轻微增加到0.75mm。另一方面,如所示,新定义的GDDR6输出通过从包的中心(第2列)延伸到第四列,将高速数据信号球分布在网格内更大的区域,从而带来几个优点。例如,VSS球在球矩阵中分布更均匀,从而产生更好的信号返回。减少了数据线和更关键的WCK线之间的耦合,以及数据和EDC引脚之间的耦合。在DRAM读写操作过程中,包中单向(WCK, EDC等)和双向(DQ, DBI等)信号的接近性产生了不同的耦合条件,值得仔细分析。

对GDDR5X和GDDR6定义中最坏情况数据球位置的定性评估表明,GDDR5X中的DQ3信号将经历来自DQ0、DQ1、DQ2和WCK的远端串扰(FEXT),以及来自EDC信号的更有害的近端串扰(NEXT)。(NEXT预计将是一个更大的问题,因为通过高速信号的带状线路路由,大部分的FEXT将得到缓解。)

在GDDR6的情况下,DQ2信号经历来自DQ0的FEXT, DQ1和DQ3,以及来自EDC的NEXT。因此,高速时钟在空间上与单端数据线分离。此外,至少有一个攻击器已经从EDC球附近移除,这进一步增加了接口的鲁棒性。当然,这个定性的讨论没有考虑到通道远端(GPU)的引脚分配,但GDDR6 DRAM封装至少促进了芯片之间更干净的通道路由。

图3

图3:GDDR5X和GDDR6 DRAM包中的串扰比较。

图3通过在最坏情况下的DQ线(左)、GDDR5X的DQ3和GDDR6的DQ2以及EDC线上的所有串扰的和(右),为耦合的定性讨论添加了一些数据。在这两种情况下都假定有一个DRAM写操作,因此从所有信号到相关DQ的远端耦合(EDC除外)被相加,然后与来自左侧图中EDC线的相应近端耦合相结合。在右边的图中,从所有信号到EDC线上的近端耦合是累积的。

虽然两个包模型都提取到40GHz,但GDDR5X提取占物理包的一半,而GDDR6提取只占包的一个象限,这可能有助于解释响应曲线在“平滑度”上的明显差异。但是,从图3的左侧可以清楚地看到,GDDR6包中对最坏情况DQ的累积耦合得到了改进,这与我们基于直觉的两个输出比较一致。右边的EDC响应的改进可能不是很清楚,但问题不大,因为规范允许EDC信号以半速率切换。

作为一个内存技术的开发者,美光并不经常钻研系统架构和设计的世界。然而,正如所有高速接口设计人员所知,在独立开发不同组件包和主衬底连接时,很难产生优化的复合通道。因此,为了促进更好的DRAM封装和I/O特性,美光最近购买了“现成的”高速显卡来研究典型的DRAM到GPU互连,作为通道优化研究的参考点(见图4)。这样的方法极大地提高了我们的建模信心,因为我们的假设(通道长度、间距、堆叠等)通过商业可用的技术得到了证明。

图4

图4:“现成”显卡的示例图形处理器到动态随机存储器通道。

图5

图5:产生本文所有仿真结果的端到端通道模型。

也就是说,本文共享的仿真结果没有一个直接对应于分析的显卡通道。相反,我们选择分享基于不同但合理假设的模拟结果。我们的端到端通道模型是对称的,假设在链路两端的DRAM包下面有via转换,以及DRAM包路由/构造,如图5所示。

如图所示,通道被分割成段,以便对垂直互连和封装进行更精确的3D建模,而主要PCB路由则用2D模型表示,以便灵活地研究通道长度、数据线宽度、路由间距、堆叠等因素的影响。根据信令操作的方向,通道的两端都被终止,通过48Ω或60Ω到1.35V VDDQ电源。假定模垫处的寄生电容负载为通道两端的0.5pF。虽然已经完成了对DRAM的输出和输入路径的无数晶体管级模拟,但本文中显示的所有模拟结果都是基于线性驱动建模,以实现最坏情况模式条件[9]的快速峰值失真分析(PDA)。我们承认,驱动程序不匹配的上拉/下拉特性无法通过线性建模完美捕捉,但基于内部建模相关性,我们仍然有信心,这一假设不会显著改变本文的结果。

由于本文的目标是演示GDDR6中的带宽可伸缩性,图6展示了基线模型在14Gb/s和16Gb/s时的最坏情况数据眼开口。值得注意的是,示例通道模型所基于的平台并不是为支持16Gb/s而设计的。因此,图6所示的情况可能超出了预期的性能边界。然而,可以观察到,通过将可用的DFE功能合并到GDDR6中,该通道以14Gb/s的速度提供睁眼。16 gb / s;然而,接收到的数据眼是完全关闭的,即使在均衡化之后。

图6

图6:基线信道模拟使用可用的单点DFE,但没有任何其他信道增强。

那么可以采取什么步骤在这个基本通道结构上启用16Gb/s信令(例如,材料、距离、路由截面等)?一种选择(没有被纳入图6中眼的模型中)是著名的通孔回钻,以减轻组件封装下方垂直互连处的阻抗不连续和串扰。在模拟世界中,很容易评估回钻等过程对整体性能的影响。

从通道脉冲响应可以了解到很多信息,如图7所示。首先是一些细节。为了简单起见,所有基于pda的计算都是在样本基础上完成的,例如每个单位间隔(UI)有x个样本,而不是在绝对时间上。虽然显示的脉冲响应标记为“伏特”和“样本”,但最终的眼测结果输出为绝对电压和时间。所有用红色高亮显示的游标都被1个UI (62.5ps)隔开,并被移动,使主游标与结果数据眼的中心对齐。虽然只显示了13个后游标,但捕获了几个附加游标,并包括在所有闭眼计算中。必须选择游标的数量,以避免忽略脉冲尾部后面的扰动。这对于高速图形通道来说尤其如此,因为它相对而言是无损的,因此可能支持由不完美的通道终止所导致的余波反射,以及其他不连续。

图7

图7:无通径回钻和有通径回钻的通道脉冲响应对比。

图7比较了使用和不使用回钻的普通数据线的16Gb/s脉冲响应。定性地看,回钻对信道响应有多种积极的影响。首先,它增加了主游标值(振幅),同时显著减少了前三个后游标。此外,它大大减少了分散在后标8-13上的信号反射的幅度。基于前光标和前13个后光标的叠加,PDA的垂直眼开口分别为428.16mV和269.65mV,有和没有回钻。虽然人们可能期望269.65mV能够提供足够的裕度,但在串音存在的情况下,图5右侧所示的数据眼关闭并不一定令人惊讶,即使使用了DFE。