为了验证关于在信道上观察到的串扰程度的最后一种说法,图8比较了有和没有攻击者(例如,字节中所有剩余的DQ行,以及EDC和DBI信号)的不均衡背钻情况。基于此模拟,在两个通道环境的清洁器(如背钻)中,预计约有238mV的串扰。在没有背钻的情况下,预计会有更多的串扰。因此,本文的目标是演示实现16Gb/s的实际路径,所有剩余的模拟都假设在PCB中反钻通孔作为其他实现步骤(包括均衡)的基础。

图8

图8:仅16Gb/s - ISI的模拟数据眼开口(左),以及来自剩余高速数据线、EDC和DBI信号的附加串扰(右)。

根据对图7右侧原始脉冲响应的进一步回顾,一个实用的、节能的均衡器解决方案可能只需要解决1光标。GDDR6 I/O在输出驱动程序中集成了可调的单点去重音,在输入路径中集成了可调的单点DFE,两者都设计为在1上操作光标。

图9比较了可用的去强调和DFE的相对有效性。如图所示,去强调使眼高提高了6mV,而眼宽降低了1ps。另一方面,DFE在不降低眼宽的情况下提高了65mV的眼高。值得注意的是,所显示的结果是特定于信道的,不足以对任何一种均衡方法的相对值进行普遍评估,尽管在比较相应的脉冲响应时可以进行一些定性观察,如图10所示。

图9

图9:16Gb/s的模拟数据眼开口-无均衡(左),单点去强调(中)和单点DFE(右)。

如图10所示,基于去强调的均衡(绿色和蓝色曲线)降低了信号的整体振幅,同时降低了1光标。因此,去强调的最佳量对应于信号幅度和ISI抵消之间的平衡。对于所考虑的通道,3dB的去强调(蓝色曲线)几乎减少了1将光标移至零,然而,如所示,只需1dB的去强调(绿色曲线),就可以打开更大的眼睛。这是因为3dB的去强调并没有留下足够的主光标来提供一个净增加的眼睛睁开,而1dB的去强调,在另一方面,导致6mV的净正。

直观上,因为DFE将1归零在不降低信号振幅的情况下,可以期望更好的整体结果,如图9所示。图10中捕捉到的另一个细微差别是去强调,而主要处理1后游标,可能会影响其他后游标或好或坏。在这个例子中,2nd后游标会因去强调而略微降级,而DFE则不会发生这种行为。然而,在不同的渠道条件下,去强调可能会影响到更多的问题,可能会产生更好的结果。

图10

图10:通道脉冲响应叠加比较各种均衡方法。

图11给出了另外两个均衡条件。如左图所示,当将“最佳”去强调量即1dB与相应优化的DFE相结合时(取消剩余的1后游标ISI),得到的眼比单独应用DFE得到的眼要小(见图9右侧)。这是因为去强调不必要地降低了信号幅度,而DFE没有提供增益来补偿这种减少。

图11右侧的眼图,对应3dB的去强调,也很有趣。回顾图10的脉冲响应,即使3dB的去强调几乎可以完美地将1归零后游标,产生的眼睛高度保持相同的非均衡情况(而时间降低3ps)。将这只眼与图9中原始的非均衡眼进行比较,可以发现ISI确实由于去强调而降低了,但总体信号幅度降低了类似的量(至少在考虑了所有的串扰和反射时是这样)。


图11

图11:16Gb/s的模拟数据眼开口-联合去强调和DFE(左)和更强的(3dB)去强调(右)。

这里有两个关于均衡的最后观察结果。值得注意的是,本文所述的均衡方法都没有提高眼宽。因此,应尽一切努力尽量减少这些高速并行互连的串扰。同样重要的是,要理解虽然可以在此应用程序中使用其他均衡方法,但JEDEC GDDR6规范并没有明确地调用这些方法,因此这里不进行评估。尽管如此,DFE的1-tap,加上PCB过孔的后钻孔,似乎足以支持16Gb/s信令。

GDDR6性能测量

由于通过将模拟与测量结果相补充通常有助于增加信心,因此分享了基于at的美光第一个GDDR6产品的特性,从图12开始,它比较了在16Gb/s和16.5Gb/s下的测量链路裕度,基于滑动DRAM和测试仪参考电压以及相对于数据时钟和频闪灯的数据相位。绿色点和红色点分别区分无错误操作和检测错误。如图所示,GDDR6对更强的48Ω终止的支持有望提高信号裕度,特别是在更高的速度下。

图12

图12:60Ω和48Ω线路终止时,在16Gb/s/pin和16.5 Gb/s/pin处测量的链路裕度shmoos。

图13从两个角度展示了DFE的影响。首先,最大可达到的数据速率(x轴),由商定的开眼程度(高度和宽度)决定,与不断增加的DFE补偿量(y轴)相对应。至少有两个关键的结论。首先,观察到,尽管测试环境相对干净,但在优化DFE系数选择方面有明显的好处,高于或低于该系数,最大可达到的数据率将降低。其次,16Gb/s几乎可以在没有DFE的情况下实现,因此均衡增加了接口的裕度和可靠性。

图13

图13:在三种DFE设置下测量的可达到的数据速率shmoo(左)和相应的链接边际shmoos:无均衡(右下)、最佳DFE(中右)和最大DFE(右上)。

为了进行更深入的比较,图的右侧显示了三个测量的链路边缘shmoos,分别对应于无均衡、最佳DFE设置和最大(非最佳)DFE。有趣的是,未优化的最大DFE设置并没有显著降低结果,但最优设置显然代表了最佳解决方案,就对称性和整体眼睛高度而言。图14展示了启用去强调的影响。基于这些结果,去强调似乎在ATE通道上提供了实质性的好处。

图14

图14:在没有和启用一次点击去强调的情况下,测量的链接边距shmoos为16Gb/s。

图15

图15:基于PRBS6模式测量的20Gb/s数据眼

虽然前面的结果展示了高达16.5Gb/s的完整DRAM功能,但一个架构的整体性能可能会受到内存阵列本身的时间限制。为了确定这个GDDR6接口是否可以扩展到16.5Gb/s范围之外,设备被置于一种只执行I/O而绕过内存阵列的操作模式。图15所示的示波器测量结果证实,当绕过内存阵列时,通过一个小但有用的I/O电源电压的提升,可以将美光的GDDR6 I/O推到高达20Gb/s。

总结

随着计算系统的不断发展,它们的效率通常取决于内存的可访问性。虽然一些高端应用程序可以吸收HBM的高成本和复杂性,但GDDR DRAM的性能继续扩展,提供了一种更灵活、低风险、具有成本效益的替代方案。通过回顾GDDR5X和基于ate的美光第一款GDDR6产品的测量现状,以及已知的电路和通道增强(即改进的DRAM封装球出定义,具有更宽松的pitch和通过PCB内回钻孔),我们有信心地宣称GDDR6数据速率将超越JEDEC定义的14Gb/s/引脚目标,一直延伸到16Gb/s/引脚。因此,GDDR6对未来几代人来说似乎是一个有吸引力的赞美。

这篇文章是一个编辑版本的DesignCon2018年最佳论文奖得主。
在这里下载全文

引用:

[1] S. J. Bae等人,"60nm 6Gb/s/pin GDDR5图形DRAM,具有多面时钟和ISI/ ssl减少技术ISSCC-2008,第278-613页。

[2] H. Y. Joo等人,”20nm 9Gb/s/pin 8Gb GDDR5 DRAM, NBTI监控器,抖动减少技术和改进的功率分配ISSCC-2016,第314-315页。

D. U. Lee等人"1.2V 8Gb 8通道128GB/s高带宽内存(HBM)堆叠DRAM,采用29nm工艺和TSV有效的微碰撞I/O测试方法ISSCC-2014,第432-433页。

[4] M. Brox等人,"8Gb 12Gb/s/pin GDDR5X DRAM高性价比高性能应用, ISSCC-2017,第388-389页。

NVIDIA TITAN Xp -设计与可视化,https://www.nvidia.com/en-us/design-visualization/products/titan-xp/, 2017年11月3日访问

t·m·霍利斯。”高速内存应用中的数据总线反转”,IEEE电路与系统汇刊2:简要摘要第56卷,no。2009年4月4日。

[7] R. Kho等人"75nm 7gb /s/pin 1gb GDDR5图形存储设备,具有带宽改进技术,《IEEE固态电路杂志》,120-133页,2010年1月。

[8] A. Shiloy,“GDDR5X标准由JEDEC最终确定:新的图形内存高达14 Gbps,”2016年1月22日,https://www.anandtech.com/show/9883/gddr5x-standard-jedec-new-gpu-memory-14-gbps, 2017年11月3日访问。

b·k·卡斯珀、m·海考克和r·穆尼,”多gb /s芯片对芯片信令方案的一种准确高效的分析方法,"2002超大规模集成电路研讨会。技术论文文摘(Cat。No.02CH37302)《美国,檀香山,2002》,第54-57页。