编者注:这篇文章是基于一篇获得最佳论文奖的论文,最初在DesignCon 2020[1].
世界已经成为一个完全由数据驱动的社会。根据YouTube的使用统计,每分钟有400小时的视频上传到YouTube。此外,YouTube上每天有超过10亿小时的视频被观看。对于所有这些数据,需要一种方法来快速存储和处理它们,从而使内存和快速存储解决方案成为计算的基本功能的中心。DDR DRAM设备的最高速度带来了大量的信号完整性和功率完整性问题,如果设计人员不系统地解决这些问题,就会将边际、性能和可靠性留在桌面上。综上所述,无论是数据中心、服务器还是工作站,内存通道已经成为计算机系统的瓶颈。当DDR5的预期数据速率接近6400 MT/s时,这将变得更加明显。随着DDR数据传输速率的不断提高,DDR信道的信号完整性已成为最关键的问题之一。
随着PCB密度的不断提高而变得更加复杂,这推动了PCB堆叠中用于确保设计中的所有信号都有效路由的层数的增加。具有长存根的厚PCB过孔会在通道中产生不必要的共振,而具有短存根或没有存根的过孔则不会。如果这些共振发生在比特率的奈奎斯特频率附近,它们将破坏接收器[3]上的睁眼。在本例中,对于DDR4-3200,奈奎斯特频率是1.6 GHz的时钟频率。
我们中的一些人可能熟悉的经验法则是,互连带宽(BW)应该是比特率奈奎斯特频率的5倍,以保持上升时间的完整性,下降到时钟周期[4]的7%。换句话说,DDR4通道的谐振频率应该比DDR4时钟频率大5倍才能保持信号。这将在稍后的结果展示后很重要。EQ(1)描述了这个经验法则。
地点:
RT: 10-90上升时间,nsec
BW:带宽(BW)基频的五次谐波积
f: Nyquist或时钟频率
T:奈奎斯特频率周期,相当于1/f
有各种各样的行业实践来避免通过存根问题,例如在特定层路由高速信号,减慢通道速度,在通道的其他部分进行设计权衡,使用高密度互连(HDI)制造技术,如盲或埋过孔,或使用回钻去除通过存根[11]。众所周知,HDI设计非常昂贵,在使用多插座平台实现更大pcb的企业市场中更是如此。HDI还受到PCB所能承受的有限数量的分层循环的限制,因此不可能完全消除多层PCB上的所有过孔存根。
回钻是一种广泛应用的技术,因为它是减小存根影响的有效方法。然而,对于密度较大的过孔,例如中央处理单元(CPU)和芯片组包下面的过孔场,或厚板上的存根长度变长,反钻变得很有挑战性。由于钻深公差和一些过孔的制造要求,例如压接连接器的过孔,回钻不能完全去除存根。一般来说,由于信号数量多,因此制造成本高,反钻通常不用于DDR应用。
这个问题
是什么推动了这些挑战?让我们考虑以下具有网络产品设计的设计场景。PCB有22层,总厚度超过100密耳。有多个10 Gbps以太网信号优先路由在顶层和内层,因为这些信号比DDR4-3200信号快三倍。此外,还有PCIe信号以及多个电源和接地网消耗宝贵的内层。该场景下,DDR4 (data) DQ信号在三层进行路由。因此,这为过存根创造了机会,极大地影响这些DDR信号的信号完整性。正如Keysight在DDR[5]上的应用说明中所迭代的那样,“随着数据传输速率的增加和信号幅度的减小,为了提高信号性能,时钟和频闪信号(DQS)是差分的,这抵消了共模噪声。其他信号,特别是数据(DQ)、地址(ADD)和控制(CTL)仍然以单端模式工作,这使它们更容易受到噪声、串扰和干扰。”DQ信号的数据速率是ADD和CTL信号的两倍,这使它们成为最关键的信号。 This raises the question, what is the maximum stub length (or discontinuity) allowed in the DDR4 channel?
建议的模型和设置
基于测试用例和本节定义的参数,使用Keysight PathWave ADS DDR总线模拟器模拟DDR4½字节通道。DDR总线模拟器允许模拟满足1x10的DQ接收器合规掩码-16年BER符合JEDEC DDR4规范。DDR总线模拟器具有统计模式和逐位模式。还有一个瞬时SPICE模拟器。这三种解决方案都会产生不对称的上升和下降边。唯一不这样做的模拟器类型是标准通道sim(在IBIS中称为参考流)。标准通道sim卡仅使用上升边来表征电气互连。在SerDes链路中,这就足够了,但对于DDR,单端信号需要DDR总线sim方法。瞬态SPICE开始变得不那么有趣,因为它无法在实际时间内预测到低BERs的眼睛闭上[6]。
DQ输入接收器符合性掩码定义了输入信号不能侵犯的区域,以便DRAM输入接收器能够成功捕获误码率为1x10的有效输入信号-16年;任何侵入Rx掩码的输入信号都属于无效数据[7]。在本文分析期间,将为所有误码率轮廓设置此参数。仿真结果仅包括部分串扰分量。此外,模拟结果不包括启用的任何DDR4均衡,这将补偿任何信道损耗影响。这项工作的目标是探索通道中的损失。
这项工作将基于下面定义的测试用例执行分析。下面的表1定义了三个测试用例中各自使用的公共变量。Jitter没有被注入到任何测试用例中,因为这本身就是另一种实验练习。因此,仿真中抖动的唯一来源是互连,所有抖动都是确定性的(DJ)。然而,重要的是要指出,在实际系统中,由于随机(RJ)和依赖数据的抖动(DDJ)也将包括在内,结果甚至会比所呈现的结果更糟。此外,在仿真中没有分析接收机模型去强调和连续时间线性均衡(CTLE)。从14L到28L创建了8个PCB堆叠,以改变DDR4通道中的通过存根长度,以确定最坏的情况。这些堆叠式设计可以在我的DesignCon 2020论文[1]中得到更详细的参考。此外,每个测试用例都提供了各自通道模型的描述以供参考。
模型的输入 |
变量的细节 |
笔记 |
信号 |
1/2 DDR4字节通道 |
DQ(握)DQS_P0 / DQS_N0 |
通道总长度 |
静态变量 |
从MEM CTR到DDR RCV的跟踪长度,在第3节中定义 |
跟踪宽度 |
静态变量 |
如第3节所定义,以满足各自路由层的阻抗要求 |
存根间距 |
静态变量 |
由第3节中的每个测试用例定义 |
通过结构 |
静态变量 |
如第3节所定义 |
温度 |
静态变量 |
标准25͒C温度将使用模拟模型 |
PCB层叠 |
12l, 14l, 16l, 18l, 20l, 22l, 24l, 26l, 28l |
堆叠决定存根的长度。重点工作包括将要分析的关键信号放在第3层,以最大化存根长度 |
PCB层压板 |
伊索拉FR408HR |
所有堆叠使用FR408HR。有关数据表链接,请参阅参考文献[10] |
RDIMM PCB堆叠 |
静态变量 |
基于JEDEC R/C的D1 PCB堆叠[8]。为每个测试用例演示的边缘仅应用特定的内存 |
DQ/DQS(回转速率)上升时间 |
静态变量 |
所使用的所有(回转速率)上升时间将是JEDEC标准中定义的DQ/DQS的最大值 |
控制器DRV阻抗(R在) |
静态变量- 40 Ω |
除非另有说明 |
串联电阻(R)年代) |
动态变量 |
每个测试用例将优化Rs以有效地调优通道 |
DIMM插座 |
静态变量 |
Amphenol DDR4 SMT连接器:MPN:10124677 [9] |
ODT价值 |
动态变量 |
为每个测试用例优化ODT值以优化通道 |
VDDQ |
静态变量- 1.2V |
更多细节请参考[7] |
模拟测试用例
对于本文,已经删除了测试用例#1。测试用例#1可以在[1]中引用。它主要用于建立一个基线与仿真模型,没有不连续作为通道的一部分。值得注意的是,所有测试用例的整个通道长度都是相同的937密耳。
测试用例#2的目标是提供静态总信道长度为3200 Mbps的信道仿真模型,信道中只包括过孔不连续。
对于所有定义的PCB堆叠,过孔结构如图1所示,过孔结构参数由表2定义。其目的是定义一个通孔结构,允许接近10:1的纵横比,通孔直径为10 mil,可以从14L堆叠到28L堆叠。因此,该工作的通孔结构参数被选择来实现10:1宽高比,基于中位PCB厚度约为100密耳。图2提供了点对点场景中带有通孔的DDR4数据信号模型的2D描述。图3提供了内存控制器和DDR4内存之间通道模型的2D描述。
钻头直径 |
10毫升 |
钻孔直径拼接 |
10毫升 |
垫直径 |
20毫升 |
通过衬垫直径进行拼接 |
20毫升 |
Anti-pad |
30毫升 |
L1进给宽度/长度 |
4 mil / 15 mil |
镀层厚度 |
2毫升 |
L3进给宽度/长度 |
5 mil /15 mil |
测试用例#2 |
||||
参数 |
L0 (CTL Breakout) |
L1 (mb pcb) |
L2 (L1到DRAM) |
单位 |
跟踪类型 |
微带- L1 |
带状线- L3 |
微带- L1 |
- |
DQ单端阻抗Z0 |
50 + / - 10% |
50 + / - 10% |
50 + / - 10% |
Ω |
差分阻抗ZDIFF |
100 + / - 10% |
100 + / - 10% |
100 + / - 10% |
Ω |
DQ迹宽(标称) |
4.0 |
5 |
4.0 |
密尔 |
DQS差分道宽/间距 |
4.0/15 |
4.5/15.0 |
4.0/15.0 |
密尔 |
跟踪长度 |
≤0.02 |
0.44 |
≤0.04 + 0.437 =0.477 |
在。 |
字节通道信号中的间距(最小值) |
15.0 |
15.0 |
15.0 |
密尔 |
最大PCB通径数 |
2个孔,每个孔有60密耳的饲料 |
- |
||
通道总长度 |
L0 + l1 + l2 = 0.937 |
在。 |
测试用例#3的目的是了解与测试用例#2中没有DIMM互连的相同长度的通道相比,DDR4-3200眼罩是否会在DDR4通道(包括过孔、DIMM PCB和DIMM连接器)中出现多个不连续。此外,这个测试用例的限制将被探索,以了解眼罩故障可能发生在DIMM互连作为DDR4通道的一部分。图4提供了带有通孔和DDR4 DIMM的DDR4数据信号模型的2D描绘。图5提供了内存控制器和DDR4 DIMM之间通道模型的2D描述。
图4 -测试用例#3 -每个通道单个DDR4 DIMM的2D模型描述
测试用例#3 |
||||||
参数 |
L0 (CTL突破) |
L1 (mb pcb) |
L2 (L1到DIMM CONN) |
Tl0 (d1个dimm) |
Tl1 (d1 dimm) |
单位 |
跟踪类型 |
微带- L1 |
带状线- L3 |
微带- L1 |
微带- L1 |
微带- L1 |
- |
DQ单端阻抗Z0 |
50 + / - 10% |
50 + / - 10% |
50 + / - 10% |
50 + / - 10% |
50 + / - 10% |
Ω |
差分阻抗ZDIFF |
100 + / - 10% |
100 + / - 10% |
100 + / - 10% |
85 + / - 15% |
85 + / - 15% |
Ω |
DQ迹宽(标称) |
4.0 |
5.0 |
4.0 |
6.0 |
6.0 |
密尔 |
DQS差分道宽/间距 |
4.0/15 |
4.5/15.0 |
4.0/15.0 |
5.5/4.0 |
5.5/4.0 |
密尔 |
跟踪长度 |
≤0.02 |
0.44 |
≤0.04 |
(dq) 0.11417 / (dqs) 0.125 |
(dq) 0.3228 / (dqs) 0.232 |
在。 |
字节通道信号中的间距(最小值) |
15.0 |
15.0 |
15.0 |
4.0 |
4.0 |
密尔 |
最大PCB通径数 |
2通过 |
DIMM上没有通孔 |
- |
|||
信道总长度(DQ) |
L0 + l1 + l2 = 0.5 |
Tl0 + tl1 = 0.437 |
在。 |
|||
信道总长度(DQ) |
L0 + L1 + L2 + 2*(Via feed) + TL0 + TL1 = 0.937 |
在。 |
美光拥有支持PC4-3200的DDR4 SDRAM RDIMM - 8GB (MPN: MTA9ASF1G72PZ)。该RDIMM为288针RDIMM (MO-309, R/C-D1格式)。R/C-D1 RDIMM由JEDEC标准[8]定义。可以在JEDEC标准[8]中引用的RDIMM DDR4 R/C D1制作表被用于创建ADS堆栈,可以在[1]图A.7中引用,该图被用作测试用例#3仿真模型的一部分。JEDEC RDIMM DQ信号的网络结构确实包括与RDIMM上的每个DQ信号一致的15R电阻。
模拟及结果
对于测试用例#2,下面所示的结果是在3200 Mbps调优通道后得到的最佳Rs和ODT值。各通道仿真结果见表5。如图6所示,在不启用均衡的情况下,满足DDR4-3200眼罩合规要求的最大存根长度为73.1 mil。
图6 -测试用例#2 - DQ[0-2] -数据速率= 3200 Mbps, MB = 18L PCB (73.1 mil存根),Rs = 25, ODT = 240,总通道长度= 937 mil
测试案例#2 - DQ0 DDR总线模拟结果@ BER 1E-16, Rs = 25Ω, ODT - 240Ω,数据率= 3200,总通道长度= 937 mil |
|||
存根长度(mil) |
通过Stub谐振频率Fo(GHz) |
PCB层叠 |
DDR4-3200眼罩违规(及格/不及格) |
52.7 |
19.39 |
14 l |
通过 |
62.9 |
15.625 |
16 l |
通过 |
73.1 |
14.271 |
18 l |
通过 |
83.3 |
12.143 |
20 l |
失败 |
92.1 |
11.429 |
22 l |
失败 |
104.1 |
10.238 |
24 l |
失败 |
114.3 |
9.2453 |
26 l |
失败 |
124.7 |
8.5714 |
28我 |
失败 |
对于测试用例#3,下面所示的结果是在3200 Mbps调优通道后得到的最佳Rs和ODT值。表6总结了测试用例#3的结果。由图7可知,即使DDR4通道使用最小可用存根长度52.7 mils,仍无法通过DDR4符合眼罩要求的3200 MT/s数据速率。因此,进一步的分析是将数据信号仅在顶层作为微带路由到DIMM互连。换句话说,DDR4信道中不包括通过存根。
根据图8所示的眼图结果,由于DIMM互连的不连续和损耗,这个只有DIMM互连的通道仍然不支持DDR4-3200数据速率。因此,通过分析,没有必要对其他PCB堆叠做任何进一步的分析,以使用更短的过孔存根。虽然进一步的分析可以探索替代DIMM互连解决方案。由于DDR4连接器基于JEDEC标准,因此假定这些结果可能非常相似。不过,由于时间限制,这将不得不在未来的努力中完成。
图7 -测试用例#3 - DQ[0-2] -数据速率= 3200 Mbps, MB = 14L PCB (52.7 mil存根),Rs = 25, ODT = 240, MB通道长度= 500 mils,总通道长度= 937 mils
测试案例#3 - DQ0 DDR总线模拟结果@ BER 1E-16, Rs = 25Ω, ODT - 240Ω,数据率= 3200 |
|||
存根长度(mil) |
通过Stub谐振频率Fo(GHz) |
PCB层叠 |
DDR4-3200眼罩违规(及格/不及格) |
52.7 |
19.39 |
14 l |
失败 |
62.9 |
15.625 |
16 l |
失败 |
73.1 |
14.271 |
18 l |
失败 |
83.3 |
12.143 |
20 l |
失败 |
92.1 |
11.429 |
22 l |
失败 |
104.1 |
10.238 |
24 l |
失败 |
114.3 |
9.2453 |
26 l |
失败 |
124.7 |
8.5714 |
28我 |
失败 |
信道插入损耗分析
当仔细观察测试用例#2的通道插入损失时,特别是具有73.1 mil存根和83.3 mil存根不连续的通道时,可以更好地理解为什么一个模拟通过了DDR4符合性掩码要求。开云体育官网登录平台网址如图9所示的插入损耗图所示,当将73.1 mil到83.3 mil的存根作为信道的一部分进行比较时,从1.6 GHz到9 GHz左右的总体信道损耗似乎相当相似,仅相差几个分贝(dB)。尽管如此,在10 GHz(接近DDR4-3200时钟频率的6倍)下,随着额外的存根长度增加10密耳,损耗增加了8dB。这使得总信道损耗约为20dB。同样如图所示,具有73.1 mil存根的通道共振频率接近14 GHz,而具有83.3 mil存根的通道共振频率接近12 GHz。最后,与使用83.3 mil存根相比,使用73.1 mil存根的12 GHz信道损耗提高了30dB。这对频道来说是一个重大损失。
图9 -测试用例#2 -使用73.1 mil存根和83.3 mil存根的DQ通道插入损耗
当仔细观察测试用例#2和测试用例#3中带有52.7 mil stub的通道的插入损耗时,就不容易理解为什开云体育官网登录平台网址么测试用例#2通道模拟通过了DDR4符合性掩码要求,而测试用例#3没有。如图10所示,测试用例#2和#3信道的插入损耗图,从1.6 GHz到大约10 GHz的总体信道损耗似乎保持相当稳定。开云体育官网登录平台网址在14 GHz时,使用52.7 mil存根的测试用例#3看到的损耗几乎比使用52.7 mil存根作为信道一部分的测试用例#2要低10dB。
当然,测试用例#3的通道由于10dB的额外插入损耗而失败。事实上,此时总信道损耗接近30dB。此外,这两个通道的谐振频率几乎相同,都在19 GHz左右。开云体育官网登录平台网址(这是有意义的,因为存根长度是相同的52.7密耳为两个通道。)开云体育官网登录平台网址不同之处在于,测试用例#3的谐振频率在通道谐振频率上表现出比测试用例#2大得多的损耗,实际上几乎增加了10 dB。这表明内存互连导致了通道额外的10dB损耗。
DDR4通道眼图分析
现在让我们看一下测试用例#2和测试用例#3的眼图的一些分析。将每个模拟的数据制成表格,以创建如图11和12所示的图表。参考图12,测试用例#2的最大眼图损失在2%到30%之间变化,这取决于通道中的stub长度,而对于测试用例#3,眼图损失几乎达到100%。
此外,如图12所示,在通道中有73.1 mil存根时,测试用例#3的眼高度损失比测试用例#2大11.8%。作为提醒,测试用例#2通过了符合DDR4的眼罩要求,其中73.1 mil存根作为通道的一部分。这表明内存互连对眼睛高度的影响约为12%。对于测试用例#2,使用73.1 mil存根作为通道的一部分,眼高度损失约为16%。对于83.3 mil存根,眼高度损失仅略微增加到~ 20%。这将表明,在测试用例#2的通道中,从83 mil存根谐振频率约为12 GHz的信号反射以及从整个通道损耗接近30dB的信号反射中发生了眼罩违例。
最后在参考图11时,JEDEC标准[7]将DDR4-3200 DQ接收眼罩定义为110 mV峰对峰,定时窗口为0.23UI。可以观察到,对于测试用例#3,眼睛应该已经通过了DDR4-3200眼罩,其中有52 mil存根作为通道的一部分;我们将在下一节中探讨为什么它没有。
DDR4信道分析确定性抖动估计
如图13所示,当参考测试用例#2,将73.1 mil存根作为通道的一部分时,只有133 ps的余量可用。这意味着57.44%的DDR4数据有效窗口被确定性抖动消耗。正如测试用例#2和测试用例#3的确定性抖动估计所示,这两个测试用例都使用52.7 mil存根作为通道的一部分,有效数据窗口可用的余量非常有限。请记住,对于DDR4-3200, 1个UI仅为312.5 ps.对于测试用例#2,使用52.7 mil存根作为通道的一部分,估计有156.2 ps的确定性抖动。这大约是一个UI的数据有效窗口的50%被确定性抖动消耗!这意味着当添加DIMM互连作为通道的一部分时,DDR4数据有效窗口将额外消耗21%的确定性抖动。这实际上没有为有效的数据窗口留下任何剩余空间。
结论
在创建解决方案以应对DDR4信道中的挑战时,您不能只考虑信号完整性,因为当电源完整性以及来自其他信号的串扰被添加到信道中时,这些问题将变得更加难以解决。换句话说,为了确保成功,你需要用所有正确的模型来模拟你自己的通道设计。分析表明,在没有任何均衡的情况下,在没有任何DIMM互连的点对点场景中,DDR4-3200通道的最大存根长度为73.1 mils。同样如图所示,这些通孔将给DDR4通道增加大量的确定性抖动。
由于用户界面的缩小,作为DDR4信号完整性场景的一部分,还需要考虑其他多个挑战。如图所示,没有解决方案,通过DDR4-3200接收眼罩要求的通道的通孔和DDR4 DIMM互连。DIMM互连本身就增加了足够的通道损耗,这必须考虑在内,对于DDR4-3200每个通道2个DIMM的模型来说,这将变得更具挑战性。这表明,为了减轻DDR4 DIMM互连的确定性抖动和整体信道损耗的影响,需要进行均衡模拟。
如果没有任何均衡,即使不连续性的共振频率是奈奎斯特频率的5倍,也会发生眼罩故障。这使得这个经验法则对于未来的DDR4信道设计应用程序无效。换句话说,整个通道需要进行细致的设计,均衡将在DDR4的未来发挥更大的作用。
参考文献
[1]丹南,b。”信道中通过存根导致的高速DDR4链路故障仿真分析.”DesignCon 20202020年1月。
46个令人着迷和难以置信的YouTube统计数据
https://www.brandwatch.com/blog/youtube-stats/
L.西蒙诺维奇,“存根终止”,EDN杂志2010年5月13日。
L.西蒙诺维奇,《消除存根焦虑》,白皮书,LAMSIM Enterprises.com, 2017年4月5日。
[5] Keysight技术,“DDR内存概述,开发周期和挑战。“(在线)。可用:http://literature.cdn.keysight.com/litweb/pdf/5990-3180EN.pdf
[6]“W2309EP DDR总线模拟器”,W2309EP DDR总线模拟器| Keysight(原安捷伦电子测量)。(在线)。可用:https://www.keysight.com/en/pd-2468795-pn-W2309EP/ddr-bus-simulator?nid=-34333.1104393&cc=US&lc=eng.(访问:2019年- 10月29日)。
[7] JEDEC标准- JESD79-4B - DDR4 SDRAM, 2017年6月
JEDEC标准编号21C -附件D - Raw Card D (DDR4 Registered DIMM Design File),修订版2.00
[9] Amphenol DDR4 DIMM连接器,https://www.amphenol-icc.com/ddr4-101246770000001lf.html
[10]伊索拉, 2019年。(在线)。可用:https://www.isola-group.com/wp-content/uploads/data-sheets/fr408hr.pdf.[访问时间:2019年11月12日]。
[11]黄,邵武和肖,凯和李,范泽和叶,小宁。(2016)。利用吸收材料缓解存根效应。IEEE元器件、包装与制造技术汇刊。1233 - 1244。10.1109 / TCPMT.2016.2582385。