摘要

不久前,系统只有几个串行链路,而现在,系统通常包含数百甚至数千个这样的链路。本文描述了一个具有数千个串行链路的大型系统的开发和分析。由于系统的规模和复杂性,设计团队投入了多年的精力来构建和验证一个能够验证连接并模拟任何和所有通道的虚拟环境。开云体育官网登录平台网址具有不完整的系统级连接、开云体育官网登录平台网址差的眼开口或高误码率的有问题的通道可以快速识别。性能限制,如固有的不连续(及其相关的共振),和Tx/Rx均衡不平衡被发现和详细检查。虚拟系统还用于指导设计选择,如层堆叠、通孔结构、回钻和走线/连接器阻抗。还描述了优化和选择均衡选项的过程。

作者的传记

唐纳德Telian是一名独立的信号完整性顾问。基于在Intel、Cadence、HP等公司超过25年的SI经验,他最近的工作重点是帮助客户正确实现当今的多千兆串行链路。他发表了许多关于这个和其他主题的作品,这些作品可以在他的网站siguys.com上找到。Donald作为PCI总线的SI设计师和IBIS建模的鼻祖而广为人知,并向超过15个国家的数千名工程师教授了SI技术。

塞吉奥Camerlo他是爱立信硅谷(ESV)的工程总监,他是通过收购Redback Networks加入爱立信的。他的职责包括机箱/背板基础设施设计、PCB布局设计、系统和板电源设计、信号和电源完整性。他还任职于公司专利委员会,是ESV系统和技术HW技术委员会的成员。在之前的工作中,Sergio是MetaRAM(一家当地创业公司)系统工程副总裁,负责芯片堆叠和内存3D集成。在此之前,他在思科系统公司工作了近十年,担任过不同的管理职务。塞尔吉奥在信号和配电、互连和包装方面获得了14项美国专利。

迈克尔·斯坦伯格博士他是SiSoft的首席架构师,拥有超过30年的高速电子电路设计经验。他拥有南加州大学的博士学位,并获得了14项专利。他目前负责SiSoft的量子通道设计器工具的架构,用于高速串行通道分析。在加入SiSoft之前,Steinberger博士在Cray, Inc.领导一个团队进行SerDes设计,高速通道分析,PCB设计和定制RAM设计。

巴里·卡茨他于1995年创立了SiSoft。作为首席技术官,Barry负责领导SiSoft产品的定义和开发。他在SiSoft致力于提供全面的设计方法、软件工具和专家咨询,以解决前沿高速系统设计人员面临的问题。他是IBIS质量委员会的创始主席。Barry拥有Carnegie Mellon大学的MSEE学位和University of Florida大学的BSEE学位。

沃尔特·卡茨博士他是SiSoft公司的首席科学家,是约束驱动印刷电路板路由器开发的先驱。他开发了SciCards,这是第一个商业上成功的自动路由器。Katz博士创立了Layout Concepts,并通过Cadence、Zuken、Daisix、Intergraph和Accel销售路由器。他的工具在世界范围内使用了2万多份。Katz博士在70年代为17 MHz 32位微型计算机开发了第一个信号完整性工具。1991年,IBM使用他的软件设计了一台1ghz的计算机。他拥有罗切斯特大学的博士学位,布鲁克林理工学院的学士学位,并获得了5项美国专利。

1.介绍

预布局仿真已在[1]中进行演示,以探索所提出的串行链路的可行性及其对系统变量的敏感性。虽然在预布局环境中[1]对制造变化的链接性能进行了详尽的分析,但本文说明了高效的布线后的能够在合理的时间内分析数千个串行链路的环境。具体的链路级优势包括:(a)确认系统级连通性,(b)平衡和优化均衡,(c)根据性能目标量化设计余量,以及(d)识别预先布局分析未发现的由不连续引起的共振。通常没有其他方法来执行这些任务,这一事实进一步强调了分析a的价值虚拟机系统如本文所述;一种通常被称为虚拟原型分析或“VPA”的能力。

VPA的愿景是在合理的时间内,在硬件之前,提供量化任何或所有数千个系统级链路的电层性能的能力。作者是一个更大的团队的一部分,该团队已经投入了多年的努力来实现所描述的功能。虽然布局后分析在信号完整性(SI)领域并不是一个新概念,但高速串行链路已经为SI分析的执行方式带来了重大变化。除了能够模拟数百万位之外,在系统级识别和消除共振以及平衡均衡只是串行链路引入并由VPA实现的一些重要过程步骤。一旦组装完成,虚拟系统就可以根据设计选项进一步检查性能增益。由于回钻、连接器选择/阻抗、通孔结构和层序等参数可以很容易地适应,因此这些成本敏感型选择的系统级改进可以量化,而无需耗时的硬件制造周期。

在过去十年中取得的创新使VPA能够应用于数千个串行链路。必要的模型格式和仿真技术(基于卷积和统计)能够解决10-12年误码率(ber)和更小的误码率已经在其他地方得到了很好的记录[2-5]。相反,本文解决了在布局后环境中部署串行链路分析的一个重要障碍:以足够的精度快速求解和模拟印刷电路板(PCB)过孔的能力。因此,关注的是详细介绍通过建模取得的最新进展。此外,随着主流数据速率超过5gbps,在Rx引脚和芯片上几乎没有留下什么空白[6]。在这些数据速率下,必须在应用Rx均衡后对信号性能进行建模和测量,正如现在大多数3所要求的那样理查德·道金斯代串行标准[7]。

本文演示了VPA使用一个系统,该系统由大约30个大型pcb组成,通过一个由50多个金属层制成的背板相互连接,其中包含数千个长度从12英寸到36英寸不等的串行链路。虽然这个系统的规模很大,但所提出的概念可以部署在任何利用先进的高速串行链路技术的系统中。

虽然数据速率将在未来十年继续增长,但主导趋势将是“串行接口的并行化”。事实上,在单个系统中存在数千个串行链路,这表明需要在宽度而不是频率上显著扩展我们的串行链路分析。这里提出的概念与这个主题是一致的。

2.支持技术

除了基本的串行链路分析能力之外,数据速率超过5gbps的数千个串行链路的虚拟样机分析(VPA)需要本节详细介绍的创新。具体来说,这些包括:

  1. 在应用Rx均衡后量化信号性能的能力
  2. 快速生成和仿真数百个通孔模型,具有足够的精度
  3. 扩展的容量、吞吐量和数据挖掘功能

2.1后均衡Rx信号性能

3中的大多数理查德·道金斯第一代串行标准在称为“Rx数据锁存器”或简称为“Rx锁存器”的位置验证串行链路电气性能(通常分别为Tx、Channel和Rx),如图1所示。由于在Rx引脚和/或焊盘处缺乏可观察信号,这种变化是必要的。相反,将建模或“参考”Rx均衡应用于Rx衬垫处的信号,以提取具有可测量的睁开眼的信号。现在指定参考Rx均衡(CTLE=连续时间线性均衡器和/或DFE=决策反馈均衡器)的示例标准包括SAS、USB和许多其他版本的更高数据速率[7]。

pic1

图1:典型的千兆接收器显示Rx闩锁

这种方法的转变带来了测试与测量(T&M)设备以及模拟器和模型的变化。本质上,现在测试与测量设备有必要包括能够对可探测的测量位置(如Rx引脚)捕获的波形进行后处理的“模拟器”[8]。类似地,模拟器现在处理越来越复杂的Rx模型,能够模拟信号通过Rx均衡恢复后的性能。无论这些是由芯片供应商提供的组件行为模型,还是由工具或标准提供的建模“参考”行为,它们都越来越多地作为IBIS 5.0规范中定义的AMI(算法建模接口)格式的可执行文件获得[13]。

2.2紧凑高效的通孔车型

为了支持包含数千个串行链路的系统的综合分析,通过建模必须满足三个主要要求:

  1. 计算许多不同孔道几何形状的孔道模型必须是实用的。
  2. 通孔模型必须快速求解和仿真。
  3. 通孔模型必须与测量数据相关联。

本文详细介绍的方法基于先前发表的通过模型与测量数据进行比较的论文[9],[10]。两篇论文都得出结论,过孔的行为类似于TEM传输线,其阻抗可以通过假设在反垫边缘有一个连续的屏蔽并平行于过孔管(即沿板厚方向)来计算。[10]通过假设从反发射台边缘传播的径向TEM波产生的磁场近似抵消了通孔筒的磁场,为这种近似提供了一个动机。到目前为止,这似乎仍然是一个很好的近似和解释。

本文采用的通孔模型为[9]和[10]所述的传输线增加了顶、底焊和出口走线的等效电路。这种等效电路是一些集总和分布元件的组合,元件的值主要来自物理性质。该模型对单端、共模和差模均具有较好的精度。由于该等效电路相对简单,因此推导模型并计算其响应只需很少的时间。

[9]观察到,通孔似乎比人们根据通孔长度和板的介电常数预测的要长。给出的解释是,沿板厚方向流动的波的有效介电常数高于沿板厚方向流动的波的有效介电常数。进一步的文本可以在[11]中找到。

为了验证在[9]中提出的通孔长度假设,我们提取了[10]测量数据的插入相位。在介电常数为各向同性的假设下,我们还计算了封闭形式模型方程所预测的插入相位。插入相位与介电常数有关,为:

  1. 介电常数决定了结构中的传播速度。图一
  2. 结构的群延迟是结构的物理长度除以传播速度。图
  3. 插入相位是群延迟对角频率的积分。就知道

如图2所示,以及Simple Via实验[10]模拟和测量的相位数据,数据支持各向同性介电常数的假设,而不是各向异性介电常数的假设,因为从X和Y方向传播确定的介电常数与Z方向的延迟一致。

pic2

图2:通过Simple Via实验建模和测量相位

因此,似乎需要一个不同的假设来解释意外测量的过孔电长度。为了创建此处使用的通孔模型,我们测量了一个未填充背板上的许多差分走线的pad到pad S参数。测量的每个走线由一个差分过路、一个差分背板走路和另一个差分过路组成。

分析方法是将测量到的S参数转换为时域反射(TDR)图,并在单端和差分模式下测量走线开始处的通孔电长度。由于测量是从一个发射台到另一个发射台,发射通道是电路径上的第一个元素,因此可以进行相对精确的测量。测量带宽为20GHz,有效TDR上升时间为17pS。

测量的电长度与物理长度的对比如图3所示。在此图中,单端测量用黄色符号表示,差分测量用红色符号表示。通过测量的微分值延伸出一条线。

pic3

图3:裸背板的电气长度与物理长度

图3中的线是通过差分模式数据点绘制的,因为它们比单端数据点显示出更小的扩展,也因为差分模式不受地返回阻抗的影响。

图3中线的斜率对应于介电常数3.61,与此特定PC板上走线的介电常数3.41相比。这种差别在实验误差之内。

图3表明,增加的长度似乎是约0.05”的恒定长度偏移,而不是传播速度的降低。这种偏移可以通过考虑电流必须遵循的路径来解释。

图4所示的通孔和走线由上焊盘(通常位于电路板的上表面)、通孔管、下焊盘(通常位于内部布线层)和出口走线(从焊盘边缘布线到反焊盘边缘)组成。

pic4

图4:过流

电流必须沿着通孔结构的表面,如图4所示。对于我们测量的结构,穿过顶部垫的上下表面、穿过底部垫的上表面以及沿着出口轨迹的物理距离加起来为0.05“,物理长度在图3中显示为偏移量。这显然是一组复杂的电磁场行为的简化,但数据和物理推理支持这样的假设,即通过通孔顶部和底部焊盘的电流路径可测量地增加其电长度。由此得到的通流模型与实测数据具有良好的相关性,使该近似成为一种有用的近似。同样重要的是,该通道模型可以快速计算和有效地模拟,这是提供有效VPA的基本要求。

图5和图6是使用封闭形式方程的路径后提取和明确模拟垫电长度的通孔模型获得的模型相关性的代表性示例。轨迹两端的测量结果(两端都有相同的过孔)用蓝色表示,模型结果用红色表示。在图5中,模型和测量值之间的时间差远小于数据的17pS上升时间,阻抗差小于走线两端的阻抗差(例如,在400pS处测量)。因此,TDR数据完全在实验误差之内。同样在图6中,该模型精确匹配损耗特性的频域波纹,即使在20GHz时,模型与测量值之间的差异小于3dB。

所示结果是针对裸背板(即,没有连接器的制造PCB);然而,当添加连接器和卡时,相关性几乎一样好。

pic5

图5:典型差分TDR相关结果

pic6

图6:典型的差分插入损耗相关结果

如图5和图6所示,对于高达10 Gbps的分析,这个通过模型绰绰绰用,并提供高达20 Gbps的有用结果。在未来,它可以通过提供剩余的几个启发式元素值的直接计算,并通过显式计算通孔彼此之间和与地平面腔的耦合来改进。

2.3容量、吞吐量与数据挖掘

分析一个完整系统的行为要求VPA环境能够处理一个完全填充的虚拟系统模型。该模型可能包括数十个PCB数据库,总计多达250,000个网和1,000,000个引脚。单次路由后模拟运行可能需要多达25,000次模拟,并生成250,000个模拟文件。模拟器的分析引擎和数据库必须扩展到这些级别,并且仍然提供合理的性能。

布线后的模拟必须足够快地执行,以便为PCB布局团队提供有用的反馈。这意味着要在48小时内定期修改PCB数据库,进行模拟,解释结果并提供更新的物理设计规则。考虑到有一天的时间解释结果和更新设计规则,剩下的一天时间用于设置和执行路线后的模拟运行。仿真工具必须能够自动提取路由后拓扑,实时生成模型,并根据连接器制造商提供的切片数据构建连接器模型。考虑到模拟任务的大小,可以通过结合统计建模技术(统计模拟将在几秒钟内运行,而其时域模拟可能需要50-500倍的时间)和通过并行处理(服务器群)进行加速来减少周转时间。仿真环境必须使过程自动化,因为复杂性很高,可重复性是确保质量的关键,因为VPA将在整个设计过程中重复多次。

一旦模拟完成,就很难看到“只见树木不见森林”。生成大量的原始模拟数据是不够的,因为需要对数据进行分析并快速创建更新的设计规则。当模拟输出包括每个模拟案例的关键性能指标(如眼睛高度和宽度),并与每个通道的物理特性相关联时,生产力就会提高。组织结果使设计师能够扫描数据,找出最佳和最坏情况,以及需要更彻底调查的总体趋势和“异常值”。路由后仿真数据挖掘有两个重要方面:自动报告和结果的交互式下钻。

自动报告提供了第一级的分析,包括如下报告:

  • 电气完整性检查:连接性,极性切换,Tx/Rx兼容性
  • 物理特性:净长度,层长度,潜在谐振条件
  • 符合标准:插入损耗、回波损耗、串扰比、眼罩合格/不合格
  • 性能指标:眼睛高度,眼睛宽度,误码率,优化的均衡器设置
  • 自动识别最佳/最差情况和相关的设计变量

一旦确定了需要进一步调查的领域,就可以通过深入研究单个模拟案例并执行假设模拟来探索潜在的解决方案来隔离问题。重要的功能包括:

  • 将设计指标作为设计变量或其他性能指标的函数进行关联
  • 关联网络中任何节点(包括物理上无法访问的节点)的任何波形
  • 在仿真图上叠加合规掩码
  • 编辑路由后拓扑以支持交互式假设分析

提供这些功能的方式是为当前可用的计算机提供合理的周转,这是一项艰巨的任务,但是要实现全系统分析,这是需要解决的问题。

3.虚拟样机分析

本节详细介绍VPA启用的系统级功能,这些功能既可以验证互连完整性,也可以优化信号完整性。

3.1连接

虚拟系统确认系统级连接性的能力的价值——或者,互连的完整性-不能夸大。当原理图/PCB网表向前和向后注释功能确保单个PCB级的连接性时,虚拟系统确认系统级的连接性。此外,随着新pcb的开发或现有pcb的修订,它们在虚拟系统中进行验证,以在制造之前确认互连完整性和链路性能。换句话说,虚拟系统可以作为一个“测试台”来验证新的pcb,可能是由位于不同地理位置和时区的远程团队开发的,当插入真实背板时将按预期运行。

互连完整性可以通过物理、电气和操作验证,下面在一个典型的虚拟系统上提供了每种方法的示例。

数百个差分对的物理连接性在图7中得到确认,图7绘制了跨越三个pcb(卡、背板、卡)的信号的组合驱动器到接收器长度。X轴上显示了数千个信号,而Y轴上显示的是每个信号的长度,单位是英寸。背板网长分布用红色表示,每对对应的总长度用绿色表示。总长度总是超过背板长度的事实提供了第一级确认,即所有信号从一个卡上的Tx穿过背板连接到另一个卡上的Rx。标记进一步量化了PCB长度的分布,在这种情况下,显示有518个背板长度在8“到16”之间的网,318个长度在16“到24”之间的网,等等。

pic7

图7:物理连接性-背板和总净长度

虽然上面的数据表明所有的网都是连接在一起的,但我们只看到它们的总长度。图8中的图更进了一步,显示了数千个通道相对于黑色的典型工业掩模的微分插入损耗(左)及其相关的拟合衰减(右,插入损耗的平均值)。开云体育官网登录平台网址这证实了网络是电连接的,并展示了在不同的操作频率下,我们可以期望补偿的系统级插入损耗的范围。

pic8.1pic8.2

图8:电气连接-插入损耗和拟合衰减

在图9中绘制掩模边缘与信道损耗的关系,可以发现高损耗信道稍微违反了掩模(在非常低的频率下,根据右上的图)。开云体育官网登录平台网址在下面的图中,红色是掩模的插入损失边际,蓝色是掩模的拟合衰减边际。

pic9

图9:插入损耗和拟合的衰减边缘到掩模

有了良好的电连接性感觉,我们接下来检查操作连接性,确认所有网络都产生具有典型均衡性的睁开眼,如图10所示(眼睛高度为红色,宽度为蓝色)。眼睛开口的记录是10分-12年发生的概率,因此与由Rx特性定义的一定的误码率有关。

pic10

图10:操作连接性- 10-12年眼睛高度和宽度

由于其中两个通道没有显示眼高开云体育官网登录平台网址或眼宽(图10的最右边),这些通道可能没有正确运行或模拟。下面列出的各种方法可以建立信心,使人们相信这些网络正在模拟并产生有意义的结果。在图11的左边,我们覆盖了数百个浴盆曲线,并确认两个网无法产生低于10的概率的眼睛-11年(以红色突出显示),因此在10点时显示闭着的眼睛-12年概率,如图10所示。从统计学的角度来看,这两种网络确实以较低的概率产生了眼睛,但由于稍后将解释的原因,它们比其他网络更不稳定。

pic11.1pic11.2

图11:操作连接性-浴缸图和高BER眼

其他操作连接性测试包括绘制图12(左图)中的所有脉冲响应和10的眼参数3概率(在右边,红色表示高度,蓝色表示宽度)。脉冲响应揭示了信道延迟的范围及其相应的衰减,以及一些具有p/n反转或“混匀”的网络(即那些具有负脉冲响应的网络)。103概率模拟显示,眼睛的开口比10个大得多-12年如图10所示,进一步确认VPA在操作上按预期运行。

pic12.1pic12.2

图12:操作连接性-脉冲响应和103眼参数

随着连接性和功能的确认,我们可以在制造硬件之前提取设计余量并解决性能不佳的通道。开云体育官网登录平台网址

3.2设计边距

前一节已经演示了在设计过程中已经生成了数十万个数据点以供进一步检查。为了说明这一过程,本节将着重于提取和分析在一组中等长度(约20英寸)和中等均衡水平的链接上测量的设计余量。电气性能将通过检查10来判断-12年在均衡之前在Rx芯片上测量眼高度和宽度,而平衡系统级均衡的收益将在后面的部分中讨论。

图13绘制了数百个差分对的眼睛高度在Y轴上与眼睛宽度在X轴上的关系。左图显示,大多数信号聚集在70mV/70pS眼高/眼宽附近,但少数信号的眼开口低于50mV/50pS。右图显示了相同的数据,但用红蓝两种不同的颜色描绘了信号传输的方向。该图显示,虽然许多蓝色信号表现相当好,但所有低于50mV/50pS的信号都向蓝色方向传输。

pic13.1pic13.2

图13:带有信号方向的眼高与眼宽

认识到最差的眼高也有最差的眼宽,图14中的图表允许我们通过在X轴上绘制眼高与Y轴上的系统变量来研究性能。左图显示了眼高度与底板层的关系,表明一般来说,较深层的信号表现比上层的信号差。右图显示了眼睛高度与连接器排的关系,揭示了表现最差的信号利用连接器中的第6行。

pic14.1pic14.2

图14:眼高度vs.背板层和连接器排

上面的数据允许我们假设这个长度包中最坏的情况是那些具有以下属性的网络:

  1. 如图13中蓝色方向驱动的信号
  2. 信号在最低(“最深”)背板层上路由
  3. 通过连接器第6行连接的信号

为了针对图15中短、中、长背板长度的信号测试这一假设,我们将所有信号束眼的高度/宽度绘制为蓝色,并将这些属性的网络子集叠加为红色。这些图证实,具有这些特征的网描述了性能最差的网。

pic15.1pic15.2pic15.3

图15:在信号长度上最开云体育官网登录平台网址小余量一致的信道

到目前为止,我们已经证明了为系统中所有信号提取数千个性能估计的价值,以及如何过滤这些数据点以识别哪些信号表现不佳。所示的过程说明了在更容易进行设计调整的开发阶段对整个系统的特定净级性能进行量化的价值。上面确定的具体现象将在下一节不连续感应共振中更详细地解释。

链路性能还应该根据拐角情况行为和减少误码率绘制,如图16所示。在这个图中,9个角是由三个硅角和三个互连角组合而成的,如上图所示。眼高以三种不同的概率绘制(暗示三种不同的ber),用红色、绿色和蓝色描绘。该图表明,当我们改变硅和互连角时,设计余量会发生重大变化,这一点通过查看图中的任何垂直切片都可以明显看出。

pic16

图16:减小误码率的角箱设计余量

3.3不连续引起的共振

使用典型的制造技术,由于元件和连接器的相关过孔,导致主通道不连续性存在的情况并不罕见。图17显示了从Tx到Rx测量的典型(非优化)通道的测量(红色)和模拟(绿色)差分TDR图。虽然大部分通道的响应在100欧姆阻抗附近相当平坦,但背板连接器的位置在~1 nS和~4 nS时非常明显。即使连接器本身的阻抗大约为100欧姆,连接器过孔也会在连接器过渡的两侧产生两个较低的阻抗下降。

pic17

图17:测量(红色)和模拟(绿色)通道TDR显示不连续

在连接器两侧的低阻抗过孔的存在会引起信号干扰,其长度由通过连接器的延迟来定义。这种不连续会导致部分穿过连接器的波被2nd通过并返回到它们的源头。当能量被反射回来时,一部分会被1反射通过回连接器,其中一部分将反射回来的2ndVia等等。这种定义长度的扰动和被困在结构中的能量可以称为“不连续共振”或“驻波”。

为了更好地理解与连接器过孔相关的不连续,我们必须首先量化通过连接器各排的延迟。将每一行的模型放在理想传输线的中心(图18中的时域传输(TDT)图),可以显示每一行的延迟,如表1所示。

pic18

图18:连接器行的TDT

表1

表1:连接器行延迟

如表1所示,驻波(或往返)频率表明,所有比第3行长的行都在6 Gbps频率范围内。然而,这种解释只关注连接器,而有问题的不连续性还包括连接器两侧的通孔结构。这些过孔必须包括在分析中,因为它们也会造成额外的时间延迟。

对各种连接器过孔的研究表明,卡上的最长过孔延迟约为20pS,背板上的最长过孔延迟约为60pS。结合这些并将一半的通过传输时间计算在我们的问题结构中,在表2中,我们发现第6行延迟为~2 UI,因此来自双位(和一部分单位)模式的能量将产生共振并降低性能,如前面设计余量部分所示。

表二

表2:组合连接器和通过延迟

进一步的分析表明,如果使用这种长度的连接器结构,如果移除两侧至少一个不连续性是有帮助的。这延长了结构,使其损失更大,因此驻波不那么明显。解决方案,如低阻抗走线和连接器和/或使用专门的通孔结构,可以用来平滑连接器周围的不连续。虽然预路由分析努力详尽地探索许多连接器/通道组合和其他通道不连续,但VPA有可能在组装更大系统的虚拟原型之前隔离之前可能未被理解的组合。

3.4系统级均衡

虽然自~ 2gbps以来,Tx均衡一直很常见,但Rx均衡和相同模型的增加使得系统级均衡优化和Tx和Rx之间的平衡成为可能。正如本节将演示的那样,这样做可以实现重要的性能提升。

数据流的知识使Tx能够实现游标前均衡,而Rx只能实现游标后均衡。因此,我们可以假设最好让Rx处理后光标,以保持尽可能多的Tx振幅摆动。相反,由于Tx是唯一能够执行前光标均衡的设备,因此它应该负责在这些位时间内处理脉冲扩散。如果系统需要超过Rx可以提供,则Tx也可以执行后光标均衡任务。

图19使用模拟来测试这一假设,检查了在Tx和Rx之间共享光标后均衡时典型网络的性能。所有的眼开口都在Rx Latch上绘制,使用少量的Tx前光标(-10%)和Rx CTLE。在左眼,Tx已经完全均衡了信号,为Rx DFE的贡献留下了很小的空间。在中心,我们在Tx(17%)和Rx(18%)之间均匀地划分光标后均衡化。在这种情况下,Rx眼增加到100mV,表明Tx提供的额外能量是有帮助的。在右边,当Tx只有前光标均衡和Rx DFE的后光标在-32%时,我们看到眼睛的形状。在这种情况下,眼高度在Rx Latch处又增加了170mV,眼宽也得到了改善。从场景1到场景3,仅仅通过部署通道均衡的系统级视图,就提高了100%。

职位:Tx = -35%, Rx Tx = -17% = -2%, Rx Tx = 0% = -18%, Rx = -32%

pic19.1pic19.2pic19.3

眼睛:248mV / 72pS 345mV / 73pS 513mV / 94pS

图19:Rx均衡后的眼形,在Tx和Rx之间改变后光标

虽然上面的眼开口大大增加了,但这是以系统中额外的电压摆幅(以及功率、噪声和串扰)为代价的。图20中的图表显示,对于上述相同的三个场景,引脚级性能已经从过度均衡变为预期的不均衡。虽然第三种方案产生了最好的内部眼,但它无法在引脚处提供一个可接受的眼。然而,正如新的串行链路标准所表明的那样,针脚级眼睛性能的相关性继续下降。

pic20.1pic20.2pic20.3

眼:141mV / 60pS 150mV / 60pS 56mV / 21pS

图20:在Rx均衡之前的眼睛形状,在Tx和Rx之间改变后光标

图21中显示了上述三种场景的传递函数,灰色为不均匀传递函数。虽然让Tx处理均衡(蓝色)成功地使通道响应平坦化,但这是以降低低频幅度为代价的。因此,较少的能量被传递给Rx用于处理和平衡。在绿色和红色中,我们看到允许Rx协助均衡提供了更理想的响应(~在0dB的平坦线),直到虚线垂直。绿色显示了共享后光标如何分割低频响应的差异,但是Fc以下的频率几乎与Rx处理后光标均衡时的频率相同(红色)。四个选项的脉冲响应显示在右边,使用相同的配色方案。

pic21.1pic21.2

图21:传递函数和脉冲响应比较均衡方案

图22中的图检查了上面显示的行为在更多的网络中是否一致。使用上述三种均衡选项的50个网眼高度使用相同的蓝色,绿色和红色绘制。在此图中,灰色表示均衡化之前在骰子处的眼睛高度。右边的方框量化了每个均衡化方案的眼高度带。虽然这些频带中有一些重叠,但上面所示的趋势仍然适用于这个更大的网抽样。

pic22

图22:不同均衡方案的50网眼高

接下来,我们使用VPA在系统中的数千个网络中检查相同的三个场景。结果,超过20,000个眼睛形状被导出并处理到10个-12年在两个cpu上需要大约20小时的概率。因此,每个模拟大约需要3秒,或者每个CPU需要6秒。一个8个cpu的系统可以在不到4小时内完成这项任务。

图23显示了这些模拟的结果。左图为每个模拟场景的眼高(红色)和眼宽(蓝色)分布,右图为相应的眼高/眼宽散点图。由于所有轴的尺度都是相同的(除了左上角的蓝色宽度值),可以很容易地看到场景3 (Rx后光标)的表现最好。

pic23.1pic23.2

pic23.3pic23.4

pic23.5pic23.6

图23:不同均衡方案下数千通道的眼性能开云体育官网登录平台网址

虽然在概念级别上的系统级均衡调优并不新鲜,但是在系统上以足够的精度部署调优的能力net-by-net基础是VPA的好处之一。除了使用VPA探索硬件设计前的权衡(请参阅下面的下一节)之外,均衡探索和调优还可以帮助在后硬件上下文中进行固件更新。

4.设计的权衡

虚拟系统能够对设计选项进行全面和快速的评估,这些设计选项在物理硬件上执行起来过于昂贵和耗时。可以使用VPA轻松修改和研究的项目示例包括:PCB层交换,通过回钻,回钻短段长度/深度数,连接器/路由阻抗变化,长度变化和约束,数据速率,替代PCB和复杂的通孔结构。本节将说明其中的一些权衡。

4.1 PCB选项

由于PCB可以在虚拟系统中轻松交换,因此可以使用VPA来量化PCB的哪个版本或性能选项表现更好。在图24的左侧,我们在Y轴上绘制Backplane_A的眼宽,在X轴上绘制Backplane_B的眼宽。由于对角线上方有更多的点,我们得出结论,Backplane_A的性能更好。右边是插件卡选项的类似比较,Y轴上的Card_A比X轴上的Card_B表现得更好。

pic24.1pic24.2

图24:眼宽与PCB交换板、背板(左)和插件卡(右)的对比

由于链路通常以非交错方式路由以减轻串扰,因此Tx和Rx信号往往位于不同的路由层上。因此,我们还可以检查当我们在pcb内交换信号层(因此传输方向深度)时性能如何变化。在图25中,我们在左边的背板和右边的插件卡上检查层堆叠选项的眼高度。在两幅图中,信号方向由红色和蓝色数据点表示,中间对角线上的点表示性能不变。这样的图表通常表明,在一个方向上性能的提高是以另一个方向的性能下降为代价的。在图中,背板(左图)的蓝色/红色性能变化相似,这表明层交换总体上没有帮助,而在卡(右图)上,蓝色获得的比红色失去的多,这表明这种交换值得考虑,以提高整体系统级设计余量。

pic25.1pic25.2

图25:眼高度与PCB层交换、背板(左)和插件卡(右)的关系

4.2过孔回钻

虽然反钻在较厚的背板上很常见,但VPA很容易量化的另一个设计选择是,在较薄的插件卡上也可以反钻通孔,从而获得性能优势。图26绘制了在插入卡上(X轴)和(Y轴)反向钻孔时眼高(左)和眼宽(右)的变化情况。因此,对角线以下的所有点表示由于回钻而有所改善。下面的图表显示,所有的信号要么保持不变,要么有所改善,有时甚至达到50%。请注意,虽然卡片接收到的信号(红色)随着回钻而改善,但从卡片发送的信号(蓝色)的改善更为显著。图中显示,蓝网的边际通常有20%的改善,但更重要的是,边际最小的信号的改善通常会增加。

pic26.1pic26.2

图26:回钻插件卡时眼高、眼宽变化

4.3数据速率

随着体系结构系统级吞吐量需求的变化,评估设计余量如何随数据速率的变化而变化是很常见的。图27显示了眼高(左)和眼宽(右)在数据速率降低8%时的变化情况。X轴表示使用原始数据速率的性能,Y轴表示使用降低的数据速率测量的性能。由于线以上的这些点表明性能/裕度有所提高,标记通常显示高度为37mV,宽度为10ps,这意味着设计裕度增加了30%,数据速率降低了8%。

pic27.1pic27.2

图27:眼睛高度和宽度改进,数据速率降低8%

4.4阻抗变化

改变限制性能的不连续(及其相关共振)的一种方法是改变附近走线和连接器的阻抗。图28绘制了受不连续共振限制的通道中眼高(红色)和宽度(蓝色)的变化情况,因为我们允许通道中主要连接器和走线的阻抗变化。允许背板上的走线有四个阻抗选项,两个插件卡和两个连接器提供1,024 (210)排列在X轴上。从图中我们可以看到,宽度倾向于跟踪高度,并且睁眼可以提高到300%。

pic28

图28:眼高和眼宽变化与连接器/走线阻抗排列

原始通道(浅色)和300%视力改善通道(深色)的TDR图如图29所示。红色是信号流的方向,蓝色表示从Rx到Tx的通道。请注意,阻抗的变化不一定会消除所有的不连续,但肯定会延长它们之间的距离。

pic29

图29:阻抗变化改善边缘通道的TDR

5.总结

在未来十年,串行链路分析不仅会受到频率问题的挑战,还会受到规模问题的挑战;数万亿比特将通过数千个通道被处理。开云体育官网登录平台网址虽然传统的SI方法已经成功地将路径后分析转移到更多的验证步骤[12],但本文展示了VPA如何在系统级均衡调谐和设计权衡领域极大地帮助串行链路开发。此外,由于分析了数千个通道排列,VPA有可能识别由意外和/或不可避免的不连续性引起的性能限制,这些不连续性可能被预先路由分析所忽略。虽然必须解决与容量、吞吐量和准确性相关的挑战,以组装一个有效的虚拟原型系统,但本文展示了一种方法,以及克服这些障碍的一些好处。

致谢

作者希望感谢爱立信的Shashi Aluru、Minh Nguyen和Radu Talkad以及SiSoft的Todd Westerhoff的支持。非常感谢Jim Mangin和Steve Barbas对这项工作的支持,以及Amphenol-TCS的John Lehman, Jose Paniagua和Brian Kirk在推进通道设计和改善连接器足迹方面的持续帮助。另外感谢GigaTest实验室的Orlando Bell始终如一地提供高质量的测量数据。没有这些人和其他人的努力,这项工作是不可能完成的。

参考文献

[1]“6+ Gbps串行链路的仿真技术”,Telian, Camerlo, Kirk, 2010http://www.siguys.com/resources/2010_DesignCon_6GbpsSimTechniques_Paper.pdf

[2]“多兆赫串行链路设计与分析的新技术”,王泰安,张海燕,2005,

http://www.siguys.com/resources/2005_DesignCon_New_MGH_Techniques_ISP_CA_PCIe_SATA.pdf

[3]“PCB系统的通道分析”,2004,

http://www.siguys.com/resources/2004_Webinar_Introducing_Channel_Analysis.pdf

[4]“新型串行链路仿真过程,6gbps SAS案例研究”,Telian, Larson, Ajmani, Dramstad, Hawes, DesignCon 2009论文奖,

http://www.siguys.com/resources/2009_DesignCon_6Gbps_Simulation_Paper.pdf

[5]“自适应的6gbps及以上的信号完整性工具和技术”,泰安

http://www.siguys.com/resources/2007_CDNLive_Adapting_SI_Tools_for_6Gbps+.pdf

[6]“串行链路上的信号:一会儿看见,一会儿看不见。”DesignCon07文章,

http://www.siguys.com/resources/2007_Article_SignalsOnSerialLinks.pdf

[7] SAS规范,SAS-2, Project T10/1760-D, Rev 16,18 April 2009,参见USB 3.0等。

[8]例如,参见LeCroy 10/12/11网络研讨会“USB 3.0 -电气合规性测试”

http://www.lecroy.com/support/techlib/webcasts.aspx?capid=106&mid=528&smid=663

[9]“5gbps及以上的背板通孔的实际分析”,李建军,李建军,李建军,李建军,论文7-TA2,设计与工程,2009年2月3日。

[10]“一个简单的通过实验”,丁冲,迪维亚Gopinath, Steve Scearce, Mike Steinberger, Doug White,论文5-TP2,设计,2009年2月3日。

[11]“差动过孔的实用设计”,PCD&F, 2010年7月7日
http://pcdandf.com/cms/component/content/article/171-current-issue/7302-eric-bogatin-bert-simonovich-and-yazi-cao

[12]“高速公路设计的优化设计方法”,上海交通大学学报,2008

http://www.siguys.com/resources/1998_DesignCon_Optimized_SI_Methodology.pdf

[13]“基于算法建模接口(AMI)标准的SerDes建模”,Steinberger, Westerhoff, White, paper 7-TA3, 2008

牧师1.1