工程的噩梦
工程噩梦RSS提要RSS

下面是在职和实验室的工程师们分享他们最痛苦、最有趣或最奇怪的工程经历。大多数结局都很好!
信号的完整性/EMC / EMI

神秘的开关扑动案例

2017年9月7日

在设计展上有趣的事情之一就是和工程师们一起讨论战争故事。在另一场精彩的小组讨论结束后,我和Eric Bogatin聊天,他让我把自己的一些战争故事写下来。

我仍然记得我第一次在PCB East见到Eric(许多年前),他正在演示最终将成为ANSOFT全波场求解器(但这是另一个故事)。经过一番头脑风暴,我列出了一份完整的SI/PI课程清单,我辛苦地完成了这些课程,很乐意与社区分享。开云体育双赢彩票不管怎样,在埃里克的鼓励下,我决定捕捉一个我最近遇到麻烦的战争故事。希望我能够提供其他SI课程来记录和分享我的经验。

在以太网交换机的早期开发中,原型交换机表现出所谓的“链路瓣”是很常见的。这是一个链路,通常是前面或后面面板上的10G SFP+,将在很短的时间内下降然后恢复。它通常很容易是由设计周期早期阶段的一些软件或硬件错误造成的。

每个网络工程师的噩梦都是,当您从本地GTAC(全球技术援助中心)工程师那里听说,在已经发货的产品上发生了这种情况。在下面的图片中,我能够在我们的射频室中复制其他人无法复制的东西。真正有趣的是书(具体来说是SI书)在这个随机样本中的位置(没有显示,因为它在书下面)影响了行为。

图1

有一段时间,在现场出现了一些随机故障,通过SFP+堆叠端口绑定到本地交换机的远程交换机会出现链路振荡,这意味着链路会反复上下波动。在多个站点、多个客户中观察到这种情况,但考虑到现场部署的交换机数量,这种情况相对罕见。我发现您必须使用所有可用的工具和直觉,以及深入研究问题描述和历史,客户日志,然后执行模拟和测量。

一旦问题在本地可重现,您就可以检查通常的怀疑对象:软件、硬件、布局、机械、电源、时钟和通道。重现问题往往是找到解决方案的90%。

所以,在链接皮瓣的情况下,我回顾了过去和现在关于这个问题的所有DVT数据和文档。我自己重复了一些测量(时钟、功率和通道),最初并没有观察到任何可疑的东西。我用全新的眼光审视了版面。关于这个问题,有趣的是,在早期,一些交换机是由MDI时钟问题引起的,但一旦修复,一些客户问题仍然存在。

在欧洲有一个特别有趣的问题站点,他们在一辆单独供电的车上安装了2个开关(本地和远程)。他们发现,如果他们把推车推到机房,远程开关会摆动,而本地开关没有任何摆动。

我们派了一些非常聪明的工程师去找这个友好的客户,他们花了一周的时间试图在现场调试这个问题,因为这个问题很容易重现。到了周末,他们对这个问题的理解仍然毫无进展。他们认为这可能与EMI/RFI有关,但不确定,因为问题似乎取决于设备架被推到哪里。他们还检查了电源和接地问题的可能性。这个欧洲站点通常在高线运行开关(240V,而不是120V)。

当他们空手而归时,我自作主张想弄清楚发生了什么事。我带着三个开关、笔记本电脑和一个瞄准镜来到射频室,看看我是否能在那里重现这个问题。就像爱因斯坦说的,天才是1%的天赋加上99%的努力。我认为这也是调试案例中一个长期突出的问题。因此,我开始了长达一个月的探索,以调试一个长期突出且具有显著可见性的问题。

EMI/RFI人员还发现了一种诱导可重复链接皮瓣的方法。在2.1 kV电压下对电源保护地线施加EFT脉冲,造成远端链路震荡。我随后创建远程链接皮瓣与我的EFT发生器在一个相对较低的值~ .38 Kva。

图2

控制台日志

<信息:vlan.msgs。portLinkStateDown>端口25连接断开

<信息:vlan.msgs。portLinkStateUp>端口25连接,速率10gbps

<信息:vlan.msgs。portLinkStateDown>端口25连接断开

<信息:vlan.msgs。portLinkStateUp>端口25连接,速率10gbps

<信息:vlan.msgs。portLinkStateDown>端口25连接断开

<信息:vlan.msgs。portLinkStateUp>端口25连接,速率10gbps

<信息:vlan.msgs。portLinkStateDown>端口25连接断开

将我的设置移动到射频室,我有两个交换机(DUT和BASELINE)后面板SFP+端口连接到远程交换机的前面板(客户配置)。基线和DUT单元都在测试室内,而远程开关在测试室外。我当时在处理两个随机样本,是我从工程部拿出来的,而不是客户的rma。

经过几天的测试,我开始尝试打开和关闭射频室的门,突然我开始注意到链接襟翼。它们会在短时间内发生,然后停止。然后我们对气流,金属板开/关/压力进行实验。只有当射频室门打开/关闭时,它才具有可重复性。

我让门开了一晚上,第二天早上我注意到,与前一晚相比,在特定的时间段内,开关会扑通一声,然后很长一段时间后,又会扑通一声。我感觉就像克里斯托弗·哥伦布发现了新大陆。没有人能重现这个问题,现在我重现了它。

我突然想到了。工程师们说欧洲那边的机房环境很冷。(我们楼里的)暖气晚上会调低。我抓起一个温度计,把它放在开关旁边,记录下一夜的温度。果然,在晚上,它们会循环散热,当温度达到特定的13.6摄氏度时,一个远程开关就会重复跳动。

我想调试为什么远程开关振荡,但本地一个没有。我们发现PHY正在发出远程故障状态错误,但本地故障寄存器没有得到设置。所以不管故障机制是什么,都是PHY的局部问题。作为一种解决方法,我们发现禁用远程故障状态指示器可以防止链路反弹,但会导致丢包和crc。我检查了主板,子板(VIM),连接器和布局再次寻找任何机械损坏的迹象。没有发现任何损坏迹象(见下图连接器没有显示损坏迹象)。

图4

接下来,我将本地开关从射频室移到热室,以确定准确的故障温度。当开关通过这个温度时,它最终是一个非常窄的带~ 13.3摄氏度。现在我们能够将其隔离为温度问题,是时候找出组件的根本原因了。我们在狭窄的温度带里上下扫视了房间,同时安装了一个瞄准镜。在相对较短的时间后,我隔离了25MHz振荡器上的抖动故障。替换$。50振荡器与更高级别的$2.00振荡器(相同的占地面积)消除了这个问题。

新振荡器相位噪声min/max= 2.5ps -> 3.1ps(过夜- 12898个样本)

旧振荡器相位噪声min/max = 6.9ps -> 8.5ps(~ 1小时-总体333个样本)

PHY规格是3 ps-rms (12KHz - 5Mhz)

下图显示了旧振荡器的抖动(午休时间):

图5

这张图片显示了新振荡器在一夜之间的抖动:

图6

这个故事实际上预示了我计划写的下一个故事,当一个非常聪明的芯片设计师来到现场帮助我们调试一个严重的问题时,他几乎被难住了。他做的第一件事就是把晶体振荡器换成一个高性能的锁相环振荡器。事实证明这并不是问题所在,但是当调试问题时,振荡器总是一个很好的开始。

Robert Haller, Extreme Networks的高级首席硬件工程师,致力于下一代以太网交换解决方案,是公司信号和电源完整性的领导者,并已担任DesignCon技术计划委员会成员17年。

你必须登录注册为了发表评论。
Baidu
map