工程的噩梦
工程噩梦RSS提要RSS

下面是在职和实验室的工程师们分享他们最痛苦、最有趣或最奇怪的工程经历。大多数结局都很好!
电源完整性

循环冗余校验(CRC)噩梦

2017年12月15日

这篇文章是SI/PI问题和经验的延续,我很乐意与社区分享。开云体育双赢彩票我的上一篇文章得到了积极的反馈开关扑动的神秘个案(//www.lambexpress.com/blogs/11-engineering-nightmares/post/543-mysterious-case-of-the-flapping-switch所以我会继续尝试捕捉一些有趣的故事。希望这将帮助其他人快速调试他们的实验室噩梦。

我们正在接近设计下一代刀片的最后阶段,这将升级已经存在的底盘。我们已经将背板速度提高了一倍以上,并且已经执行了重要的SERDES预强调调优和DVT。我们已经准备好制作最后一组线卡和织物卡,所以进度压力很大。

我们开始间歇性地在一些高速通道中遇到CRC(循环冗余检查)错误。开云体育官网登录平台网址高速通道是行业中非常典型的:F开云体育官网登录平台网址R4上大约30英寸长的通道,高速连接器,线路卡,穿过背板,然后进入fabric卡(见图1)。我们使用了一种相对较新的但非常流行的开关/fabric芯片技术,两端都是相同的供应商,所以我们不需要担心SERDES供应商不匹配的问题。我们还对通道进行了广泛的模拟和测试,认为我们不会有任何问题。开云体育官网登录平台网址

这些CRCs开始在实验室中作为随机故障出现,并且局限于一些较长的通道(但不是最长的通道)。开云体育官网登录平台网址一些平台运行时不会出现错误,而另一些平台则会出现更一致的错误。

由于背板设计已经发布多年,所以更换背板材料或连接器是不可能的。特别有趣的是,这些随机错误发生在室温下的某些系统上,而不是所有系统。我们开始收集各种测试设备来尝试和调试这个问题。我们有实时采样高速瞄准镜和TDR。我们花了大半个月的时间在这个问题上从早到晚。这阻碍了运输的可能性,我们不得不静下心来,尽一切努力解决这个问题。

正如我在上一篇文章中提到的,一旦一个问题是局部可重现的,您就可以检查通常的怀疑对象:软件、硬件、布局、机械、电源、时钟和通道。我开始测量显示该问题的本地织物卡上的时钟。一切都符合规格,而且,由于我们只在一两个频道上看到了一个问题,我们认为不太可能是时钟的问题(它们在所有频道上都很常见)。开云体育官网登录平台网址

接下来,我们继续分析进入织物芯片的功率。有多种电源都有非常严格的直流和交流规格。我们测量了所有的铁轨。我们比较了直流电平和规格,交流电平和噪音没有发现任何可疑的东西。芯片上的SERDES电源轨道驱动四个“四边形”,因此我们认为这不太可能是局部电源问题,因为该四边形中的更多/所有SERDES都会出现这个问题。接下来我和同事重新检查了布局。我们发现了一些小缺陷,但没有确凿的证据。我们将所有的测量重复了多次。

在时域和频域对信道进行了分析。我们测量了好通道和坏通道的眼睛(见图2和图3)。它们看起来非常相似。虽然“坏通道”有更多的抖动和稍差的视力,没有什么我们可以把我们的手指,会导致这些类型的CRC错误。


图2:Bad channel的Eye和TIE


图3:Good Channel的Eye和TIE

尤其令人沮丧的是错误似乎来了又去。有时我们每分钟都能看到一些,有时我们几个小时都看不到。我们开始探索EMI/RFI问题。我们用铜箔包裹本地开关电源,试验了各种类型的屏蔽。当工程副总裁走出来,从我的肩膀上看过去时,他难以置信地倒吸了一口冷气,因为我们将不得不实施某种精心设计的盾牌。我向他解释说,我们只是试图找出问题的根源,不一定能想出解决办法。

我给几位行业专家打了电话,他们都是我多年来断断续续工作过的同事。每个人都被难住了(尽管有一个人提出来帮我收取标准咨询费:-))。当这些错误消失几个小时后,我们以为我们找到了一些东西,但很快它们就回来了。最后,我决定打电话给一个来自以色列的芯片开发人员,他是SI/RF专家,对asic有复杂的知识,我叫他“M”(不要和詹姆斯·邦德虚构的军情六处的负责人混淆)。

“M”是一个非常聪明的家伙,他在这些芯片上工作了很多年,对设计非常了解:芯片、SERDES、封装、SI、PI、逻辑和SW(他也是另一个工程噩梦的救世主)。通常系统设计工程师(ASIC客户)永远不会接触到实际的芯片设计师,但我们将成为非常好的客户,他们足够小,可以为我们提供额外的客户服务。多年来,我一直与他断断续续地讨论各种问题,包括分享模拟和测量结果。他之前还审阅过最初的设计。

由于M的妻子正在美国攻读博士学位,我们可以和他协商,让他来看看。旅行安排好后,M给我发了一长串的设备清单,让我在他来之前拿到:高速示波器,VNA,频谱分析仪,相位噪声分析仪,DVM,烙铁,流量发生器,误码测试仪,……一些设备是我们自己的,其余的是我们乞求和借来的。有些东西我们没有。

当M在一个星期一的早晨到达时,我们开始着手工作。他做的第一件事就是把振荡器拉下来,换成一个基于SI_LAB锁相环的振荡器。这对CRC错误没有影响,但它极大地改善了抖动轮廓,并且,正如我所了解的,这是消除可能的时钟错误的一种方法。

在调试问题时,您需要成为一个侦探,逐个排除可能性。他自己焊接,因为他不相信任何实验室技术人员能保持引线短,模拟回路电感,而不会搞砸。他教了我很多我做梦都没想过的技巧。在信封的背面(字面上),他设计并实现了分散的功率分配器,然后专业地将它们焊接到通道中,这样我们就可以将一个输出输入范围,另一个输入通道。因为我们没有VNA,他实际上级联了两个高速瞄准镜,一个在时域,一个在频域,我以前从来没有见过这样的东西。

M编写了他自己的软件,包括以前编写的GUI,允许我们在ASIC上运行各种模式集和有效负载,以帮助调试。他提到在他早年的时候,他经常背着频谱分析仪爬天线,调试射频问题。不用说,我们对他广泛而深厚的技能印象深刻。我们花了一个月的时间才完成他一周的工作。它接近4的结尾理查德·道金斯天又看着我说;“这个问题可能无法解决。”他并不是想表现得傲慢,而是继续说道:“如果我不能解决它,它就不能解决……”

我们打开了他的GUI并输入101010101用于传输移除头的有效载荷。这个想法是,任何耦合到传输信号上的噪声都会出现在频域,因为设置一个固定的交替1和0的传输模式将导致一个强载波频率,消除任何ISI或确定性抖动,这可以很容易地用频谱分析仪查看。

我们重新测量了通道突然我们注意到通道里有东西。这是马刺~ -47db下降,我看到他的眼睛闪烁。他说,我们必须找到这是从哪里来的,并开始追查源(IO)板,我们几乎完全忽略了这一点。然后他开始用我们新借来的频谱分析仪观察SERDES 1V0。我们探测了源板电源上的1V0 SERDES开关电源,我们观察到杂散随着频率(开关频率的谐波)的振幅增加,其中一个特别令人担忧的@ -25.56 dB杂散在~ 2.5 Mhz(见图4)。


图4:1V SERDES开关电源IO ASIC

他接着解释说,ASIC中的CDR(时钟数据恢复)电路对1MHz至4MHz区域的噪声特别敏感。通常1MHz以下的噪声可以忽略,因为锁相环很容易跟踪这些变化。由开关电源(为asic提供电源)产生的噪声在这个区域是显著的,并且它被直接馈送到通道中。

在信道中插入一个功率分配器并在信道中驱动交替的1和0的想法是一个伟大的技巧。我们验证了故障通道发射的频谱内容与1.0V SERDES数字电源的频谱内容相匹配(见图5)。该信号随后会被下游开关芯片接收,并导致其CDR偶尔出现故障。


图5:1V电源和信道频谱叠加(不同垂直尺度)

所以现在我们已经有了导致CRCs的根源,这是一个简单的事情,试图改善或修复开关电源。一些较老的开关电源实际上比新开关电源噪音小得多。我们从上一代电路板上取出一个切换器,并将其焊接到新一代电路板上(图6),这又是一个神奇的小壮举。


图6:旧的1V切换器,焊接在新的IO卡上

在频域内观察1V0 SERDES电压前后的功率谱非常引人注目(图7-9):


图7:1V0 SERDES噪声前后

耦合到驱动专用集成电路通道的噪声也有了很大的改善。因此,答案是要有正确的工具/设备来调试问题,有足够知识的人知道要寻找什么,最后还要有独创性,利用手头的东西来创建解决方案。


图8:1V0变化前的原始通道功率谱(运行101010模式)


图9:1V0变化后的新通道功率谱(101010)

我们检查的原始开关电源显示出明显的噪声,不适合为使用敏感的SERDES CDR的部件提供电源。我们最终购买了一个价格适中的频谱分析仪,以帮助将来的调试和电源设计的DVT。除了清理电源噪声频谱问题外,我们还清理了各种较小的布局问题,并在IO和织物叶片上使用SI_LABS振荡器,以利用其更好的抖动特性。(它的价格也很有竞争力)。在解决开关电源噪声问题后,我们能够运行一个满载的机箱,所有通道在全带宽和温度下切换,而没有任何crc。开云体育官网登录平台网址

Baidu
map