您当前的位置: 首页 >> 新品发布/设计应用

英特尔用AI技巧发现数据中心芯片中隐藏的缺陷

作者:美共电子交流圈电子网 日期:2025-04-25 点击数:2

对于大型数据中心中的高性能芯片,数学可能是敌人。由于超大规模数据中心正在进行的计算规模庞大,在数百万个节点和大量硅片上全天候运行,因此会出现极其罕见的错误。这只是统计数据。这些罕见的、“无声的”数据错误不会在传统的质量控制筛查中出现,即使公司花费数小时寻找它们也是如此。

本月,在加利福尼亚州蒙特雷举行的 IEEE 国际可靠性物理研讨会上,英特尔工程师介绍了一种使用强化学习来更快地发现更多无声数据错误的技术。该公司正在使用机器学习方法来确保其 Xeon 处理器的质量。

数据中心发生错误时,运营商可以关闭并替换节点,或者使用有缺陷的系统进行低风险的计算,英特尔亚利桑那州钱德勒园区的电气工程师 Manu Shamsa 说。但如果能及早发现错误,那就更好了。理想情况下,他们会在芯片集成到计算机系统之前被发现,此时可以进行设计或制造更正以防止将来再次出现错误。

“在笔记本电脑中,您不会注意到任何错误。在具有真正密集节点的数据中心中,星星很有可能对齐并发生错误。— Intel 的 Manu Shamsa

找到这些缺陷并不容易。沙姆萨说,工程师们对它们感到非常困惑,他们开玩笑说,这一定是由于远距离的幽灵般的动作,爱因斯坦对量子纠缠的称呼。但他们并没有什么令人毛骨悚然的,Shamsa 花了数年时间来描述他们。在去年同一会议上发表的一篇论文中,他的团队提供了这些错误原因的完整目录。大多数是由于制造过程中的微小变化。

即使每个芯片上的数十亿个晶体管中的每一个都正常工作,它们彼此之间也不完全相同。例如,给定晶体管对温度、电压或频率变化的响应方式的细微差异可能会导致误差。

由于计算速度和涉及的大量芯片,这些微妙之处更有可能在大型数据中心中出现。“在笔记本电脑中,您不会注意到任何错误。在具有真正密集节点的数据中心中,星星很有可能对齐并发生错误,“Shamsa 说。

只有在数据中心安装了芯片并运行了数月后,才会出现一些错误。晶体管特性的微小变化会导致它们随着时间的推移而退化。Shamsa 发现的一个这样无声错误与电阻有关。起初正常工作并通过标准测试以寻找短路的晶体管,在使用后会降解,从而变得更耐用。

“你认为一切都很好,但在下面,错误导致了错误的决定,”Shamsa 说。Shamsa 说,随着时间的推移,由于单个晶体管的轻微弱点,“一加一会变成三,悄无声息,直到你看到影响。

机器学习发现缺陷

这项新技术建立在一组现有的检测静默错误的方法(称为 Eigen 检验)之上。这些测试使芯片在一段时间内重复做困难的数学题,以期使无声错误明显。它们涉及对填充了随机数据的不同大小的矩阵的作。

有大量的 Eigen 检验。运行所有这些应用程序将花费不切实际的时间,因此芯片制造商使用随机方法来生成一组可管理的内存条。这样可以节省时间,但不会检测到错误。“没有原则来指导输入的选择,”Shamsa 说。他想找到一种方法来指导选择,以便相对较少的测试可能会发现更多错误。

英特尔团队使用强化学习为其至强 CPU 芯片的部分开发测试,该部分使用所谓的熔断-乘法-加法 (FMA) 指令执行矩阵乘法。Shamsa 表示,他们选择 FMA 区域是因为它占据了芯片的相对较大的区域,使其更容易受到潜在的静默错误的影响——更多的硅,更多的问题。更重要的是,芯片这一部分的缺陷会产生电磁场,从而影响系统的其他部分。由于 FMA 在不使用时会关闭以节省电量,因此对其进行测试需要反复打开和关闭电源,这可能会激活隐藏的缺陷,否则这些缺陷不会出现在标准测试中。

在训练的每个步骤中,强化学习程序都会为潜在有缺陷的芯片选择不同的测试。它检测到的每个错误都被视为奖励,随着时间的推移,代理会学会选择哪些测试可以最大程度地提高检测到错误的机会。经过大约 500 个测试周期后,该算法学习了哪组 Eigen 测试优化了 FMA 区域的错误检测率。

Shamsa 说,这种技术检测到缺陷的可能性是随机 Eigen 测试的五倍。特征测试是开源的,是面向数据中心的 openDCDiag 的一部分。因此,其他用户应该能够使用强化学习来修改他们自己的系统的这些测试,他说。

在某种程度上,无声、细微的缺陷是制造过程中不可避免的一部分——绝对的完美和均匀性仍然遥不可及。但 Shamsa 表示,英特尔正试图利用这项研究来学习更快地找到导致静默数据错误的前兆。他正在研究是否存在可以为未来错误提供早期预警的危险信号,以及是否可以更改芯片配方或设计来管理它们。


本站所有文章、数据、图片均来自网友原创提供和互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱: