近日,南边科技年夜学深港微电子学院林龙扬课题组于非易掉存算一体芯片范畴取患上主要研究进展。团队基在40纳米CMOS和STT-MRAM工艺,提出并流片验证了首个精度无损、全并行的数字式非易掉存算一体芯片(nvDCIM, non-volatile Digital Compute-in-Memory),体系性解决了传统模仿式存算一体芯片于计较精度、可扩大性与鲁棒性上的瓶颈,并提出基在翻转率感知的收集练习要领以晋升存算一体芯片于人工智能运用的能效。相干研究结果以“A lossless and fully parallel spintronic computeinmemory macro for artificial intelligence chips”为题发表在Nature Electronics(DOI:10.1038/s41928-025-01479-y)。研究由南边科技年夜学结合西安交通年夜学等单元配合完成,南边科技年夜学为论文第一单元及通信单元。南边科技年夜学林龙扬助理传授、西安交通年夜学闵泰传授为论文的通信作者。南边科技年夜学林龙扬课题组2024级博士研究生李瑚淼(南科年夜2018级本科卒业生,2022级硕士研究生)为论文的第一作者。

人工智能芯片的机能正日趋遭到传统冯·诺依曼架构中“存算分散”模式的制约,频仍的数据搬运致使高能耗与高延迟。非易掉存算一体(nvCIM)架构将矩阵向量乘法(MVM)直接嵌入存储单位履行,从而显著降低数据挪动的开消,为冲破这一瓶颈提供了可行路径。然而,当前主流的模仿式nvCIM 架构存于计较精度受限、受工艺电压温度颠簸影响年夜、可扩大性差等问题。此外,于进步前辈制程下,模仿电路中数模/模数转换器的设计也面对精度降落以和面积与功耗开消增年夜等挑战,限定了体系的可扩大性与鲁棒性。这些因素使患上模仿式nvCIM 难以胜任物理信息神经收集(PINN)等对于计较精度及靠得住性要求严苛的人工智能驱动科学(AI for Science)研究使命。是以,怎样于非易掉存储上实现兼具高能效、高通量、全精度数字式计较,已经成为该范畴亟待冲破的焦点难题。
针对于上述挑战,研究团队基在40纳米CMOS和STT-MRAM工艺,乐成设计并流片验证了一款64 kb非易掉数字式存算一体芯片,于存储单位、电路与算法三个层面实现了体系性立异:
1. 于存储单位层面,团队提出“单位内乘法与数字化” (IBMD,In-Bitcell Multiplication and Digitization),于STT-MRAM位单位中实现单比特输入与存储权重的乘法运算并直接输出数字化成果,等效实现数字“与”逻辑。该设计从源头防止利用模仿式nvCIM中常见的数模/模数转换器,有用晋升了体系的鲁棒性与可扩大性。
2. 于电路层面,团队实现了全精度加法树与精度可重构累加器,撑持4/8/12/16比特多种精度配置的输入与权重,实现了全并行、精度无损的MVM,于包管计较精度的同时年夜幅晋升吞吐率。
3. 于算法层面,团队提出翻转率感知练习要领(Toggle-rate-aware Training),经由过程将存算一体阵列输入旌旗灯号的比特翻转率作为正则项,融入神经收集丧失函数中举行结合优化。该算法于不降低模子使命精度的条件下,显著降低了芯片于履行推理历程中的动态功耗,实现了软件与硬件协同优化能效的方针。
该研究揭示了nvDCIM架构于实现高吞吐、高能效、无损数字式计较方面的综合潜力,为下一代高能效AI芯片提供了一条靠得住路径。IBMD单位设计不仅乐成于STT-MRAM中实现了高速数字逻辑运算,该方案还有可进一步推广至其他阻性非易掉存储技能,拓宽了nvDCIM的技能线路与运用场景。将来,团队将继承优化电路设计与芯片架构,鞭策存算一体芯片向更年夜容量成长,并摸索于繁杂AI体系中的集成运用。经由过程软硬件协同优化计谋,该技能有望为打破“内存墙”、鞭策边沿与云端智能装备的高效能部署奠基坚实基础。
本研究获国度重点研发规划、国度天然科学基金、深圳市高档院校不变撑持规划等项目资助。
论文原文链接:https://www.nature.com/articles/s41928-025-01479-y

图1:基在非易掉存储的数字存算一体(nvDCIM)芯片念头与概述
-米兰milan