
研究背景
人工智能(AI)邊緣設備需要高精度、能源高效的計算、大型片上模型存儲、快速的喚醒到響應時間以及具有成本效益的鑄造就緒解決方案。浮動點(FP)計算提供超過整數(INT)格式的精度,但代價是更高的功耗和存儲開銷。多電平單元(MLC)憶阻器計算內存(CIM)提供緊湊的非易失性存儲和能源高效的計算,但由于工藝變化的影響,容易造成精度喪失。數字靜態隨機存取內存(SRAM)CIM使計算無損,但由于大位元單元區域,存儲較低,并且在推理時需要加載模型。因此,使用同質CIM架構和計算格式的傳統方法,在效率、存儲、喚醒延遲和推理精度之間存在權衡。在此,臺灣半導體制造有限公司(臺積電)張孟凡團隊在“Nature”期刊上發表了題為“A mixed-precision memristor and SRAM compute-in-memory AI processor”的最新論文。他們提出了一種混合精度異質CIM AI邊緣處理器,該處理器支持基于對誤差的敏感性,按層粒度/內核粒度對網絡層進行劃分,分別在片上CIM架構(即憶阻器CIM、SRAM-CIM和小型數字單元)和計算數值格式(INT和FP)之間進行劃分。 這種層粒度/內核粒度的靈活性允許在硬件級別的二維設計空間內進行同時優化。所提出的硬件實現了高能源效率(ResNet-20在CIFAR-100上的40.91 TFLOPS W?1,MobileNet-v2在ImageNet上的28.63 TFLOPS W?1),低精度降級(ResNet-20在CIFAR-100上低于0.45%,MobileNet-v2在ImageNet上低于0.45%)和快速的喚醒到響應時間(373.52 μs)。
研究亮點
(1)實驗首次提出了一種異質INT-FP混合模式的AI邊緣處理器,并結合憶阻器、SRAM和數字單元實現了混合CIM架構,突破了傳統CIM架構在能效、存儲容量、精度和喚醒響應時間之間的權衡,得到了高能效和低精度降級的優異表現。(2)實驗通過分析訓練后每層的模型權重和激活模式分布,評估對誤差的敏感性,提出了基于層粒度和內核粒度的自適應分配方法,實現了INT和FP格式在硬件層面上的優化。結果顯示,提出的硬件在ResNet-20和MobileNet-v2兩種網絡架構中分別達到了40.91 TFLOPS W?1和28.63 TFLOPS W?1的能效,精度降級分別低于0.27%和0.42%。 (3)實驗通過引入非易失性存儲技術,采用快速加載部分權重到SRAM-CIM模塊,顯著提高了喚醒到響應的速度,最終實現了373.52 μs的快速響應時間。這一方法提升了硬件的適應性,支持了廣泛的邊緣計算應用,并為AI邊緣設備的設計提供了新的技術路徑。
圖文解讀
圖1:所提議的異質INT-FP混合模式和憶阻器-SRAM-數字混合CIM AI邊緣處理器概述。圖2:所提議的基于層的INT-FP混合模式控制器和混合模式實現概述。。
結論展望
本研究提出了一種異質AI邊緣處理器,支持根據誤差敏感性配置神經網絡(NN)層的片上CIM架構(即憶阻器CIM、SRAM-CIM和微型數字單元)和計算數值格式(INT和FP)。該硬件采用鑄造就緒的22納米憶阻器和SRAM技術制造,并通過涉及圖像分類的行業相關推理應用進行了驗證。該處理器的靈活性使其能夠根據神經網絡模型和數據集進行硬件配置,并且可以在給定的神經網絡模型中跨層和內核進行配置。能夠配置CIM架構和計算數值格式的二維設計空間,使得能夠優化多個沖突的指標,而這些指標在其他情況下可能會導致性能權衡。所提出的硬件實現了高能效(ResNet-20在CIFAR-100上的40.91TFLOPS W?1,MobileNet-v2在ImageNet上的28.63 TFLOPS W?1)、低精度降級(ResNet-20在CIFAR-100上的0.27%,MobileNet-v2在ImageNet上的0.42%)和快速的喚醒到響應時間(373.52 μs)。 Khwa, WS., Wen, TH., Hsu, HH. et al. A mixed-precision memristor and SRAM compute-in-memory AI processor. Nature (2025). https://doi.org/10.1038/s41586-025-08639-2