1. 引言
随着后摩尔时代的到来,传统计算架构面临日益严峻的挑战。一方面,以人工智能(AI)为代表的数据密集型应用对计算能力和能效提出了前所未有的需求,使得冯·诺依曼架构固有的“存储墙”和“功耗墙”问题愈发突出。数据在处理器和存储器之间频繁迁移消耗了大量的能量和时间,严重制约了系统整体性能的提升。另一方面,量子计算作为一种颠覆性的计算技术,其规模化发展迫切需要能够在极低温环境下高效工作的经典控制、读出和处理电子系统。将这些经典电子系统与脆弱的量子比特在物理上尽可能靠近,是实现大规模、高保真度量子计算机的关键。
存内计算(In-Memory Computing, IMC)通过在存储单元内部或近存储单元执行计算任务,从根本上减少了数据迁移,为解决上述挑战提供了一条极具前景的技术路径。将IMC技术与低温环境相结合,即低温存内计算(Cryogenic IMC, Cryo-IMC),则有望带来更为显著的优势。低温环境能够显著改善半导体器件的电学特性,提升计算速度、降低功耗。对于量子计算而言,低温是其固有工作环境,在量子芯片附近部署低温IMC单元,可以直接处理量子比特的控制与读出信号,并执行关键的辅助计算任务,如量子纠错(Quantum Error Correction, QEC)解码,从而显著提升量子计算系统的整体性能和可扩展性。
本应用旨在交互式地呈现低温存内计算领域的研究进展,帮助用户理解其核心概念、关键技术、面临的挑战以及未来发展方向。
2. 低温CMOS器件与电路基础
CMOS器件在低温环境下(如77K液氮温区,4K液氦温区)的电学特性会发生显著变化。这些变化对低温电路设计至关重要,既带来了机遇(如性能提升),也带来了挑战(如参数漂移和噪声)。本节将概述关键变化及其对基础电路单元的影响。
2.1 低温下CMOS器件关键电学特性变化
- 阈值电压 ($V_{TH}$): 通常随温度降低而升高。例如,GAA n-MOSFET从300K降至1.7K时,$V_{TH}$增加约100 mV。这可能需要更高的电源电压或$V_{TH}$调控技术。
- 载流子迁移率 (µ): 在一定低温范围内显著提高(如300K降至77K),提升晶体管跨导和饱和电流,从而提高电路速度。但在极低温下可能因杂质散射而饱和或下降。
- 亚阈值摆幅 (SS): 随温度降低而显著减小(改善),使开关特性更陡峭,利于低压工作和降低静态功耗。极低温下改善可能饱和。
- 漏电流 ($I_{OFF}$): 急剧减小几个数量级,极大降低静态功耗,延长动态存储器的刷新时间。
- 1/f 噪声与随机电报噪声 (RTN): 低温下行为复杂,可能出现“过剩1/f噪声”和更多RTN激活缺陷,影响模拟精度。
- 可靠性 (HCI, BTI): 热载流子注入(HCI)在某些情况下可能在低温时恶化。
- 互连电阻与热导率: 金属互连电阻率降低,硅衬底热导率提高,有利于减小延迟和改善散热。
表1数据可视化:低温下CMOS关键参数变化
下图展示了从文献中提取的部分CMOS器件在低温下的关键参数变化。请注意,这些数据点来自不同研究和器件类型,旨在提供一个趋势性概览。将鼠标悬停在条形上可查看具体数值。
2.2 低温特性对基础数字和模拟电路单元的影响
- SRAM单元: 静态噪声容限(SNM)改善,静态功耗降低。但$V_{TH}$升高和失配加剧对成品率和可靠性提出更高要求。
- eDRAM/增益单元: 漏电流急剧下降,保持时间指数级延长(如4T TGGC eDRAM在4.2K下保持时间达66.5秒),实现“准静态”操作。
- 逻辑门: 开关速度更快,动态功耗更低。
- 敏感放大器 (SA): 响应速度提升,但$V_{TH}$失配和噪声可能导致失调电压增大。
- ADC/TDC: 为高速、高分辨率设计提供可能,但器件失配和噪声仍是限制因素。
3.1 面向AI加速的低温存内计算
人工智能模型对计算和存储资源的需求日益增长,传统架构面临能效瓶颈。低温存内计算(Cryo-IMC)通过在低温下利用IMC的高并行度和低数据迁移特性,为AI加速器带来了显著的性能和能效提升潜力。本节将探讨基于非易失性和易失性存储器的技术路径。
请使用上方导航栏中的“AI加速IMC”下拉菜单选择查看基于“非易失性”或“易失性”存储器的具体技术。
3.1.1 AI加速:基于非易失性存储器(NVM)的技术
NVM因其高密度和非易失性,适合存储神经网络权重。低温环境可能改善NVM的某些特性。
MRAM (磁性随机存取存储器)
核心原理: 利用磁隧道结(MTJ)的隧穿磁阻效应(TMR)存储信息。通过自旋转移矩(STT)写入。IMC通过并行读取MTJ电流实现向量内积。
代表研究: Hou等报道77K下1Kb STT-MRAM阵列。Cryo-SIMPLY方案 (77K, STT-MRAM, DMTJ读出裕量提高2.3倍)。
关键技术点: 双势垒MTJ (DMTJ) 在低温下性能更优。低温下TMR比值增大,STT写入临界电流可能降低。
性能指标 (77K): DMTJ-SIMPLY读出裕量提高2.3倍 (vs 300K传统方案),逻辑操作能耗降低69% (vs SMTJ)。
挑战: 降低写功耗/延迟,提高密度,更低温度性能表征。
FeFET (铁电场效应晶体管)
核心原理: 利用铁电材料(如HZO)的剩余极化调制沟道电导。不同极化态对应不同$V_{TH}$。IMC通过并行读取沟道电流。
代表研究: Parihar等研究5nm Fe-FinFET低温(10K)超维计算。Khan等综述铁电材料低温应用前景。
关键技术点: HfO$_2$基铁电材料与CMOS兼容。Fe-FinFET结构。低温理论上有助提高耐久性和保持性。
性能指标 (5nm Fe-FinFET TCAM @10K): 延迟较高 (5.62ns),功耗比SRAM低~50% (0.431µW),能耗较高 (4.31pJ),错误概率较高 (70.7%)需优化。
挑战: 耐久性、保持时间、$V_{TH}$窗口稳定性、器件失配、自热效应。
RRAM/ReRAM (阻变存储器)
核心原理: 通过在阻变材料中形成/断开导电细丝实现高低阻态切换。IMC利用交叉阵列实现VMM。
代表研究: IBM报道14nm模拟RRAM在77K下读噪声抑制88%,动态范围提高2200%,MNIST准确率96.5% (TTv2)。
关键技术点: 金属氧化物材料。低温下导电细丝随机性可能降低,热扰动减小,改善稳定性和噪声。
性能指标 (@77K): 读噪声降88%,模拟动态范围增2200%。
挑战: 器件非理想性(涨落、非线性)、模拟态耐久性/保持性、潜行电流。
PCRAM (相变存储器)
核心原理: 利用硫族化合物在非晶态和晶态间的可逆相变存储。通过焦耳热实现SET/RESET。
代表研究: Wong等综述PCRAM技术。亚100nm GST器件电阻漂移研究。
关键技术点: GST材料。低温可能影响相变动力学。电阻漂移是关键问题。
性能指标: 缺乏低温IMC具体数据。室温下写速度快,多值潜力好。耐久性约$10^9$次。
挑战: RESET功耗高,电阻漂移,耐久性,热串扰。低温下行为待研究。
MTI/QAHE忆阻器 (磁性拓扑绝缘体/量子反常霍尔效应)
核心原理: 利用MTI的手性边缘态或拓扑表面态,电流调控磁化状态改变霍尔电阻。QAHE器件用于逻辑运算。
代表研究: Liu, Shao等开创MTM低温(2K)存内计算。CryoCiM框架 (QAHE NVM低温逻辑)。
关键技术点: 掺杂拓扑绝缘体材料。霍尔棒结构。低温下SOT效应增强。拓扑保护态。
性能指标 (MTM @2K): 读/写/VMM能耗比RRAM/MRAM低70-90%。写随机性1.9%,读随机性0.37%。MNIST准确率97.59%。
挑战: 材料生长,器件制造与集成,扩展性,更高温度性能。
3.1.2 AI加速:基于易失性存储器(VM)的技术
VM通常具有更快的读写速度和更高耐久性。低温环境可显著改善其某些特性,如eDRAM的保持时间。
SRAM (静态随机存取存储器)
核心原理: 交叉耦合反相器锁存数据。IMC通过修改单元结构(8T, 10T)或配合外围电路实现。
关键技术点: 低温下速度提升,静态功耗降低。但$V_{TH}$升高和失配加剧是挑战。
性能指标: 缺乏专门低温SRAM-IMC芯片数据。室温下已展示高TOPS/W。
挑战: 存储密度低于NVM/eDRAM。模拟计算易受失配和噪声影响。大模型权重存储受限。
eDRAM/增益单元
核心原理: 通过电容存储电荷。IMC利用存储电荷量调制读出电流/电压。
代表研究: CryoMem (4K-300K, 1.3GHz eDRAM)。Zheng等 (28nm, 3T1C低温eDRAM, 4K无需刷新)。Wang等 (CQS-eDRAM, 4T TGGC, 4.2K极长保持时间)。
关键技术点: 2T, 3T1C, 4T TGGC等结构。低温下漏电流急剧降低,保持时间极大延长 (秒级)。
性能指标: CQS-eDRAM @4.2K: 保持时间66.5s (提高$1.37 \times 10^6$倍),保持功耗112fW,ResNet-18能效提高2.63倍。
挑战: 低温下$V_{TH}$变化对读写操作影响,"准静态"行为评估。
3.2 面向量子计算应用的低温存内计算
量子计算机的规模化发展需要高效的经典控制和读出电子系统。低温IMC单元集成在量子处理器附近,可用于量子比特控制、量子态读出、量子纠错解码等关键任务。
请使用上方导航栏中的“量子计算IMC”下拉菜单选择查看基于“非易失性”、“易失性”或“超导/混合”技术的具体方案。
3.2.1 量子计算:基于非易失性存储器(NVM)的技术
NVM在量子计算低温IMC中主要用于存储校准参数、查找表、机器学习模型权重(用于QEC或控制优化)等。
MRAM
应用场景: 存储量子比特控制脉冲参数, QEC解码查找表, Cryo-SIMPLY逻辑单元。
代表研究: 低温MTJ电路和Cryo-SIMPLY方案的可靠性与能效提升为其应用奠定基础。
FeFET
应用场景: 存储量子比特校准数据, 控制序列查找表, 基于ML的QEC解码器权重。
代表研究: 5nm Fe-FinFET低温(10K)超维计算的模式匹配能力可借鉴于QEC。
RRAM/ReRAM
应用场景: 实现基于神经网络的QEC解码器中的突触权重。
代表研究: IBM 77K模拟ReRAM的低噪声和高动态范围。TiO$_x$忆阻器交叉阵列实现表面码QEC解码 (伪阈值 $9.23 \times 10^{-4}$)。
MTI/QAHE Memristors
应用场景: 量子纠错和量子态制备的ML算法加速。CryoCiM框架 (QAHE NVM低温逻辑用于QEC解码器)。
代表研究: Liu, Shao等MTM在2K下进行图像识别和量子态制备,能效远超传统RRAM/MRAM。CryoCiM展示基于QAHE的逻辑门。
3.2.2 量子计算:基于易失性存储器(VM)的技术
VM在量子计算低温IMC中主要发挥其速度优势,用于需要快速读写和处理的场景。
SRAM-based IMC
应用场景: QEC解码器的高速缓存 (综合征数据, 错误概率图, 中间计算结果)。
代表研究: Wang等对用于RNN QEC解码器的嵌入式存储技术(含SRAM, DRAM)进行低温基准测试。在4.2K, >75kHz访问速率下,2T LVT DRAM功耗效率可优于SRAM。
eDRAM/Gain Cell-based IMC
应用场景: 为QEC解码器提供比SRAM更高密度的片上存储 (综合征图谱, QEC解码图片段)。
代表研究: CQS-eDRAM在4.2K下的优异保持特性和低功耗。Wang等人的低温DRAM评估。
3.2.3 量子计算:基于超导器件或新兴混合技术的低温存内计算方案
直接利用超导电子学器件(如Josephson结)或混合技术是与超导量子比特接口的重要研究方向。
超导电子学 (SFQ, RQL, JRAM等)
核心原理: 利用Josephson结的超导隧道效应和磁通量子化实现极高速、极低功耗的数字逻辑和存储。
应用场景: 直接控制超导量子比特, 实现高速QEC解码器, 量子协处理器。
关键技术点与性能: 极高速度(GHz级), 极低功耗(远低于CMOS)。与超导量子比特天然兼容。
挑战: 存储密度远低于半导体存储器, 设计复杂, 制造特殊, 大规模集成难。
混合CMOS-超导系统
核心原理: 结合CMOS的集成度和复杂功能,以及超导电路的速度和低功耗优势。
应用场景: 低温控制器, 接口电路, 复杂QEC解码逻辑。
代表研究: 低温CMOS ASIC用于量子比特控制。低温CMOS多路复用器控制超导量子比特。28nm体硅CMOS芯片用于超导量子处理器单元完全控制。
挑战: 异构集成 (物理连接, 信号电平转换, 热管理)。
3.3 综合对比、性能评估与技术成熟度分析
本节旨在对各种低温存内计算技术路径的关键性能参数、CMOS兼容性、技术成熟度等进行综合对比。下表总结了主要信息,并通过交互式图表尝试进行多维度比较。由于测试条件和工艺节点的差异,直接的跨技术定量比较存在局限性。
技术路径筛选与雷达图比较
选择最多3种技术进行多维度比较(数据为示意性,基于报告定性描述)。
表2数据:低温存内计算技术路径综合对比
| 存储技术 | 主要应用焦点 | 核心IMC原理 | 工作温度(K) | 能效 (示意) | 速度/延迟 (示意) | 存储密度 (示意) | 可靠性 (示意) | CMOS兼容性/成本 | 技术成熟度 |
|---|---|---|---|---|---|---|---|---|---|
| MRAM (STT) | AI加速 (权重存储, LIM) | 模拟VMM, 数字LIM (SIMPLY) | 77 | 中 | 中 (MHz级) | 中高 | 中 (读出裕量改善) | BEOL兼容/中高 | 原型芯片/研究 |
| FeFET (Fe-FinFET) | AI加速 (HDC, TCAM) | 模拟VMM ($V_{TH}$调制) | 10 | 中 (写能耗优) | 慢 (ns级读) | 中高 | 中低 (错误率高需优化) | BEOL兼容 (HZO)/高 (FinFET) | 研究/器件级 |
| RRAM/ReRAM | AI加速 (NN训练/推理) | 模拟VMM (交叉阵列) | 77 | 高 (动态范围改善) | 中 (依赖外围) | 高 | 中 (模拟态可靠性挑战) | BEOL兼容/中 | 原型芯片/研究 |
| PCRAM | AI加速 (权重存储) | 模拟VMM | RT为主 | 中 (低温数据少) | 快 (ns级写) | 高 | 中 (电阻漂移) | BEOL兼容/中 | 器件研究 |
| MTI/QAHE Memristor | AI加速 (ML算法) | 模拟VMM (巨异霍尔效应) | 2 | 极高 | - | 中 | 高 (低随机性) | 工艺复杂/高 | 前沿研究 |
| SRAM | AI加速 (缓存, 轻量模型) | 模拟/数字CIM | 77, 4 | 高 (室温) | 极快 (ns级) | 中 | 中 (SNM改善但失配敏感) | 标准CMOS/低 | 成熟技术/研究 |
| eDRAM/Gain Cell | AI加速 (高密度片上存储) | 电荷域计算 | 4.2, 4 | 高 (能效提高2.63x) | 快 (GHz级) | 中高 | 高 (保持时间极大延长) | 逻辑工艺兼容/中 | 原型芯片/研究 |
| MRAM (Quantum) | QEC (查找表), 控制参数 | LIM | 77, 4 | - | - | 中高 | - | BEOL兼容/中高 | 概念/研究 |
| FeFET (Quantum) | QEC (ML解码器权重), 校准数据 | 模拟VMM | 10, 4 | - | - | 中高 | - | BEOL兼容 (HZO)/高 | 研究 |
| RRAM/ReRAM (Quantum) | QEC (ML解码器权重) | 模拟VMM | 77, 4 | 高 (QEC伪阈值) | - | 高 | 中 (低温改善) | BEOL兼容/中 | 研究/原型 |
| MTI/QAHE (Quantum) | QEC, 量子态制备 (ML加速) | 模拟VMM, 数字逻辑 | 2 | 极高 | - | 中 | 高 | 工艺复杂/高 | 前沿研究 |
| SRAM (Quantum) | QEC (高速缓存), 控制逻辑 | 模拟/数字CIM | 4.2, 4 | 中 (DRAM更优@>75kHz) | 极快 | 中 | 中 (可靠性需评估) | 标准CMOS/低 | 研究/原型 |
| eDRAM/Gain Cell (Quantum) | QEC (高密度缓存) | 电荷域计算 | 4.2, 4 | 高 (低保持功耗) | 快 | 中高 | 高 (保持时间长) | 逻辑工艺兼容/中 | 研究/原型 |
| SFQ/RQL/JRAM | 量子比特控制, QEC解码器 | 数字逻辑/存储 | <4 (mK级) | 极高 (极低功耗) | 极高 (GHz级) | 低 | 极高 (无漏电) | 特殊工艺/极高 | 研究/小规模集成 |
4. 共性挑战与未来展望
4.1 共性挑战
- 先进低温PDK的缺乏与器件建模的复杂性: 商用PDK主要针对室温,缺乏准确的深低温区模型,阻碍精确设计与仿真。
- 低温下器件变异性与可靠性模型的完善: 低温下器件对参数涨落更敏感,HCI等老化机制可能加剧。
- 大规模高密度集成的工艺挑战: 高密度存储阵列与复杂外围逻辑的集成,新兴存储技术与CMOS工艺兼容性。
- 高效且低成本的片上或近片制冷方案: 外部制冷系统昂贵且复杂,限制推广。
- 与量子芯片等其他低温部件的异构集成技术: 热管理、电磁兼容性、互连技术、封装与材料兼容性。
- 低温测试与表征的标准化与效率: 缺乏标准化流程和设备,测试耗时长。
4.2 未来展望与潜在突破方向
- 新型低温存储材料与器件的探索: 二维材料、拓扑材料与自旋电子学、先进铁电材料、相变材料工程。
- 创新的低温电路设计与架构: 噪声与失配免疫设计、利用低温特性的新架构、三维异构集成架构。
- 低温PDK的协同开发与标准化: 学术界与工业界合作,建立开放平台。
- 集成化低温制冷与热管理技术: 片上或封装集成的微型制冷技术。
- 学科交叉融合带来的新机遇: 低温IMC与神经形态计算、与量子信息科学的深度融合(专用QEC解码器硬件、量子ML加速、智能量子比特控制)、与新材料科学的协同创新、AI辅助的低温IMC设计。
- 针对特定AI应用场景和特定量子计算任务的优化。
5. 结论
低温存内计算(Cryo-IMC)作为应对后摩尔时代计算挑战和赋能大规模量子计算的关键技术方向,近年来取得了显著进展。研究表明,低温环境能够显著改善CMOS器件的电学特性,为提升IMC单元的性能奠定了物理基础。然而,$V_{TH}$管理、过剩1/f噪声、可靠性问题以及精确低温PDK的缺乏,依然是器件和电路层面需要克服的挑战。
在AI加速领域,低温NVM-IMC和VM-IMC(特别是eDRAM)均展现出各自的优势和潜力。在量子计算领域,低温IMC对于实现可扩展的量子比特控制、高效读出和低延迟量子纠错解码至关重要。尽管各项技术路径均取得了令人鼓舞的成果,但低温IMC的广泛应用仍面临共性瓶颈,如大规模集成、高效制冷、异构集成以及标准化测试等。
展望未来,低温IMC的发展将依赖于多学科的协同创新。新型低温材料与器件的探索、噪声与失配免疫的电路设计、集成化制冷方案的突破,以及与神经形态计算、量子信息科学的深度交叉融合,将是未来重要的研究方向。克服现有挑战并抓住发展机遇,低温存内计算技术有望为未来高性能计算和量子计算领域带来革命性的影响。