背景: 在过去十年中,来自互联设备的数十亿个传感器已被用于将物理信号和信息转换为数字世界。 由于计算能力有限,集成到嵌入式远程设备中的传感器通常会将原始和未经处理的数据传输到其主机。 然而,无线数据传输的高能耗影响了设备的自主性和数据传输的带宽。 提高能源效率可以开辟一系列新的应用并减少其环境足迹。 此外,数据处理将从远程主机传输到本地传感器节点。
因此,数据传输将仅限于结构化和有价值的数据,这是为此目的所必需的。 冯·诺依曼架构将处理和存储分开,要求数据在数据和信号处理或神经网络中的推理之间来回传输。 内存和处理单元之间的数据通信已经占科学计算中消耗的能量的三分之一。 为了克服冯·诺依曼通信瓶颈,人们正在探索内存计算架构,其中内存、逻辑和处理操作是并行的。 存储器处理设备特别适合执行向量矩阵乘法,这是数据处理中的关键操作,也是计算最密集的机器习算法。
通过利用物理内存层执行乘法累加 (MAC) 运算,该架构克服了冯·诺依曼通信瓶颈。 到目前为止,这种处理策略已用于求解线性和微分方程、信号和图像处理以及人工神经网络加速器等应用。 然而,为这种类型的处理器寻找最佳材料和设备的工作仍在进行中。
结果的介绍。 有鉴于此,近日,瑞士洛桑联邦理工学院的Andras Kis教授团队报道了一种集成的32 32矢量矩阵乘法器,该乘法器使用单层MOS2作为沟道材料,具有1024个浮栅FET。 在本文的晶圆级制造工艺中,实现了高良率和低器件间差异,这是实际应用的先决条件。
统计分析突出了使用单个编程脉冲实现多电平和模拟存储的潜力,允许使用高效的开环编程方案对加速器进行编程。 本文还演示了可靠的并行离散信号处理。 该文章发表在顶级期刊Nature Electronics上,题目为“A large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memory”。
*指导。
图1器件和基质的描述和表征。 (a) 连接到矩阵阵列的FGFET的3D渲染。 (b) FGFET的横截面3D视图。 (c) 存储矩阵配置的光学图像。 (d) 851 个工作装置的 IDS-VG 滞后曲线。 (e) 三维图显示了 32-32 芯片上的通断和关断电流映射。
该文采用基于电荷的存储器,以单层MOS2为通道材料,实现存储计算。 具体来说,FGFET的制造是为了利用2D半导体的静电敏感性。 为了实现更大的阵列,FGFET被集成到一个矩阵中,该矩阵允许通过仔细选择相应的行和列来定位单个存储元件。 图1a和b分别显示了存储器矩阵的3D渲染和每个FGFET的详细结构。 矩阵配置的使用允许更密集的拓扑结构,并直接对应于执行向量矩阵乘法。
存储器由采用栅极优先方法制造的本地 2nm 40nm CR PT 栅极控制。 这可以通过原子层沉积改善介电生长,并最大限度地减少 2D 通道曝光的工艺步骤,从而提高良率。 浮栅是夹在 30 nm HFO2 和 7 nm HFO2(隧穿氧化物)之间的 5 nm PT 层。
接下来,在 HFO2 上蚀刻通孔,以电连接底部金属 (M1) 和顶部金属 (M2) 层。 这是为了在源极和漏极信号之间不重叠而设置的。 晶圆级MOCVD生长的MOS2被转移到栅极堆栈的顶部并蚀刻以形成晶体管通道。 最后,将 2 nm 60 nm Ti Au 在顶部图案化并蒸发,形成晶体管的漏源触点以及第二金属层。 图 1c 显示了制造芯片的光学图像,该芯片有 32 行和 32 列,总共有 1,024 个存储器。
本文中的内存基于标准闪存。 存储机制依赖于通过改变捕获层中的电荷数 (δq) 来移动中性阈值电压 (VTH0),即 PT 浮栅。 当对栅极施加高正负偏置时,能带排列开始有利于电子从半导体隧穿到浮栅极,从而改变捕获层中的载流子浓度。 存储器窗口 (δvth) 是通过取正电路和负电路的阈值电压之差来定义的。 由于存储效果完全取决于基于电荷的过程,因此闪存往往比依赖材料的新兴存储器(如电阻式随机存取存储器和相变存储器)具有更好的可靠性和可重复性。
图 1d 显示了对每个设备执行的 IDS-VG 扫描。 该工艺的收率为831%,这些设备在统计上相似。 相对较高的关断状态电流是由于设置中使用的模数转换器缺乏分辨率所致。 高分辨率的单器件测量证实,典型的关断状态电流在皮安范围内。 图1e显示了存储器矩阵中的通断和关断电流分布。 在VDS=100 mV时,开/关电流形成两个不同的平面。 通断和关断电流在整个矩阵中表现出良好的分布。 该器件具有统计上相似的内存窗口 ΔVTH=430±0.25 v。
图2开环编程。 (a) 开环编程方案的双态运行示意图。 (b) 输出状态(wout)性别量表的分布。 (c) 输出状态 (WOUT) 在 log10 尺度中的分布。 (d) WOUT的log10值随器件位置和不同编程电压的变化而进行3D成像。 (e) 与编程状态相关的经验累积分布函数(ECDF)。
这些器件的相似性导致了对存储器编程行为的统计研究。 在存储计算环境中,开环编程分析是基础。 在对大型闪存阵列进行编程时,标准的写验证方法可能过于耗时。 对开环中存储状态的统计理解对于提高性能和速度至关重要。 在本文中,通过选择相应的行(i)和列(j)来独立刺激每个装置进行实验。 器件接口板中的模拟开关在选定的行 (i) 和列 (j) 中保持低阻抗路径,在其余行和列中保持高阻抗路径。 这确保了电位差仅施加到所需的器件上,从而避免了不必要的编程。
出于同样的原因,本文将器件编程和读取分为两个独立的阶段。 在编程阶段,选择相应的门线(行)和相应的源线(列),并将参数为 tpulse 和 vpulse 的编程脉冲施加到门上。 由于器件的隧穿特性,只需两个端子即可产生电荷注入浮栅所需的带弯曲。 脉冲后,栅极电压变为 vread,该电压足够低,可以防止对存储器状态进行重新编程。
在读数阶段,还连接了漏极线,并通过向漏极施加电压VDS来检测电导率值。 此两阶段过程是必需的,因为本文使用的是三端设备。 因此,栅极和漏极共用同一排,因此当栅极和漏极线啮合时,整排都会偏移。 如果在栅极中施加高电压,则在连接漏极线时将重新编程整条线路,从而导致内存中的信息丢失。 图 2a 显示了这个两阶段编程过程的描述。
对于后续测量,此处使用 vRead = -3 V、VDS=1 V 和 Tpulse = 100 ms。 在每次测量之前,通过施加一个10 V正脉冲来复位存储器,使器件进入低电导状态。 这种补偿方法将器件的编程可靠性提高了一个数量级。 对位进行编程时,每百万个错误有 500 个错误,而对擦除状态进行编程时,每百万个错误有一个错误。 图2b和c显示了不同脉冲强度后存储状态的线性和对数分布。 观察到脉冲幅度的增加伴随着更高的存储状态值和更大的**标度膨胀。
另一方面,通过分析状态值的对数,您可以看到内存具有明确定义的存储状态。 因此,该存储器具有多值存储的潜力,而无需写入验证算法,尤其是在对数刻度上。 图2d显示了整个芯片的状态空间分布。 据观察,对于不同的编程电压,存储器状态产生恒定的平面值。 最后,图2e显示了以对数表示的经验累积分布函数(ECDF)。 如前所述,这些结果支持多值编程的可能性,并表明存储器元素可用于存储用于内存计算的模拟权重。
图3MAC 操作。 (a) 输出存储器状态与编程错误()与编程电压(vprog)之间的关系。 (b)归一化YEXP图和YTHEORY图,比较MAC操作的实验理论结果。
完成开环分析(图3a)后,本文绘制了存储器状态()与编程电压(vprog)的关系图。 本文定义了四种均匀分布的状态(两位分辨率),并将它们编程为矩阵中的离散权重,用于向量矩阵乘法。
为了分析处理器在执行向量矩阵运算时的有效性,本文比较了归一化理论(Ytheory)的值和归一化实验(YEXP)的值(图3b)。 对于 yexp=a ytheory+b,实验点的线性回归显示为参数 a=0988±0.008 和 b = -0129±0.003,阴影区域对应于 95% 置信区间。
理想的处理器应收敛到 a=1 和 b=0,置信区间收敛为线性拟合。 在本文中,处理器具有收敛到理想情况的线性行为,实验值具有较大的扩散和轻微的非线性。 本文从存储器的非理想性和由于状态分辨率有限而导致的量化误差来解释这种行为。 参数b的这种变化可以用ytheory=0时的固有跨阻放大器位移和存储器泄漏来解释,但它不会影响观察到的线性趋势。
因此,可以以合理的精度执行 Mac 操作。 该操作用于执行各种类型的算法,例如人工神经网络中的信号处理和推理。
图4基于内存处理的信号处理。 (a) 不同滤波器(低-高通滤波器和身份滤波器)的基于卷积的信号处理描述。 (b)理论核权重成像与转移到记忆电导的实验权重的比较。 (c) 每个内核**末端的输出信号与实验输出的快速傅里叶变换(FFT)比较。
接下来,本文将配置此加速器以执行信号处理,以演示实际场景和应用。 对于信号处理,输入信号 (x) 与内核 (h) 进行卷积以获得处理后的信号 (y)。 根据内核元素的性质,可以实现不同类型的处理。
在这里,本文仅限于三个不同的内核,分别执行低通滤波、高通滤波和馈通。 所有内核在单个处理周期中并行工作,展示了处理器通过并行处理解决以数据为中心的问题的效率。 可以并行添加更多内核,仅受矩阵大小的限制。 图4a显示了卷积运算和用于处理输入信号的不同内核。
将负核心值编码为存储电导值的策略是将内核 (h) 划分为仅具有正值的内核 (h+) 和具有负绝对值的内核 (h),并且仅编码与电导值 (g) 直接相关的正数。 处理后,减去正磁芯(y+)和负磁芯(y)的输出,得到最终信号(y)。 图4b显示了原始权重与使用前面描述的开环编程方案传递到存储器矩阵中的权重的比较。 为了简化传输,每个磁芯的权重被归一化到最大值。 观察到原始值和实验值之间有很好的一致性。
接下来,为了验证处理的有效性,首先将输入信号(x)构造为不同频率的正弦波之和。 通过这种方式,可以很容易地检测滤波器在不同频率下的行为,而不会产生过于复杂的信号。 由于信号同时具有正值和负值,因此信号幅度必须落在设备工作的线性区域内。
因此,vread=0时的信号范围限制在-100 mV至100 mV之间。 图4c显示了模拟处理信号和实验信号的快速傅里叶变换。 模拟信号和测量信号中的灰线是每个内核的快速傅里叶变换,为每次操作的行为提供指导。 这三种滤波器的实验过程与理论值和原型滤波器吻合较好。
总结和展望。
本文报道了2D材料作为半导体通道在存储器处理器中的大规模集成。 本文从开环编程中编程状态的表征和统计相似性方面证明了该器件的可靠性和可重复性。 处理器执行矢量矩阵乘法,并通过执行离散信号处理来说明其功能。 本文的研究方法可以使内存处理器获得2D材料的好处,并为物联网的边缘设备带来新功能。
书目信息。 a large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memories
nat. electron., 2023, doi:10.1038/s41928-023-01064-1)