末成年小嫩xb,嫰bbb槡bbbb槡bbbb,免费无人区码卡密,成全高清mv电影免费观看

Nat. Electron.:基于單層MoS2存儲器的大規模集成式矢量矩陣乘法處理器

Nat. Electron.:基于單層MoS2存儲器的大規模集成式矢量矩陣乘法處理器

? ? ? ? ??

研究背景

在過去的十年中,數十億來自互聯設備的傳感器被用于將物理信號和信息轉化為數字世界。由于有限的計算能力,集成到嵌入式遠程設備中的傳感器通常將原始和未處理的數據傳輸到其主機。然而,無線數據傳輸的高能量成本影響了設備的自主性和數據傳輸帶寬。提高它們的能效可以開辟一系列新的應用,并減少它們的環境足跡。此外,數據處理將從遠程主機轉移到本地傳感器節點。因此,數據傳輸將限于結構化和有價值的數據,這是為此目的所需要的。馮·諾伊曼架構將處理和存儲分離,要求在神經網絡中進行數據和信號處理或推理時,數據在兩者之間來回傳輸。存儲器和處理單元之間的數據通信已經占到科學計算所消耗能量的三分之一。為了克服馮·諾依曼通信瓶頸,人們正在探索內存計算架構,其中內存、邏輯和處理操作是并行的。存儲處理器件特別適合執行向量矩陣乘法,這是數據處理的關鍵操作,也是機器學習算法中最密集的計算。通過利用存儲器的物理層來執行乘法累加(MAC)操作,該架構克服了馮·諾依曼通信瓶頸。到目前為止,這種處理策略已用于求解線性和微分方程、信號和圖像處理以及人工神經網絡加速器等應用。然而,尋找這種類型處理器的最佳材料和器件仍在進行中。

? ? ? ? ??

成果介紹

有鑒于此,近日,瑞士洛桑聯邦理工學院Andras Kis教授團隊報道了一種集成式32×32矢量矩陣乘法器,該乘法器采用單層MoS2作為溝道材料,具有1024個浮柵場效應晶體管。在本文的晶圓級制造工藝中,實現了高良率和低器件間變化,這是實際應用的先決條件。統計分析強調了用單個編程脈沖進行多電平和模擬存儲的潛力,允許該加速器使用有效的開環編程方案進行編程。本文還以并行方式演示了可靠,離散的信號處理。文章以“A large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memories”為題發表在頂級期刊Nature Electronics上。

? ? ? ? ??

圖文導讀

Nat. Electron.:基于單層MoS2存儲器的大規模集成式矢量矩陣乘法處理器

圖1. 器件和矩陣的描述和表征。(a)連接成矩陣陣列的FGFET的三維渲染。(b)FGFET的橫截面三維圖。(c)存儲矩陣配置的光學圖像。(d)851個工作器件的IDS-VG遲滯曲線。(e)三維圖顯示了32×32芯片上的開和關電流映射。

? ? ? ? ??

本文通過使用單層MoS2作為溝道材料,利用電荷基存儲器來實現存儲計算。具體而言,本文制造了FGFET來利用2D半導體的靜電敏感性。為了實現更大的陣列,將FGFET集成在一個矩陣中,可以通過仔細選擇相應的行和列來定位單個存儲元素。圖1a和b分別顯示了存儲矩陣的三維渲染圖和每個FGFET的詳細結構。使用矩陣配置允許更密集的拓撲結構,并直接對應于執行向量矩陣乘法。存儲器是由用柵極優先方法制造的局部2nm/40nm Cr/Pt柵極控制的。這使得能夠通過原子層沉積來改善電介質的生長,并最大限度地減少2D溝道暴露的工藝步驟,從而提高良率。浮柵是一個5 nm的Pt層,夾在30 nm的HfO2和7 nm的HfO2(隧穿氧化物)之間。接下來,在HfO2上刻蝕通孔,電連接底部金屬(M1)和頂部金屬(M2)層。這是路由源極和漏極信號沒有重疊所必需的。晶圓級MOCVD生長的MoS2被轉移到柵極堆疊的頂部并刻蝕形成晶體管的溝道。最后,2 nm/60 nm的Ti/Au在頂部圖案化并蒸發,形成晶體管的漏-源接觸以及第二金屬層。圖1c顯示了制造的芯片的光學圖像,包含32行和32列,總共有1,024個存儲器。

本文的存儲器是基于標準的閃存。存儲機制依賴于通過改變俘獲層中的電荷數(ΔQ)來移動中性閾值電壓(VTH0),即Pt浮柵。當高正/負偏置施加到柵極上時,能帶對齊開始有利于從半導體到浮柵的電子隧穿進入/出去,改變了俘獲層中的載流子濃度。通過取正反路的閾值電壓之差來定義存儲窗口(ΔVTH)。由于存儲效應完全依賴于電荷基過程,閃存往往比依賴于材料的新興存儲器(如電阻式隨機存取存儲器和相變存儲器)具有更好的可靠性和可重復性。圖1d顯示了為每個器件執行的IDS-VG掃描。該工藝的良率為83.1%,器件具有統計學上的相似性。相對較高的關斷狀態電流是由于在設置中使用的模數轉換器缺乏分辨率。高分辨單器件測量證實了典型的關斷狀態電流在皮安量級。圖1e顯示了存儲矩陣上的開和關電流分布。在VDS=100 mV時取開和關電流,形成兩個不同的平面。開和關電流在整個矩陣中表現出良好的分布。器件具有統計上相似的存儲窗口ΔVTH=4.30±0.25 V。

? ? ? ? ??

Nat. Electron.:基于單層MoS2存儲器的大規模集成式矢量矩陣乘法處理器

圖2. 開環編程。(a)開環編程方案的兩態操作示意圖。(b)輸出狀態(wOUT)在線性刻度中的分布。(c)輸出狀態(wOUT)在log10刻度中的分布。(d)wOUT的log10值三維成像與器件位置和不同編程電壓的關系。(e)經驗累積分布函數(ECDF)與編程狀態的關系。

? ? ? ? ??

這些器件的相似性促使對存儲器的編程行為進行統計研究。在存儲計算環境中,開環編程分析是基礎。在編程大型閃存陣列時,標準的寫入-驗證方法可能過于耗時。對開環中存儲狀態的統計理解對于提高性能和速度至關重要。本文通過選擇相應的行(i)和列(j)來獨立激勵每個器件進行實驗。器件接口板中的模擬開關在所選的行(i)/列(j)中保持低阻抗路徑,在其余行和列中保持高阻抗路徑。這確保了電位差僅施加到所需的器件,避免了不必要的編程。出于同樣的原因,本文將器件編程和讀取分為兩個獨立的階段。在編程階段,選擇相應的柵極線(行)和相應的源極線(列),并在柵極中施加參數為TPULSE和VPULSE的編程脈沖。由于該器件的隧穿特性,只需要兩個終端就可以產生向浮柵中電荷注入所需的能帶彎曲。脈沖后,柵極電壓變為VREAD,該電壓低到足以防止對存儲器狀態進行重新編程。在讀取階段,也連接漏極線,通過對漏極施加電壓VDS來探測電導值。這個兩階段的過程是必需的,因為本文使用的是三端器件。因此,柵極和漏極共用同一行、因此,當柵極和漏極線接合時,整個行都是偏置的。如果在柵極中施加高壓,當漏極線連接時,整個行將被重新編程,導致存儲器中的信息丟失。圖2a顯示了這個兩階段編程過程的描述。對于隨后的測量,本文使用VREAD=-3 V,VDS=1 V和TPULSE=100 ms。在每次測量之前,通過施加一個正的10 V脈沖來重置存儲器,這使器件進入低電導狀態。這種補償方法使器件的編程可靠性提高了一個數量級。對一個比特進行編程時,每百萬錯誤中有500個錯誤,而對擦除狀態進行編程時,每百萬錯誤中有一個錯誤。圖2b和c顯示了不同脈沖強度后存儲狀態的線性和對數分布。觀察到在線性刻度上,脈沖幅度增加伴隨著更高的存儲狀態值和更大的擴展。另一方面,通過分析狀態值的對數,可以看到存儲器具有定義良好的存儲狀態。因此,該存儲器具有無需寫入-驗證算法的多值存儲潛力,特別是在對數刻度上。圖2d顯示了整個芯片上狀態的空間分布。觀察到對于不同的編程電壓,存儲器狀態產生一個恒定的平面值。最后,圖2e顯示了對數表示的經驗累積分布函數(ECDF)。如前所述,這些結果支持多值編程的可能性,并表明存儲元件可用于存儲內存計算的模擬權重。

? ? ? ? ??

Nat. Electron.:基于單層MoS2存儲器的大規模集成式矢量矩陣乘法處理器

圖3. MAC操作。(a)具有編程錯誤()的輸出內存狀態與編程電壓(VPROG)的關系。(b)歸一化yEXP與yTHEORY圖,比較MAC操作的實驗理論結果。

? ? ? ? ??

隨著開環分析的完成(圖3a),本文繪制了存儲器狀態()與編程電壓(VPROG)的關系。本文定義了四個等分布的狀態(兩位分辨率),并將其編程為矩陣中用于向量矩陣乘法的離散權重。為了分析處理器執行向量矩陣運算的有效性,本文比較了(圖3b)在幾個點積運算上得到的歸一化理論(yTHEORY)值與歸一化實驗(yEXP)值。對于yEXP=a×yTHEORY+b,實驗點的線性回歸顯示為參數a=0.988±0.008和b=-0.129±0.003,陰影區域對應95%置信區間。理想的處理器應該收斂于a=1和b=0,置信區間收斂于線性擬合。在本文的情況下,處理器具有收斂于理想情況的線性行為,實驗值具有較大的擴展和輕微的非線性。本文用存儲器的非理想性和由于狀態有限分辨率而產生的量化誤差來解釋這種行為。參數b的這種變化可以用yTHEORY=0處的固有跨阻放大器偏移和存儲器漏電來解釋,但它不影響觀察到的線性趨勢。因此,可以以合理的精度進行MAC操作。該操作用于執行各種類型的算法,例如人工神經網絡中的信號處理和推理。

? ? ? ? ??

Nat. Electron.:基于單層MoS2存儲器的大規模集成式矢量矩陣乘法處理器

圖4. 基于內存處理的信號處理。(a)用于不同濾波器(低/高通濾波器和恒等濾波器)的基于卷積的信號處理描述。(b)理論內核權重成像與轉移到存儲器電導的實驗權重比較。(c)每個內核后仿真和實驗輸出信號的快速傅里葉變換(FFT)比較。

? ? ? ? ??

接下來,本文配置這個加速器來執行信號處理,以演示真實世界的場景和應用程序。對于信號處理,輸入信號(x)與內核(h)進行卷積,得到處理后的信號(y)。根據內核元素的性質,可以實現不同類型的處理。在此,本文限制在三個不同的內核中,分別執行低通濾波、高通濾波和饋通。所有內核在一個處理周期內并行工作,證明了該處理器通過并行處理來解決以數據為中心問題的效率。可以并行地添加更多的內核,只受矩陣大小的限制。圖4a顯示了卷積操作和用于處理輸入信號的不同內核。將負內核值編碼為存儲器電導值的策略是將內核(h)分成只有正數值的內核(h+)和負數絕對值的內核(h),只編碼與電導值(G)有直接關系的正數。處理完成后,將正內核(y+)和負內核(y)的輸出相減,得到最終信號(y)。圖4b顯示了使用前面描述的開環編程方案將原始權重與傳遞到內存矩陣中的權重的比較。為了簡化傳輸,將每個內核的權重按其最大值歸一化。觀察到原始值和實驗值之間有很好的一致性。接下來,為了驗證處理的有效性,首先將輸入信號(x)構造為不同頻率的正弦波和。通過這種方式,可以很容易地探測不同頻率下濾波器的行為,而不會產生過于復雜的信號。由于信號有正值和負值,因此信號幅度必須落在器件工作的線性區域內。因此,將VREAD=0時的信號范圍從-100 mV限制到100 mV。圖4c顯示了模擬處理信號和實驗信號的快速傅里葉變換。模擬和測量信號中的灰線是每個內核的快速傅里葉變換,為每個操作的預測行為提供了指導。這三種濾波器的實驗過程與理論值以及原型濾波器相當吻合。

? ? ? ? ??

總結與展望

本文報道了在內存處理器中大規模集成2D材料作為半導體溝道。本文在開環編程中編程狀態的表征和統計相似性方面證明了器件的可靠性和可重復性。處理器執行向量矩陣乘法,并通過執行離散信號處理來說明其功能。本文的研究方法可以讓內存處理器獲得2D材料的好處,并為用于物聯網的邊緣器件帶來新的功能。

? ? ? ? ??

文獻信息

A large-scale integrated vector-matrix multiplication processor based on monolayer molybdenum disulfide memories

Nat. Electron., 2023, DOI:10.1038/s41928-023-01064-1)

原創文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.zzhhcy.com/index.php/2023/12/06/43df85eac6/

(0)

相關推薦

主站蜘蛛池模板: 神农架林区| 于都县| 类乌齐县| 全南县| 于田县| 栖霞市| 汶川县| 德化县| 托里县| 泗水县| 尼木县| 东宁县| 江北区| 定州市| 荆门市| 同心县| 长岭县| 独山县| 邳州市| 白朗县| 广西| 东海县| 郁南县| 图木舒克市| 香河县| 临海市| 通山县| 乃东县| 普兰县| 绥宁县| 儋州市| 凤山县| 江口县| 酒泉市| 神木县| 德令哈市| 南宁市| 光泽县| 长岛县| 顺义区| 吴堡县|