隨著高效能運算(HPC)工作負載日益復雜,生成式 AI 正加速整合進現代系統,推動先進內存解決方案的需求因此日益增加。為了應對這些快速演進的需求,業界正積極發展新一代內存架構,致力于提升帶寬、降低延遲,同時增加電源效能。DRAM、LPDDR 以及利基型內存技術的突破正重新定義運算效能,而專為 AI 優化的內存方案,則扮演了驅動效率與擴展性的關鍵角色。華邦的半定制化超高帶寬元件 (CUBE) 內存即是此進展的代表,提供高帶寬、低功耗的解決方案,支持 AI 驅動的工作負載。本文將探討內存技術的最新突破、AI 應用日益增長的影響力,以及華邦如何透過策略性布局響應市場不斷變化的需求。
先進內存架構與效能擴展
內存技術正迅速演進,以滿足 AI、AIoT 與 5G 系統對效能的嚴苛要求。產業正迎來前所未有的架構革新,DDR5 與 HBM3E 的廣泛應用將成為新趨勢,這些技術可同時提供更高帶寬與更佳的能源效率。DDR5 的單腳位數據速率最高可達 6.4 Gbps,每模塊可達 51.2 GB/s,效能幾乎為 DDR4 的兩倍,且工作電壓由 1.2V 降至 1.1V,進一步提升功耗效率。HBM3E 則將帶寬推升至每堆棧逾 1.2 TB/s,為 AI 大型訓練模型提供理想的效能。然而,其高功耗特性使其不適合用于移動設備與邊緣端部署。
隨著 LPDDR6 預計在 2026 年突破 150 GB/s 的帶寬,低功耗內存正朝向更高的傳輸效率與能源效益邁進,以應對 AI 智能型手機與嵌入式 AI 加速器所面臨的挑戰。華邦正在研發小容量的 DDR5 和 LPDDR4 解決方案,以便對功耗要求應用進行優化。同時,華邦推出了 CUBE 內存,旨在實現超過 1 TB/s 的帶寬并降低熱耗散。
CUBE 的未來容量預期可擴展至每組 8GB,甚至更高。例如,采用單一光罩區(reticle size)制程的 4Hi WoW 堆棧架構,可實現逾 70GB 的容量與 40TB/s 的帶寬,使 CUBE 成為 AI 邊緣運算領域中,相較傳統內存架構更具優勢的替代方案。
此外,CUBE 的子系列 CUBE-Lite 提供 8-16GB/s 的帶寬(相當于 LPDDR4x x16/x32),其運作功耗僅為 LPDDR4x 的 30%。在不搭載 LPDDR4 PHY 的情況下,SoC 僅需整合 CUBE-Lite 控制器,即可達成相當于 LPDDR4x 滿速的帶寬表現,不僅可節省高額的 PHY 授權費用,更能采用 28nm 甚至 40nm 的成熟制程節點,達成原先僅能在 12nm 工藝下實現的效能水平。
此架構特別適用于整合NPU 的 AI-SoC、AI-MCU,可驅動具備電池供電需求的 TinyML 終端裝置。搭配 Micro Linux 操作系統 與 AI 模型執行,可應用于 IP 攝影機、AI 眼鏡、穿戴式設備等低功耗 AI-ISP 終端場景,有效達成系統功耗優化與芯片面積縮減的雙重效益。
生成式AI 部署下的內存瓶頸
生成式 AI 模型的指數級增長將帶來前所未有的內存帶寬與延遲挑戰。特別是基于 Transformer 架構的 AI 工作負載,對運算吞吐量與高速數據存取能力有極高需求。
以 LLamA2 7B 為例,在 INT8 模式下部署至少需要 7GB 的內存,即便轉為 INT4 模式仍需 3.5GB,凸顯目前移動設備內存容量的限制?,F階段使用 LPDDR5(帶寬 68 GB/s)的 AI 智能型手機,已面臨明顯瓶頸,市場急需 LPDDR6 的進一步發展。然而,在 LPDDR6 商用化之前,仍需有過渡性解決方案來填補帶寬缺口。
從系統層面來看,機器人、自動駕駛汽車與智能傳感器等 AI 邊緣應用也對功耗與散熱提出更嚴苛的挑戰。盡管 JEDEC 標準正朝 DDR6 與 HBM4 演進,以提升帶寬利用率,華邦的 CUBE 內存作為一種半定制化架構,則提供符合 AI SoC 要求的高擴展性與高效能替代方案。CUBE 結合了 HBM 級別帶寬與低于 10W 的功耗,是邊緣 AI 推理任務的理想選擇。
散熱與能源效率的雙重挑戰
將大型 AI 模型部署至終端設備,將面臨顯著的散熱與能源效率挑戰。AI 工作負載本身即需大量能耗,所產生的高熱容易影響系統穩定性與效能表現。
? 裝置端內存擴充:
為減少對云端 AI 處理的依賴并降低延遲,行動裝置需整合更高容量的內存。然而,傳統 DRAM 的擴展已接近物理極限,未來須透過混合式架構,整合高帶寬與低功耗內存以突破瓶頸。
? HBM3E 與CUBE 的比較:
盡管 HBM3E 可實現極高的數據傳輸速率,但其單堆棧功耗超過 30W,并不適用于移動邊緣應用。華邦的 CUBE 則可作為替代型最后層快取 (Last Level Cache, LLC),有效降低對芯片內 SRAM 的依賴,同時維持高速數據存取能力。隨著邏輯制程邁入次 7nm 時代,SRAM 面臨更嚴重的縮放瓶頸,凸顯新一代快取解決方案的迫切需求。
? 散熱優化策略:
AI 處理可能導致單一芯片產生超過 15W 的熱負載,因此,如何有效分配功耗與進行熱管理成為關鍵。華邦透過 CUBE 采用的 TSV(Through Silicon Via, 硅穿孔)封裝技術,并優化內存的刷新周期,協助在小型化裝置中實現 AI 執行的最佳能效。
DDR5 與DDR6:推升AI 運算效能的催化劑
DDR5 與 DDR6 的演進標志著 AI 系統架構的重大轉折點,帶來更高的內存帶寬、更低延遲以及更佳的擴展性。
DDR5 采用 8 組 Bank Group 架構與芯片內建的 ECC(Error-Correcting Code , 錯誤修正碼),提供優異的數據完整性與效能,非常適合用于 AI 強化的筆記本電腦與高效能 PC。其單模塊的最大傳輸率達 51.2 GB/s,能支持實時推理、多任務處理與高速數據運算需求。
DDR6 目前仍在研發階段,預期將實現超過 200 GB/s 的模塊帶寬,功耗降低約 20%,并針對 AI 加速器進行優化設計,進一步拓展 AI 運算的極限。
華邦在AI 內存領域的策略領導力
華邦積極推動專為 AI 工作負載與嵌入式處理應用所設計的內存架構創新,其市場策略重點包括:
· CUBE 作為AI 優化內存:
透過 TSV(穿硅互連)技術,整合高帶寬與低功耗特性,CUBE 是行動與邊緣 AI SoC 的理想內存解決方案。
· 與OSAT 合作伙伴協同創新:
華邦與外包半導體封裝與測試(OSAT)伙伴密切合作,推動與下一代 AI 硬件的深度整合,優化內存封裝效率并降低系統延遲。
· 面向未來的內存創新藍圖:
華邦專注于 AI 專用內存解決方案、專屬高速緩存設計,以及優化 LPDDR 架構,致力于支持高效能運算、機器人與實時 AI 處理等未來應用。
結語
AI 驅動的工作負載、效能擴展的挑戰,以及對低功耗內存解決方案的迫切需求,正共同推動內存市場的深度轉型。生成式 AI 的迅猛發展,加速了對低延遲、高帶寬內存架構的渴求,進一步促使內存與半定制化內存技術持續創新。
華邦憑借其在 CUBE 內存及 DDR5/LPDDR 系列技術上的領先優勢,已成為新一代 AI 運算的重要推手。隨著 AI 模型日益復雜,市場對兼具高效能與能源效率的內存架構需求將更加迫切。華邦對技術創新的長期承諾,讓其持續站穩 AI 內存進化的前沿,實現高效能運算與可持續擴展性之間的最佳平衡。
###
關于華邦電子
華邦電子為全球半導體存儲解決方案領導廠商,主要業務包含產品設計、技術研發、晶圓制造、營銷及售后服務,致力于提供客戶全方位的利基型內存解決方案。華邦電子產品包含利基型動態隨機存取內存、行動內存、編碼型閃存和TrustME?安全閃存,廣泛應用在通訊、消費性電子、工業用以及車用電子、計算機周邊等領域。華邦電子總部位于中國臺灣中部科學園區,在臺中與高雄設有兩座12寸晶圓廠,未來將持續導入自行開發的制程技術,為合作伙伴提供高質量的內存產品。此外,華邦在中國大陸及香港地區、美國、日本、以色列、德國等地均設有子公司,負責營銷業務并為客戶提供本地支持服務。
Winbond 為華邦電子股份有限公司( Winbond Electronics Corporation)的注冊商標,本文提及的其他商標及版權為其原有人所有。