工業技術研究院 資訊與通訊研究所 黃士銘 蘇金沛

CXL記憶體是基於PCIe的高速低延遲互連技術,可突破伺服器插槽限制,實現大容量與共享化的記憶體擴充。
前言
在生成式AI、巨量資料分析與雲端服務的推動下,資料中心正遭遇容量、頻寬與延遲三大記憶體瓶頸。傳統伺服器固定的DRAM(Dynamic Random-Access Memory)架構不僅造成資源浪費,更限制運算效能與擴充彈性。CXL(Compute Express Link)基於PCIe(Peripheral Component Interconnect Express)互連,透過一致性、高頻寬且可熱插拔的跨伺服器記憶體通道,引入記憶體擴充、池化與階層化機制,為資料中心架構轉型提供關鍵契機。本文將剖析CXL技術現況、硬體與軟體生態成熟度,以及雲端與HPC(High Performance Computing)工作負載的部署挑戰,探討產業鏈與工研院資訊與通訊研究所(以下簡稱資通所)在中介層與管理工具層面可能的合作機會與策略。
精彩內容
資料中心記憶體架構面臨的瓶頸與變革需求 CXL技術推動資料中心架構的轉型 CXL生態系統與硬體成熟度與資料中心部署現況 CXL支援的雲端與HPC應用場景 系統軟體與管理工具的配套 |
資料中心記憶體架構面臨的瓶頸與變革需求
隨著AI(Artificial Intelligence)、巨量資料分析與雲端服務的快速發展,資料中心對記憶體的需求急速攀升,現有的DRAM架構已逐漸顯露極限。傳統伺服器的記憶體配置多半固定於單一伺服器內部,資源調度彈性不足,經常造成記憶體資源浪費。例如某些工作負載可能尚未完全使用伺服器上的CPU(Central Processing Unit)資源,但已因記憶體不足而無法新增工作;或是CPU資源已滿,但仍有大量記憶體處於閒置狀態。此外,為維持系統穩定性與效能,伺服器通常需保留一定比例的記憶體空間,導致多台伺服器各自閒置未充分利用的記憶體資源,增加管理成本、能源消耗與碳排放量,與企業永續發展目標背道而馳。整體而言,傳統記憶體架構的問題可歸納為以下三點:
1 記憶體容量與插槽限制造成資源浪費
傳統伺服器的記憶體容量受限於主機板的DRAM插槽數量,無法因應工作負載的動態變化,造成資源配置的低效率與浪費。此固定配置使CPU與記憶體資源難以達到最佳利用率,進而提高資料中心的整體擁有成本(Total Cost of Ownership,TCO)與環境負擔。[1][2]
2 CPU核心數持續成長,但記憶體頻寬增長停滯
儘管CPU的核心數量在近年大幅增加,但每個核心可獲得的記憶體頻寬成長幅度卻相對有限。例如,在AI領域,近兩年內運算效能提升高達750%,但對應的DRAM頻寬卻僅成長約1.6倍。此種失衡導致處理器的運算能力無法完全發揮,形成明顯的效能瓶頸。[3]
3 記憶體存取延遲與跨節點效能瓶頸
現有技術中,當伺服器本地端記憶體容量不足時,可透過遠端直接記憶體存取(Remote Direct Memory Access,RDMA)技術來存取其他伺服器上的記憶體,以緩解資源不足的壓力。然而,RDMA存取遠端記憶體時存在明顯的延遲差異,延遲的幅度通常比不同NUMA(Non-Uniform Memory Access)記憶體節點間的存取更高,處理器存取記憶體的延遲逐漸成為影響整體效能的關鍵因素,尤其是在本地端(local)與遠端(remote)記憶體之間的存取延遲差異,導致效能損耗更為明顯,且這類的技術也容易讓系統運作更加複雜,甚至需要應用程式配合修改才能使用遠端的記憶體來加強運算。隨著資料中心記憶體使用需求持續增加,這種本地端與遠端記憶體存取延遲差異所帶來的效能問題也日益凸顯,進一步加劇資料中心在處理複雜工作負載時的挑戰與困難。[4][5]
上述這些問題凸顯現行記憶體架構已逐步難以滿足資料中心高彈性、高效能運算環境的需求,迫切需要新的技術與架構變革來解決這些瓶頸。
CXL技術推動資料中心架構的轉型
CXL由Intel於2019年提出,並與AMD、Arm、IBM、NVIDIA、Google、Microsoft等公司共同成立CXL聯盟推動標準發展。CXL記憶體是基於PCIe的高速低延遲互連技術,可突破伺服器插槽限制,實現大容量與共享化的記憶體擴充。它讓CPU、GPU等運算元件以近似本地端DRAM的效能存取外部記憶體,並支援直接附掛與池化共享。為了突破上述記憶體架構的限制,業界在CXL技術領域投入多種創新的解決方案,主要包含以下三種技術方向,但各自也面臨相應的挑戰:
1 記憶體分層架構(Memory Tiering)
此方法結合本地端高速的DRAM與遠端的CXL記憶體,構成多層次的混合記憶體架構,類似於現行儲存系統中的分層處理模式。透過將高頻存取的熱資料放置在低延遲的本地端DRAM[7],較少存取的資料放在容量較大的CXL記憶體,能平衡成本與效能。然而,CXL記憶體相較於DRAM的延遲仍明顯偏高,這使得資料在不同層間移動時可能出現效能落差,影響系統的整體效能穩定性。
2 記憶體資源池化(Memory Pooling)
CXL 2.0規範允許記憶體資源跨多台伺服器集中管理並按需求動態分配,形成資源池化機制[8],有效解決資源閒置與浪費的問題,提升資源利用彈性。不過,記憶體資源池化帶來頻寬分配與管理的複雜性,尤其當DRAM與CXL記憶體的頻寬差距明顯時,管理與調度機制必須非常謹慎,以避免CXL流量干擾DRAM的服務品質。此外,不同廠牌硬體間的整合與相容性測試仍在進行中,互操作性(Interoperability)尚待更完整的驗證。
3 不均衡記憶體存取優化(Memory Access Optimization)
為緩解跨節點及跨層記憶體存取的延遲差異,研究者提出MIKU[6]等動態存取管理機制。此方法透過即時監控並動態調整DRAM與CXL之間的存取優先級,以達到效能上的平衡。但現有的作業系統與虛擬化軟體尚未完全支援這種多層次的記憶體架構管理方式,需進一步改進系統管理能力與透明化支援,以確保此優化方法的有效落實。
儘管這些創新技術仍存在延遲瓶頸、頻寬管理複雜度、軟體平台支持不足以及異質硬體整合的挑戰,但它們的持續演進與成熟,已經逐漸改變資料中心對記憶體資源的運用模式。如圖1之CXL發展趨勢所示,目前市場已普遍採用的CXL 2.0規範,主要透過記憶體擴充(Memory Expansion)的方式將CXL記憶體設備透過PCIe或E3.S介面安裝於單一主機內,以提升伺服器的記憶體容量,改善系統處理大量資料的能力,這種方案已成為業界現階段主流的記憶體擴展模式。
未來隨著資料中心規模不斷擴大以及彈性資源分配需求的增加,CXL的未來發展將逐漸朝向記憶體池化(Memory Pooling)。記憶體池化的核心概念是將記憶體資源集中於獨立的CXL記憶體設備中,透過專門設計的CXL Switch晶片,能夠動態地將這些集中式記憶體資源配置給有需求的伺服器使用。
具體而言,在CXL 2.0至CXL 3.0的過渡階段,將首先實現「機櫃級(Rack-scale)」的記憶體池化,即透過CXL Switch晶片在機櫃範圍內動態調度與管理記憶體資源。而在CXL 3.0以後,技術將進一步發展至「機房級(Row-scale)」的記憶體池化,透過更為先進且具備更高頻寬、更低延遲的交換機制,將記憶體資源管理範圍擴大至整個資料中心區域。
在此技術發展過程中,硬體產業鏈中的相關廠商必須緊密配合,包括DRAM等記憶體製造商、負責生產高效能CXL Switch晶片的半導體公司,以及伺服器與CPU等核心設備供應商等,這些產業參與者必須協同合作,以確保不同廠牌產品間的互操作性(Interoperability)及高效能傳輸能力。綜合而言,CXL技術正從單機記憶體擴充走向資源池化架構,預期未來將顯著提升資料中心的資源配置靈活性與整體效率,對企業經營及環境永續發展帶來正面的影響。

圖1 CXL記憶體發展趨勢
CXL支援的雲端與HPC應用場景
在雲端與HPC中,In Memory Database和AI運算是目前在CXL記憶體技術上兩大應用場景:
1 In Memory Database
利用CXL的memory expansion功能,突破伺服器本地端記憶體容量限制,為大型In-Memory Database(如SAP HANA、Redis)提供動態擴容與更高的執行密度。以SAP HANA為例,研究顯示在線上交易處理(Online Transaction Processing,OLTP)工作負載下使用CXL幾乎不影響性能[12],線上分析處理(Online Analytical Processing,OLAP)工作負載則輕微降速,但仍在可接受範圍內。對於Redis (REmote DIctionary Server)而言,若應用高度依賴低延遲存取,過度配置於CXL memory可能導致延遲上升與吞吐下降;然而在混合負載或容忍ms級延遲的背景應用中,合理使用CXL擴充記憶體對系統吞吐的影響有限,且可顯著降低主記憶體壓力。
2 AI運算(LLM推論與訓練)
CXL技術除了提供可擴展的記憶體容量,亦能與DeepSpeed等大型語言模型框架中的CPU Offloading技術密切整合。透過記憶體階層化機制,可將部分激活函數與梯度運算從GPU卸載至CPU執行,搭配CXL記憶體延伸的容量,在GPU記憶體受限的環境中支援更大模型規模訓練任務。[13]中提出的Tensor-CXL-Offload系統實驗顯示,相較於僅採用DeepSpeed ZeRO架構,透過CXL記憶體進行資料卸載與分層管理,可使訓練時間平均縮短33.7%至55.4%,顯著提升整體系統效率。
3 其他HPC應用
CXL記憶體擴充技術在高效能運算(HPC)與雲端場域皆展現出實用性與彈性。在科學模擬、天氣預測、圖形與網格計算(如CG、BT、OpenFOAM等)等典型HPC應用中,即便CXL在頻寬與延遲上相較本地端DRAM存在超過10%的差距,於某些以計算為主的場景中,其性能損耗仍在可控制範圍。此外,對於延遲敏感性低、CPU負載輕的應用類型(如資料緩存、背景分析、輕量資料處理等),CXL可藉由擴充系統總記憶體容量,提升應用程式併行密度,無需額外擴充CPU或主機,即可達成降低單一應用執行成本、強化多租戶平台效益。
系統軟體與管理工具的配套
為了讓CXL記憶體在企業級與雲端資料中心真正落地,系統軟體與管理工具需於以下三層建立配套:(一)Linux核心與管理工具、(二)雲端資源編排(Orchestrator)、(三)系統中介軟體。如圖2,三層之間透過遙測(telemetry)與API閉環協作:Linux核心提供裝置驅動與事件來源;資源編排在叢集層感知與調度;中介軟體依應用特性進行微觀頁面分層,並將效能回饋再次傳遞至上層策略引擎。
1 基礎驅動與遙測:Linux Kernel & Tools
自Linux 6.0起核心已內建CXL系列驅動,使用者可透過cxl list、cxl create-region、ndctl與memmap_tool等指令,完成裝置列舉、區域切分、錯誤監控與韌體更新;核心層負責把異質記憶體抽象為統一位址空間,並提供事件通知給上層管理程式。
2 雲端資源編排:資源調度整合
在邊緣雲、私有雲或公有雲場景,Kubernetes、OpenStack Nova、VMware vSphere等排程器需能感知CXL記憶體區域與其頻寬、延遲特性,把Pod/VM對記憶體容量與階層的需求映射到具體的CXL記憶體區段;同時在工作負載啟動與遷移時,動態開闢或釋放CXL記憶體區段,以最佳化成本考量的策略來進行記憶體資源的調度。
3 中介系統軟體:應用記憶體最佳化引擎
上述兩層都有開源專案與社群在進行,工研院資通所則聚焦於虛擬機/容器與硬體層之間部署輕量化CXL管理工具,提供(1)專注監控應用程式(2)行為分析(3)管理介面(4)自動化分析與優化。透過這一以應用為核心的管理工具,可在無需修改任何應用程式的前提下,為AI運算與大量記憶體需求的應用程式提供容量擴張、性能穩定且易於調度的CXL記憶體支援。
以上三層配套,核心驅動與工具鏈將持續由Linux社群主導開發與維護;雲端資源編排層的資源調度功能則依賴Kubernetes、OpenStack等雲管理系統持續擴充CXL感知與排程能力,透過這些軟體可以讓記憶體的使用情境變得更彈性。進一步地,工研院資通所已投入研發並規劃與CXL設備供應商建立合作機制,聚焦中介系統軟體層的研究與原型實作,期望為國內外資料中心提供可行的CXL系統軟體解決方案,並與上游Linux與雲端社群形成互補,推動完整CXL軟硬體生態的落地。

圖2系統軟體與管理工具
工研院資通所於CXL記憶體關鍵技術落地之角色
工研院資通所致力於掌握CXL記憶體產業趨勢,推動關鍵技術落地合作。現階段國內外多家硬體廠商已經進入CXL記憶體設備的試生產階段,並嘗試在主機板、記憶體模組與交換器等元件上整合CXLType-2/Type-3設備。在這樣的產業與技術浪潮中,本所擬以系統軟體為主軸,扮演連結記憶體設備廠、伺服器廠與雲平台供應者之間的整合者角色。在系統介面層投入研發,重點聚焦於如何緩解CXL記憶體所面臨存取延遲的瓶頸。文獻[14]觀察指出,CXL擴充記憶體雖可提供遠大於傳統socket-localDRAM的容量,但其延遲通常比本地DRAM高出許多(例如兩到數倍),尤其在跨NUMA節點或使用切換/交換器(CXL switch)連接的情況下更為顯著。
目前,工研院資通所在系統中介軟體研發已有初步成果:在記憶體層次分級(memory tiering)與頁面交錯配置(page interleaving)策略上進行設計與實驗,嘗試在保留部分本地DRAM以提供低延遲存取之同時,將熱資料(high-access頻率)與冷資料分配至不同記憶體層(例如CXL附屬記憶體或遠端記憶體池)。下圖3是針對In-Memory資料庫進行四個測試項目,其中DRAM/CXL記憶的分布分別為100G/0G、20G/80G、20G/80G、0G/100G,測試過程隨機存取其中10G的資料,在第二個測試中執行工研院資通所使用開發的中介系統軟體加上優化的應用程式記憶體配置,測試結果顯示當中介軟體介入進行冷熱資料分析與搬運後,延遲的時間可從13.23%下降至1%或8.16%下降至1.48%。

圖3 In-Memory資料庫於DRAM與CXL記憶體的存取效能
以系統中介軟體為起點,工研院資通所可向上與雲平台/資料中心供應商合作,共同探討未來CXL記憶體池化後之平台變化需求,包括記憶體管理策略、作業系統與虛擬化層級的支援、熱/冷資料遷移機制、近端運算加速器的介面與SDK支援等。同時,往下則與記憶體設備廠與伺服器廠合作,展示CXL在真實應用場景(例如大型資料庫、LLMs推論或訓練、雲端來源工作負載)中的可行性與效能提升,創造市場對記憶體資源的需求。透過這樣自上而下、自下而上的整合方式,將能催生軟硬體架構系統生態發展(完整從記憶體設備、交換器、伺服器、作業系統、雲平台支援到應用),如圖2所示之架構落地。
結論
在生成式AI、大型雲端應用與高效能運算(HPC)的快速發展下,資料中心正面臨前所未有的記憶體擴展壓力。傳統單一伺服器的DRAM架構受限於容量、成本與能效,已無法因應靈活多變的應用需求。CXL作為一種基於PCIe的高效能共享記憶體互連技術,提供容量擴充與動態組態的能力,推動資料中心邁向可組合、可擴展與資源池化的新型基礎設施。然而,CXL的落實並非單一廠商能完成,而是需要CPU、記憶體、交換器與系統軟體等上下游廠商的共同協作,才能真正建構成熟的產業生態。在CXL記憶體管理技術議題中,資源編排與系統驅動已有大量開源社群與專案投入,工研院資通所則聚焦於中介層(middleware)的研究與實作,不僅承接上層應用與下層硬體之間的銜接,更期望透過此軟體平台串連國內所有CXL相關硬體廠商的協作,從系統驗證到產品成熟,形成完整的解決方案並提升國際競爭力。
參考文獻
[1] How CXL Technology Solves Memory Problems in Data Centres, Dec. 2024. Available at https://www.ruijie.com/en-global/support/tech-gallery/how-cxl-technology-solves-memory-problems-in-data-centres-part1
[2] Mahar, Suyash, et al. "Telepathic datacenters: Efficient and high-performance rpcs using shared cxl memory." 15th Annual Non-Volatile Memories Workshop. 2024.
[3] McKee, Sally A., and Robert W. Wisniewski. "Memory wall." Encyclopedia of Parallel Computing. Springer, Boston, MA, 2011. 1110-1116.
[4] Lameter, Christoph. "Local and remote memory: Memory in a Linux/NUMA system." Linux symposium. 2006.
[5] Gangidi, Adithya, et al. "Rdma over ethernet for distributed training at meta scale." Proceedings of the ACM SIGCOMM 2024 Conference. 2024.
[6] Yang, Yujie, et al. "Architectural and System Implications of CXL-enabled Tiered Memory." arXiv preprint arXiv:2503.17864 (2025).
[7] Song, Kevin, et al. "Lightweight frequency-based tiering for cxl memory systems." arXiv preprint arXiv:2312.04789 (2023).
[8] Gouk, Donghyun, et al. "Memory pooling with cxl." IEEE Micro 43.2 (2023): 48-57.
[9] Zhong, Yuhong, et al. "Managing Memory Tiers with {CXL} in Virtualized Environments." 18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 2024.
[10] Berger, Daniel S., et al. "Octopus: Scalable Low-Cost CXL Memory Pooling." arXiv preprint arXiv:2501.09020 (2025).
[11] Yang, Xinjun, et al. "Unlocking the Potential of CXL for Disaggregated Memory in Cloud-Native Databases." Companion of the 2025 International Conference on Management of Data. 2025.
[12] Ahn, Minseon, et al. "An examination of cxl memory use cases for in-memory database management systems using sap hana." Proceedings of the VLDB Endowment 17.12 (2024): 3827-3840.
[13] Xu, Dong, et al. "Efficient Tensor Offloading for Large Deep-Learning Model Training based on Compute Express Link." SC24: International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2024.
[14] Liu, Jinshu, Hamid Hadian, Hanchen Xu, Daniel S. Berger, and Huaicheng Li. "Dissecting CXL memory performance at scale: Analysis, modeling, and optimization." arXiv preprint arXiv:2409.14317 (2024).