發(fā)布時間:2025-09-17 來源:出處殊途網(wǎng)作者:創(chuàng)建快捷方式
機(jī)器之心發(fā)布
機(jī)器之心編輯部
近日,全球網(wǎng)絡(luò)通信頂會 ACM SIGCOMM 2025 在葡萄牙落幕,共 3 篇論文獲獎,華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室與香港科技大學(xué) iSING Lab 合作的 DCP 研究成果,獲本屆大會 Best Student Paper Award (Honorable Mention),成為亞洲地域唯一獲獎的論文。
上周,第 39 屆 ACM SIGCOMM 大會近日在葡萄牙落下帷幕,來自世界各地的技術(shù)大牛分享了計算機(jī)網(wǎng)絡(luò)領(lǐng)域最前沿的技術(shù),為本領(lǐng)域的從業(yè)者貢獻(xiàn)了一場頂級的技術(shù)盛宴。ACM SIGCOMM 是網(wǎng)絡(luò)領(lǐng)域最頂級的學(xué)術(shù)會議,對論文的質(zhì)量要求極高,不僅有很強(qiáng)的學(xué)術(shù)性,也與產(chǎn)業(yè)界聯(lián)系緊密,吸引全世界各大 OTT 和網(wǎng)絡(luò)設(shè)備廠商等熱情參與。
本屆 SIGCOMM 投稿共 463 篇,錄用 75 篇,接收率僅 16.2%,全球僅 3 篇論文獲獎。華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室與香港科技大學(xué) iSING Lab 合作的新型 RDMA 傳輸架構(gòu)DCP,獲本屆大會 Best Student Paper Award (Honorable Mention),成為亞洲地域唯一的獲獎?wù)撐?。該論文提出的?shù)控分離傳輸架構(gòu) DCP,解決大規(guī)模 AI 集群網(wǎng)絡(luò)可擴(kuò)展性難題,幫助構(gòu)建大規(guī)模、高性能、高可靠的網(wǎng)絡(luò)底座,充分釋放 AI 算力。
該論文體現(xiàn)出華為公司在網(wǎng)絡(luò)領(lǐng)域的深厚積累。除此獎項(xiàng)之外,華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室近幾年曾在多個國際頂級會議獲獎,包括 Hot Interconnects 2024 最佳學(xué)術(shù)論文獎、FSE 2024 杰出論文獎等。UB-Mesh 超節(jié)點(diǎn)網(wǎng)絡(luò)架構(gòu)近期在 Hot Chips 2025 發(fā)表,在業(yè)界引起廣泛關(guān)注。
論文標(biāo)題:Revisiting RDMA Reliability for Lossy Fabrics
論文地址:https://dl.acm.org/doi/pdf/10.1145/3718958.3750480
一、背景:算力激增驅(qū)動智算網(wǎng)絡(luò)規(guī)模不斷增大,現(xiàn)有傳輸技術(shù)面臨挑戰(zhàn)
AI 大模型快速發(fā)展,算力需求急速攀升,驅(qū)動集群網(wǎng)絡(luò)組網(wǎng)規(guī)模不斷擴(kuò)大,通信距離也不斷拉遠(yuǎn)。單一集群需要園區(qū)內(nèi)多棟樓部署,同時受到部署策略、走線等物理因素限制,最大通信距離可達(dá)到 2km-10km;如果要規(guī)劃更高的算力規(guī)模,供電、散熱等能源問題會成為瓶頸,需要多集群聯(lián)合訓(xùn)練,跨 AZ 場景最大通信距離可達(dá)到百公里。
當(dāng)前智算網(wǎng)絡(luò)大多沿用已有數(shù)據(jù)中心技術(shù),主要的技術(shù)路線是基于 PFC 流控的無損 RDMA 網(wǎng)絡(luò)。但隨著組網(wǎng)規(guī)模的進(jìn)一步增大,PFC 帶來的頭阻、死鎖、運(yùn)維等問題會更凸顯,嚴(yán)重影響網(wǎng)絡(luò)性能。另外,在交換機(jī)交換容量增大、交換芯片 Buffer 增長速度滯后等趨勢下,該路線將會面臨 Buffer 不足的問題。與此同時,業(yè)界也一直在探索高效的有損 RDMA 路線,例如在 RDMA 網(wǎng)卡 (RNIC) 中實(shí)現(xiàn)選擇性重傳機(jī)制。然而這條路線仍然面臨 ECMP 沖突、RTO 超時等問題,并且對多路徑、逐包均衡等技術(shù)兼容性不好。
針對上述問題,文章提出了 DCP(Data Control Partitioning)數(shù)控分離技術(shù),重構(gòu)了高速有損網(wǎng)絡(luò)的 RDMA 可靠性設(shè)計,推動智算網(wǎng)絡(luò)向容損、逐包均衡等方向演進(jìn)。該方案對控制信息和數(shù)據(jù)信息采用不同傳輸策略,對數(shù)據(jù)信息允許有損傳輸,對控制信息采用無損傳輸,可以大大降低對 Buffer 的依賴,徹底消除 PFC 帶來的頭阻、死鎖等問題,同時兼容多路徑傳輸、逐包均衡等技術(shù),支持百萬卡規(guī)模、百公里等大規(guī)模、長距離、高性能網(wǎng)絡(luò)傳輸?shù)男枨蟆?/p>
二、DCP 設(shè)計思路
DCP 是一種聯(lián)合設(shè)計交換機(jī)和 RNIC 的傳輸架構(gòu),包含 DCP-Switch 和 DCP-RNIC。DCP 概念上定義了數(shù)據(jù)平面(DP)用于有效載荷傳輸和控制平面(CP)用于報文頭部傳輸。與無損 RDMA 網(wǎng)絡(luò)通過 PFC 同時保證 DP 和 CP 的無損性不同,DCP-Switch 引入 Packet Trimming 功能,每當(dāng)網(wǎng)絡(luò)出現(xiàn)丟包時,會把丟失報文的頭部封裝成 Header-Only(HO)報文傳輸給接收端;DCP-Switch 使用加權(quán)輪詢(WRR)調(diào)度器來優(yōu)先處理控制隊(duì)列,從而確保控制平面(CP)傳輸?shù)臒o損性,同時允許數(shù)據(jù)平面(DP)以有損方式運(yùn)行。
同時,DCP-RNIC 利用無損控制平面的特性來增強(qiáng) RNIC 的可靠性,實(shí)現(xiàn)了以下幾項(xiàng)關(guān)鍵功能:
Precise and Fast HO-based Retransmission:發(fā)送方根據(jù) HO 包攜帶的 PSN 精確并高效地重傳丟失的包;Order-tolerant Packet Reception:接收端 RNIC 可以直接將任何包(無論是有序還是亂序)寫入其相應(yīng)的應(yīng)用程序內(nèi)存地址,消除了對重排序緩沖區(qū)的需求;Bitmap-free Packet Tracking:DCP-RNIC 利用無損 CP 的 “Exactly Once” 特性,消除了包級別 bitmap 的需求,采用包計數(shù)來跟蹤聚合的消息級信息,顯著減少了內(nèi)存開銷和處理周期。
三、實(shí)驗(yàn)效果
文章針對 DCP 進(jìn)行了全面的技術(shù)驗(yàn)證,主要包括兩部分:1)原型樣機(jī)測試(含 DCP-Swtich 和 DCP-RNIC);2)大規(guī)模仿真實(shí)驗(yàn)。
原型樣機(jī)測試結(jié)果:組網(wǎng)拓?fù)淙缟蠄D所示,DCP 傳輸技術(shù)與逐包負(fù)載均衡原生適配,相較于 Mellanox RNIC,DCP 在丟包恢復(fù)效率上提高了 1.6×~72×,在 AI 工作負(fù)載的完成時間上降低了 42%;相較于 IRN 和 MP-RDMA,DCP 在通用負(fù)載測試上分別取得了 2.1× 和 1.6× 的性能提升。此外, DCP 在 10 公里長距測試下實(shí)現(xiàn)了接近理想的高吞吐,DCP 理論上可實(shí)現(xiàn)百公里高性能傳輸。
仿真實(shí)驗(yàn)結(jié)果:組網(wǎng)拓?fù)淙缟蠄D所示,DCP 傳輸技術(shù)相較于 MP-RDMA 和 IRN(業(yè)界 SOTA 的 lossless 和 lossy 傳輸解決方案),在智算流量場景(如 AllReduce)下,平均降低了 38% 和 45% 的任務(wù)完成時間 JCT(如下圖 a 所示);在通算流量場景下,分別降低了 16% 和 10% 的 P95 尾部流完成時間 FCT。此外,在 1000 公里長距大規(guī)模實(shí)驗(yàn)中,相較于 MP-RDMA 和 IRN 方案,DCP 分別降低了 95% 和 51% 的 P95 尾部完成時間(如下圖 d 所示)。
四、總結(jié)
華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室提出的 DCP 技術(shù),是一種面向有損網(wǎng)絡(luò)的高性能 RDMA 傳輸架構(gòu),通過將輕量級無損控制平面與硬件高效的 RNIC 設(shè)計相結(jié)合,消除了對 PFC 的依賴,支持包級負(fù)載均衡,并避免了 RTO。原型和仿真表明,DCP 的性能顯著優(yōu)于現(xiàn)有的 RDMA 解決方案,有利于推進(jìn)高性能 RDMA 傳輸技術(shù)在有損網(wǎng)絡(luò)中的應(yīng)用。
經(jīng)了解,華為網(wǎng)絡(luò)技術(shù)實(shí)驗(yàn)室在研究面向 AI 原生的傳輸技術(shù) AI-Native Transport(ANT),通過逐包均衡 / 多路徑、算效優(yōu)先調(diào)度、容損傳輸?shù)燃夹g(shù),為 AI 智算網(wǎng)絡(luò)提供高吞吐、高算效、高可擴(kuò)展的傳輸能力,本次 SIGCOMM 文章的 DCP 技術(shù)是 ANT 若干特性之一。