AMD宣布,對(duì)ROCm軟件棧進(jìn)行了更新,推出了新的迭代版本ROCm 7.0,這也是迄今為止最大規(guī)模的更新之一。這一新版本里,AMD引入了增強(qiáng)的框架和新算法,旨在打造可替代英偉達(dá)CUDA的計(jì)算生態(tài)系統(tǒng)。
AMD表示,人工智能創(chuàng)新正以前所未有的速度加速,模型擴(kuò)展到數(shù)千億個(gè)參數(shù),推理需求不斷增長(zhǎng),企業(yè)需要平衡成本和性能的可擴(kuò)展高效解決方案。開發(fā)人員面臨著越來越大的壓力,既要跟上這些要求,又要確保靈活性、可移植性和未來準(zhǔn)備。ROCm 7.0的發(fā)布,使得開發(fā)人員和企業(yè)能夠更快地行動(dòng)、更智能地?cái)U(kuò)展并部署AI。
ROCm 7.0主要特性:
支持Instinct MI350系列GPU,突破性AI訓(xùn)練和AI推理性能。
跨集群的無縫分布式推理,支持領(lǐng)先的框架。
HIP 7.0增強(qiáng)了代碼可移植性,簡(jiǎn)化了跨硬件生態(tài)系統(tǒng)的開發(fā)和遷移。
以企業(yè)為中心的新工具,可簡(jiǎn)化AI基礎(chǔ)設(shè)施管理和部署。
采用AMD Quark量化技術(shù),實(shí)現(xiàn)了流行的MXFP4和FP8格式大型模型。
在今年6月的AMD Advancing AI 2025上,AMD發(fā)布了基于CDNA 4架構(gòu)的Instinct MI350系列計(jì)算卡。其基于迭代升級(jí)后的芯片堆疊封裝工藝打造,采用N3P工藝的加速器復(fù)合核心(XCD)通過COWOS-S封裝技術(shù)堆疊在采用N6工藝的I/O核心(IOD)之上,3D混合架構(gòu)為帶來了高性能密度和高能效比,IOD-IOD互連以及HBM3E顯存的集成則給予2.5D架構(gòu)打造。
AMD Instinct MI350系列GPU包含有8個(gè)XCD模塊,每個(gè)XCD模塊32組計(jì)算單元,共計(jì)256組,1024個(gè)矩陣核心,每個(gè)XCD配置2MB L2緩存;IOD基于2個(gè)N6工藝核心構(gòu)成,提供有128通道HBM3E顯存接口與256MB容量的AMD Infinity緩存;2個(gè)HBM3E顯存采用8堆棧結(jié)構(gòu),每個(gè)堆棧為12層堆疊的36GB,數(shù)據(jù)頻率為8Gbps,可提供8TB/s的顯存帶寬;內(nèi)部所用的Infinity Fabric AP互聯(lián)帶寬達(dá)到5.5TB/s,外部連接則基于1075GB/s帶寬的第四代Infinity Fabric總線與128GB/s帶寬的PCIe 5.0接口。