最近英偉達(dá)兩款高端產(chǎn)品,GeForce RTX 5090和RTX PRO 6000,都受到虛擬化重置錯誤的困擾。該錯誤可能會讓顯卡完全沒有響應(yīng),需要主機物理重啟才能恢復(fù)。這是一個特定的錯誤,除了GeForce RTX 5090和RTX PRO 6000外,包括RTX 4090和H100等舊型號都不會出現(xiàn)類似的問題,即便是Blackwell架構(gòu)產(chǎn)品中最強的B200也沒有問題。
NVIDIA GeForce RTX 5090
據(jù)TomsHardware報道,這是隨機發(fā)生的錯誤,沒有明確的原因,在持續(xù)使用幾天或幾周后,GPU虛擬機可能完全凍結(jié)而沒有任何響應(yīng)跡象。現(xiàn)階段唯一恢復(fù)正常的解決方案就是重啟機器,這種情況引起了AI初創(chuàng)公司的關(guān)注,甚至懷疑是不是存在硬件設(shè)計缺陷。
根據(jù)日志顯示,該錯誤發(fā)生在GPU通過KVM和VFIO傳遞給虛擬機之后,當(dāng)虛擬機關(guān)機或GPU重新分配時,主機發(fā)出PCIe功能級重置(FLR)指令——這是清理直通設(shè)備標(biāo)準(zhǔn)流程的一部分。 這時候GPU未能恢復(fù)至正常狀態(tài),內(nèi)核報告顯示:“FLR后65535毫秒仍未就緒;放棄操作”。此時顯卡對lspci命令也變得不可讀,該命令會拋出“未知頭部類型7f”錯誤。
英偉達(dá)已經(jīng)對該問題作出回應(yīng),稱可以復(fù)現(xiàn)問題,并在努力修復(fù)當(dāng)中。具體情況還要等待官方的確認(rèn),預(yù)計很快會發(fā)布修復(fù)程序。
關(guān)于我們|版權(quán)聲明| 違法和不良信息舉報電話:010-84151598 | 網(wǎng)絡(luò)敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當(dāng)前域名}. all rights reserved