伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

 
  • 震撼實錘!清華姚班校友揭「1.4×加速」陷阱:AI優(yōu)化器為何名不符實?

    作者:吧友_1ZpNkOQT 來源:清遠 瀏覽: 【】 發(fā)布時間:2025-09-14評論數(shù):

    新智元報道

    編輯:元宇

    【新智元導讀】為了降低大模型預訓練成本,最近兩年,出現(xiàn)了很多新的優(yōu)化器,聲稱能相比較AdamW,將預訓練加速1.4×到2×。但斯坦福的一項研究,指出不僅新優(yōu)化器的加速低于宣稱值,而且會隨模型規(guī)模的增大而減弱,該研究證實了嚴格基準評測的必要性。

    一直以來,預訓練,都是大模型訓練過程中最花錢的部分。

    比如,在DeepSeek V3中,它的成本占比就超過95%。

    誰能在這里節(jié)省算力,就等于賺了。

    長期以來,AdamW都是「默認選項」。但最近兩年,出現(xiàn)了很多新的優(yōu)化器。

    它們大都聲稱能夠相比AdamW,將預訓練加速1.4×到2×,但卻很少能真正落地。

    斯坦福大學的研究人員,認為問題主要出現(xiàn)在兩個方法學缺陷上:

    一些基線的超參數(shù)調(diào)得不當;

    許多實驗局限于較小規(guī)模的設置,導致這些優(yōu)化器在更廣泛、更真實場景下的表現(xiàn)仍待驗證。

    論文地址:https://arxiv.org/abs/2509.02046

    有趣的是,這篇論文的標題「神奇優(yōu)化器在哪里」(Fantastic Pretraining Optimizers and Where to Find Them),正是「捏它」自《神奇動物在哪里》(Fantastic Beasts and Where to Find Them)。

    不得不說,論玩梗還是大佬們厲害!

    不同縮放范式下的加速差異

    研究人員對比了大模型在不同縮放范式下的加速差異。

    他們在四種不同的數(shù)據(jù)-模型比(相當于Chinchilla最優(yōu)范式的 1×、2×、4×、8×)下進行基準測試,并將模型規(guī)模擴展到1.2B參數(shù)。

    圖1左上顯示,在被廣泛采用的GPT-3配方中,僅調(diào)一個超參數(shù),就能讓預訓練獲得2×的加速,這突顯了正確超參數(shù)優(yōu)化的重要性。

    研究表明,在一系列模型規(guī)模和數(shù)據(jù)-模型比上,進行細致的超參數(shù)調(diào)優(yōu)與訓練結(jié)束時的評測是必要的,主要有三個原因:

    首先,超參數(shù)不能盲目遷移,在優(yōu)化器間固定超參數(shù)會導致不公平的比較。

    第二,新優(yōu)化器的加速低于宣稱值,且隨模型規(guī)模增大而減弱。相對于研究人員調(diào)優(yōu)的AdamW基線,其他優(yōu)化器的加速不超過1.4×。

    此外,雖然Muon、Soap等新優(yōu)化器在小模型(0.1B)上顯示出1.3×加速,但在8×Chinchilla比例下的1.2B參數(shù)模型上,加速會降到約1.1×。

    第三,早期的損失曲線可能產(chǎn)生顯著誤導。

    在學習率衰減期間,不同優(yōu)化器的損失曲線可能多次交叉,因此用中間檢查點來評判優(yōu)化器,得到的排名可能與在目標訓練預算下比較的結(jié)果不同。

    優(yōu)化器設計的新見解

    研究人員基于基準測試,帶來了三個關于優(yōu)化器設計的新見解:

    1. 小模型更適合基于矩陣的優(yōu)化器

    研究人員發(fā)現(xiàn),對于小模型,基于矩陣的優(yōu)化器,持續(xù)優(yōu)于基于標量的優(yōu)化器。

    基于標量的優(yōu)化器(如AdamW、Lion、Mars等),需要通過標量操作逐個更新參數(shù)。

    經(jīng)過適當調(diào)參后,所有基于標量的優(yōu)化器的優(yōu)化速度與AdamW相近,平均加速比不足1.2×。

    盡管其更新規(guī)則多樣,但在小于520M參數(shù)的模型上,基于矩陣的優(yōu)化器相對AdamW均可帶來約1.3×的加速。

    2. 最優(yōu)優(yōu)化器的選擇,關鍵指標是「數(shù)據(jù)-模型比」

    在1×Chinchilla范式下的贏家,隨著數(shù)據(jù)-模型比提升,可能不再最優(yōu)。

    比如,在較小的Chinchilla比例下,Muon一直是表現(xiàn)最好的優(yōu)化器。

    但當數(shù)據(jù)-模型比增至8×或更高時,Kron和Soap的表現(xiàn)優(yōu)于Muon(圖3與圖4)。

    在本項研究中,研究人員研究了表1所列的11種優(yōu)化器。

    模型參數(shù)量,涵蓋了130M、300M、520M、1.2B四種規(guī)模,詳細超參數(shù)見表2。

    超參數(shù)的三種調(diào)參方式

    按照不同階段,研究人員對超參數(shù)采用了三種不同程度的調(diào)參方式:

    階段1:對超參數(shù)進行「細顆粒度」調(diào)參

    研究人員在6種不同設置上執(zhí)行該遍歷,具體為1×Chinchilla下的130M、300M、500M,以及2×、4×、8×Chinchilla下的130M。

    對于每個優(yōu)化器以及上述六種范式,研究人員都找到了一個按坐標的局部最優(yōu)解。

    表3是一個針對300M參數(shù)、1×Chinchilla的AdamW示例性超參數(shù)優(yōu)化過程。

    階段2:著重調(diào)整對「尺度敏感」的超參數(shù)

    由于廣泛調(diào)參在更大規(guī)模實驗上代價過高,所以,研究人員對該過程進行了簡化,著重調(diào)整對「尺度敏感」的超參數(shù)。

    如表4,研究人員僅將對尺度敏感的超參數(shù)帶入階段2,從而把下一輪調(diào)參對象集中在那些跨尺度確實需要重新調(diào)參的超參數(shù)上。

    通過這組實驗,研究人員觀察到兩點現(xiàn)象:

    1.基于矩陣的優(yōu)化器始終優(yōu)于基于標量的優(yōu)化器,但所有優(yōu)化器相對AdamW的加速比都不超過1.5×;

    2.在基于矩陣的優(yōu)化器內(nèi)部,Muon在1–4×Chinchilla比例下表現(xiàn)最佳,但隨著Chinchilla比例提高,會被Soap與Kron反超。

    階段3:為進一步外推而建立超參數(shù)縮放律

    研究人員基于階段2獲得的優(yōu)化超參數(shù)設置,擬合一個平滑的縮放律,用以預測每個隨尺度敏感的超參數(shù)的最優(yōu)值。

    作為模型大小N,與數(shù)據(jù)預算D的函數(shù),研究人員將每個隨尺度敏感超參數(shù)h的最優(yōu)值建模為:

    其中A、B、α與β為學習得到的系數(shù)。

    研究人員在每個優(yōu)化器的12個觀測三元組(N,D,h)上,用非線性最小二乘來估計這些參數(shù),使預測與真實最優(yōu)超參數(shù)值的平方誤差最小。

    為檢驗預測質(zhì)量,研究人員在N=1.2B、Chinchilla=1的設置下對AdamW運行了完整的階段1遍歷,并將識別出的最優(yōu)解與擬合出的超參數(shù)進行對比。

    在圖2上圖中,研究人員繪制了兩個階段的C4/EN驗證損失;在圖2下圖中,研究人員繪制了為部分優(yōu)化器選擇的運行所對應的HellaSwag表現(xiàn)。

    在圖3中,顯示了跨尺度的不同優(yōu)化器加速。

    研究人員通過為AdamW擬合縮放律,并將不同優(yōu)化器的損失映射到對應的等效數(shù)據(jù)預算來估計加速,得到了以下二點觀察:

    1. 最高加速被限制在1.4×;

    2. 基于矩陣的優(yōu)化器始終優(yōu)于基于標量的優(yōu)化器,且隨數(shù)據(jù)預算增加呈現(xiàn)更高的加速(表現(xiàn)出超線性趨勢)。

    實證發(fā)現(xiàn)

    1. 在0.1B–0.5B參數(shù)模型上的結(jié)果

    在所有模型規(guī)模與算力預算下,方差減少類的Adam變體(NAdamW、Mars、Cautious)與基于矩陣的優(yōu)化器都相對AdamW基線,帶來了加速。

    然而,沒有任何方法達到了過往文獻聲稱的2×的加速。

    研究人員得出如下結(jié)論:

    (1)基于矩陣的方法優(yōu)于基于標量的方法。加速比隨數(shù)據(jù)預算增加而上升,但隨模型規(guī)模增大而下降。

    (2)方差削減技術帶來小而穩(wěn)定的提升。

    在基于標量的家族中,所有方差削減型的Adam變體(NAdamW、Mars、Cautious)都穩(wěn)定地超過vanilla的AdamW——僅在最小規(guī)模實驗上有輕微落后。

    (3)AdamW的內(nèi)存高效變體與AdamW的表現(xiàn)保持緊密。

    兩種內(nèi)存高效的AdamW變體(Lion、Adam-mini),盡管輔助狀態(tài)更少,其表現(xiàn)與AdamW緊密跟隨,最多僅慢5%,有時甚至優(yōu)于AdamW。

    2. 在1.2B參數(shù)模型上的結(jié)果

    研究人員利用擬合的超參數(shù)縮放律,將模型規(guī)模擴大到1.2B,以考察優(yōu)化器的加速如何隨模型規(guī)模變化。

    觀察到NAdamW、Muon與Soap依然相對AdamW帶來加速,但這些優(yōu)化器的加速減弱到約1.1×(圖4,左與中),且不再帶來下游改進(表 5)。

    3. 高數(shù)據(jù)-模型比

    在130M與520M模型的8×Chinchilla范式下,Muon已被Soap超過。

    為進一步驗證,研究人員將三份300M模型訓練到16×Chinchilla,并確認當數(shù)據(jù)-模型比增加時,Muon不再是最優(yōu)優(yōu)化器(圖4,右)。

    研究人員推測,當數(shù)據(jù)-模型比增大時,Soap與Kron保持的二階動量會更有效。從長期看,對參數(shù)方向異質(zhì)性的自適應可能帶來更大的加速。

    該研究證實了嚴格基準評測的必要性。

    各優(yōu)化器的共性現(xiàn)象

    研究人員在預訓練中,通過對11種深度學習優(yōu)化器進行了基準評測,發(fā)現(xiàn)它們相對AdamW的真實增益遠小于此前報道。

    由此,研究人員強調(diào)了三個關鍵教訓:

    1.許多聲稱的加速源于超參數(shù)調(diào)優(yōu)不足,因為公平的掃參會消除大多數(shù)表面的優(yōu)勢;

    2.基于早期或不一致的評估進行比較可能具有誤導性,因為在完整訓練軌跡上優(yōu)化器的排名常會發(fā)生變化;

    3.即使表現(xiàn)最好的替代方案也只提供溫和的加速,且隨模型規(guī)模增大而進一步減弱,在12億參數(shù)時降至1.1×。

    作者介紹

    Kaiyue Wen

    Kaiyue Wen是斯坦福大學的博士生。目前在馬騰宇 (Tengyu Ma) 的課題組進行輪轉(zhuǎn),同時與Percy Liang老師合作。

    他本科畢業(yè)于清華大學姚班,期間獲得了獲得了馬騰宇、劉知遠、Andrej Risteski、張景昭、王禹皓以及李志遠等多位老師的指導。

    他的研究興趣涵蓋深度學習的理論與應用,長遠目標是理解深度學習背后的物理學原理,并堅信理論分析與實證研究相結(jié)合是實現(xiàn)這一目標的關鍵。

    馬騰宇(Tengyu Ma)

    Tengyu Ma是斯坦福大學計算機科學系和統(tǒng)計系的助理教授。

    他本科畢業(yè)于清華姚班,于普林斯頓大學獲得博士學位。

    他的研究興趣涵蓋機器學習、算法理論等方向,具體包括:深度學習、(深度)強化學習、預訓練/基礎模型、魯棒性、非凸優(yōu)化、分布式優(yōu)化以及高維統(tǒng)計學。

    Percy Liang

    Percy Liang是斯坦福大學計算機科學副教授,兼任基礎模型研究中心(CRFM)主任。同時也是CodaLab Worksheets的創(chuàng)建者,并借此堅定倡導科研工作的可復現(xiàn)性。

    他專注于通過開源和嚴格的基準測試,提升基礎模型(特別是大語言模型)的可及性與可理解性。

    他曾圍繞機器學習和自然語言處理領域進行了廣泛研究,具體方向包括魯棒性、可解釋性、人機交互、學習理論、知識落地、語義學以及推理等。

    此前,他于2004年在MIT獲得學士學位,并于2011年在UC伯克利獲得博士學位。

    參考資料:

    https://arxiv.org/abs/2509.02046