游客發(fā)表
這項由字節(jié)跳動種子團隊的王家偉、劉家才、付雨千、李映如、王鑫濤、林遠、岳宇、張霖、王楊和王可等研究人員完成的突破性研究,于2025年9月發(fā)表在arXiv預印本平臺上。有興趣深入了解的讀者可以通過項目主頁 https://empgseed-seed.github.io/ 訪問完整內容和相關材料。
在人工智能的世界里,讓機器像人類一樣學習一直是個巨大挑戰(zhàn),特別是當機器需要完成那些需要多個步驟才能達到目標的復雜任務時。就像教一個孩子學會做飯,你不能只在他最后端上一道菜時才說"做得好"或"做得不好",而是需要在他每一個操作步驟中給予適當?shù)闹笇?。但現(xiàn)實情況是,大多數(shù)AI系統(tǒng)只能在任務完成后才知道結果的好壞,這就像讓學生做完整張試卷后才知道最終分數(shù),卻不知道每道題的對錯。
字節(jié)跳動的研究團隊發(fā)現(xiàn),當前的大語言模型智能體在處理需要多步驟完成的長期任務時面臨著一個根本性問題:稀疏獎勵信號讓系統(tǒng)難以判斷中間步驟的價值。這個問題就好比一個廚師在做一道復雜菜品時,只有在客人品嘗后才知道菜品好壞,卻不知道在準備食材、調味、烹飪的各個環(huán)節(jié)中哪些步驟做對了,哪些需要改進。
更深層的問題在于,研究團隊通過數(shù)學分析發(fā)現(xiàn),傳統(tǒng)的策略梯度方法存在一個內在缺陷:模型的學習更新幅度與其預測不確定性緊密相關。簡單來說,當模型對某個步驟很有信心時,即使這個步驟是正確的重要決策,它得到的學習強化也很??;相反,當模型對某個步驟毫無把握時,這種不確定性反而會產生很大的學習波動,可能讓整個學習過程變得不穩(wěn)定。這種現(xiàn)象就像一個新手司機,在熟悉的路段開車時即使表現(xiàn)很好也不會有太多提升,而在完全陌生的路段卻因為緊張而操作失誤,反而養(yǎng)成了壞習慣。
一、突破傳統(tǒng)框架的全新學習策略
針對這些問題,研究團隊提出了一個革命性的解決方案:熵調制策略梯度(EMPG)。這個方法的核心思想是重新校準學習信號,讓AI系統(tǒng)能夠根據(jù)每個步驟的不確定性程度來調整學習強度,同時鼓勵系統(tǒng)尋找那些能導向更明確未來狀態(tài)的行動路徑。
EMPG的工作原理可以用學習駕駛來類比。傳統(tǒng)方法就像一個駕駛教練,無論學員在哪種情況下的表現(xiàn),都給予同樣強度的反饋。而EMPG更像一位經驗豐富的教練,他會根據(jù)不同情況采用不同的教學策略:當學員在簡單路段表現(xiàn)出色時,教練會給予強烈的正面強化,讓學員牢牢記住這些正確操作;當學員犯了明顯錯誤但表現(xiàn)得很自信時,教練會給予嚴厲批評,防止錯誤固化;而當學員在復雜路段表現(xiàn)不確定時,教練則會溫和地指導,避免因為過度批評而打擊學員信心。
這套方法包含兩個核心組件。第一個是"自校準梯度縮放"機制,它會動態(tài)調整每個步驟的學習信號強度。當AI系統(tǒng)對某個正確步驟很有信心時,這個機制會放大學習信號,讓系統(tǒng)更深刻地記住這種正確做法;當系統(tǒng)犯了錯誤但表現(xiàn)得很自信時(這種情況被稱為"幻覺性自信"),系統(tǒng)會受到更強的糾正;而當系統(tǒng)在某個步驟表現(xiàn)得不確定時,學習信號會被適當減弱,避免不穩(wěn)定的更新影響整體學習。
第二個組件是"未來清晰度獎勵",這是一個內在激勵機制,鼓勵AI系統(tǒng)選擇那些能夠導向更明確、更可預測狀態(tài)的行動。就像下棋時優(yōu)秀棋手會偏向選擇那些讓棋局變得更加明朗的走法,EMPG也會引導AI系統(tǒng)朝著能夠減少未來不確定性的方向發(fā)展。這種設計幫助系統(tǒng)找到更加穩(wěn)健和可預測的解決路徑,而不是陷入混亂或不可預測的狀態(tài)中。
二、嚴謹?shù)睦碚摶A與數(shù)學證明
研究團隊并不滿足于僅僅提出一個實用的方法,他們深入挖掘了問題的數(shù)學本質。通過嚴格的理論分析,他們證明了在標準的softmax策略下,評分函數(shù)的期望平方范數(shù)與策略熵之間存在單調關系。這個看似抽象的數(shù)學結論實際上揭示了一個重要現(xiàn)象:高熵(不確定)的行動天然會產生較大的梯度,而低熵(確定)的行動則產生較小的梯度。
這種內在的數(shù)學特性創(chuàng)造了一個學習上的矛盾。一方面,那些模型表現(xiàn)得很有信心且正確的步驟應該得到強化,但由于它們的低熵特性,實際得到的學習信號卻很微弱,就像表現(xiàn)優(yōu)異的學生卻得不到足夠的表揚一樣。另一方面,那些充滿不確定性的探索性步驟會產生很大的學習波動,這些噪聲可能會干擾整個學習過程的穩(wěn)定性,就像課堂上總有一些搗亂的學生會影響整體學習氛圍。
EMPG的理論貢獻在于提供了一個原則性的解決方案來重新平衡這種不對稱性。通過引入熵調制機制,系統(tǒng)能夠在數(shù)學上正確地重新分配學習信號,確保每種類型的步驟都能得到適當?shù)奶幚怼Q芯繄F隊進一步從信息論角度論證了未來清晰度獎勵的合理性,將其與信息增益和權能框架聯(lián)系起來,為這種內在激勵提供了堅實的理論支撐。
三、全面的實驗驗證與卓越表現(xiàn)
為了驗證EMPG的有效性,研究團隊在三個極具挑戰(zhàn)性的長期任務基準上進行了全面測試:WebShop(網絡購物導航任務)、ALFWorld(文本環(huán)境中的指令跟隨任務)和Deep Search(多步信息檢索與綜合任務)。這些任務都有一個共同特點:需要AI系統(tǒng)執(zhí)行多個步驟才能達到最終目標,而且只有在任務結束時才能獲得成功或失敗的二元反饋。
在WebShop任務中,AI需要像真實用戶一樣在網站上搜索商品、瀏覽頁面、比較選項并做出購買決定。實驗結果顯示,當EMPG應用到不同規(guī)模的Qwen2.5模型上時,都帶來了顯著的性能提升。在1.5B參數(shù)的模型上,EMPG讓GRPO基線方法的成功率提高了8.1個百分點,讓DAPO基線提高了7.3個百分點。這種改進在更大的7B模型上同樣明顯,DAPO結合EMPG后在WebShop上達到了82.7%的成功率。
ALFWorld任務要求AI在文本描述的環(huán)境中完成各種家務任務,如"把熱土豆放進冰箱"這樣的復雜指令。這個任務特別考驗AI的常識推理能力和多步規(guī)劃能力。實驗結果同樣令人印象深刻,EMPG在各種模型規(guī)模和基線算法上都表現(xiàn)出了穩(wěn)定的改進效果。
最具挑戰(zhàn)性的是Deep Search任務,這要求AI進行多輪網絡搜索、閱讀和分析多個信息源,最終合成答案。研究團隊使用了32B參數(shù)的強大模型來處理這個復雜任務。結果顯示,EMPG將強基線DAPO的平均得分從62.0提升到65.3,獲得了3.3個百分點的顯著改進。更重要的是,EMPG在域外泛化任務上的表現(xiàn)尤為突出,提升了3.9個百分點,顯示出該方法不僅能在訓練數(shù)據(jù)上表現(xiàn)良好,還能有效處理新穎的未見過的任務。
四、深入分析揭示的學習機制
研究團隊通過詳細的消融研究發(fā)現(xiàn)了EMPG兩個組件的不同作用機制。未來清晰度獎勵主要作為訓練期間的強大利用信號,通過強化已知的高質量決策序列來幫助模型掌握域內分布,在域內任務上帶來了2.6個百分點的顯著提升。相比之下,自校準梯度縮放更像是一個強大的正則化機制,它教會模型在面臨不確定性時如何恰當?shù)匦袨?。通過減弱高熵步驟的更新,這個機制產生了一個本質上更加魯棒、不易出錯的最終策略。
這種學習到的魯棒性在測試階段面對新穎輸入時表現(xiàn)得尤為明顯。當模型遇到引發(fā)高不確定性的域外任務時,由于在訓練中學會了不在這種情況下過度反應,它展現(xiàn)出了優(yōu)越的泛化能力,在域外任務上獲得了3.9個百分點的魯棒提升。這證明EMPG不僅僅是在過度擬合訓練數(shù)據(jù),而是通過學習如何處理不確定性這一基本技能,獲得了更有彈性的問題解決方法。
研究團隊還深入分析了學習動態(tài)過程,發(fā)現(xiàn)了一個重要現(xiàn)象:傳統(tǒng)基線方法在所有實驗中都會一致地達到明顯的性能平臺期,學習停滯,成功率不再提高。相比之下,EMPG增強的智能體能夠果斷突破這個性能上限。通過提供更豐富和更有效的學習信號,EMPG使智能體能夠維持學習動力,推進到基線方法的峰值之外,最終收斂到顯著更高的最終成功率。
五、訓練穩(wěn)定性的顯著改善
除了性能提升,EMPG還顯著增強了訓練過程的穩(wěn)定性和魯棒性。在線強化學習微調中的一個常見失敗模式是"策略崩潰",即智能體的策略在訓練后期發(fā)散,導致性能災難性下降。研究團隊通過追蹤訓練過程中的KL損失發(fā)現(xiàn),DAPO基線智能體最初學習有效,但在大約240個訓練步驟后KL損失變得高度不穩(wěn)定,表明嚴重的不穩(wěn)定性。
相比之下,EMPG增強的智能體在整個訓練過程中保持了低且穩(wěn)定的KL損失。這表明EMPG的機制,特別是自校準梯度縮放,有效地調節(jié)了策略更新,防止了可能導致發(fā)散的過度激進變化,確保了更可靠地收斂到高性能策略。這種穩(wěn)定性對于實際應用至關重要,因為它意味著研究人員和工程師可以更可靠地訓練高性能的AI智能體,而不用擔心訓練過程中的意外崩潰。
研究團隊還探索了為什么步驟級別的熵分析對于他們的方法至關重要。他們發(fā)現(xiàn),與先前在令牌級別的分析不同,即使是初始熵很低的步驟仍然會經歷實質性的平均熵變化。這一關鍵發(fā)現(xiàn)強調了他們以步驟為中心的方法的重要性,并證明了EMPG設計用于在整個置信度譜上調制更新的合理性。
六、實際應用價值與未來影響
EMPG的意義遠不止是一個技術改進,它代表了AI系統(tǒng)學習方式的根本性轉變。傳統(tǒng)方法主要依賴外部獎勵信號,就像只能通過考試成績來判斷學生學習效果的教育系統(tǒng)。而EMPG開創(chuàng)了一個新范式,讓AI系統(tǒng)能夠利用自身的內在不確定性作為額外的學習信號,就像優(yōu)秀的學生能夠通過自我反思來改進學習方法。
這種方法的實際應用潛力巨大。在網頁導航、軟件工程和深度搜索等現(xiàn)實任務中,反饋往往只在完成整個任務后才提供,EMPG提供了一個可擴展的替代方案來替代昂貴的過程獎勵模型。它能夠從最少的外部反饋中鍛造出密集、信息豐富的學習信號,這對于那些難以獲得詳細中間反饋的復雜任務特別有價值。
研究團隊表示,未來計劃將EMPG應用到其他長期任務中,如具身AI和多智能體協(xié)作。他們相信這項工作為開發(fā)更高效、更魯棒和更能自我糾正的自主智能體奠定了基礎性基石。隨著AI系統(tǒng)在現(xiàn)實世界中承擔越來越復雜的任務,像EMPG這樣能夠從內在信號中學習的方法將變得越來越重要。
說到底,字節(jié)跳動這項研究解決的是AI領域的一個基本問題:如何讓機器從稀疏的外部反饋中高效學習。通過巧妙地利用模型自身的不確定性作為額外的學習信號,EMPG不僅提高了性能,還增強了訓練的穩(wěn)定性和泛化能力。這種方法讓AI系統(tǒng)變得更像人類學習者,能夠通過自我反思和對不確定性的敏感度來指導自己的學習過程。對于那些希望開發(fā)能夠在復雜現(xiàn)實環(huán)境中可靠工作的AI系統(tǒng)的研究者和工程師來說,這項研究提供了一個強大且實用的新工具。
Q&A
Q1:什么是熵調制策略梯度EMPG?它解決什么問題?
A:EMPG是字節(jié)跳動開發(fā)的一種新型AI學習方法,專門解決長期復雜任務中的學習難題。傳統(tǒng)AI只能在任務結束后知道好壞,就像學生只能通過期末考試了解學習效果。EMPG則讓AI根據(jù)每步操作的確定性程度調整學習強度,同時鼓勵選擇導向明確結果的行動路徑,就像經驗豐富的教練會根據(jù)不同情況給學員差異化指導。
Q2:EMPG在實際測試中表現(xiàn)如何?
A:在三個挑戰(zhàn)性任務中,EMPG都帶來顯著提升。在網購導航任務中,成功率提高了7-8個百分點;在Deep Search復雜檢索任務中,平均得分從62.0提升到65.3。更重要的是,EMPG在處理未見過的新任務時表現(xiàn)尤為出色,域外任務提升了3.9個百分點,顯示出強大的泛化能力和魯棒性。
Q3:EMPG為什么比傳統(tǒng)方法更穩(wěn)定?
A:傳統(tǒng)方法容易出現(xiàn)"策略崩潰",即訓練后期性能突然大幅下降。EMPG通過自校準梯度縮放機制,在模型不確定時減弱學習更新,在確定且正確時加強學習,就像溫和而有針對性的教學方式。實驗顯示EMPG在整個訓練過程中保持穩(wěn)定的KL損失,避免了傳統(tǒng)方法在240步后出現(xiàn)的嚴重不穩(wěn)定現(xiàn)象。
{loop type="link" row=1 }{$vo.title} 亚洲色欲av日日骚| 亚洲国产综合无码一区二区| 国产日韩欧美成人| 亚洲欧洲国产成人综合在线| www.毛片| 国产无套内射又大又猛又粗又爽| 成在人线AV无码免费看网站直播| 国产在线视频福利资源站| 国产精品18久久久久久久久| 欧美人善交videosg| 乱中年女人伦av三区| 国产亚洲AV电影院之毛片| 中文字幕一区二区三区日韩精品 | 最新毛片婷婷99精品视频| 亚洲熟妇熟女久久精品一区| 丝袜国产精品91| 粉嫩av一区| 99精品国产在热久久无毒| 亚洲AV七区| 一卡二卡三卡免费| www国产精品内射老熟女| www东京热| 亚洲精品久久中文字幕| 国产偷国产偷亚州清高app| 欧美成a人片在线观看久| 人妻精品二区| 九九热久久这里全是精品| 人妻多毛丰满熟妇av无码| 91久久香蕉国产熟女线看| 久久免费观看归女高潮特黄| 久久午夜电影| 亚洲国产激情| 国产粉嫩系列一区二区三| 精品韩国乱人伦久久久久久久久| 99re热这里只有精品视频| 欧美乱大交xxxxx疯狂俱乐部| 国产乱子伦视频大全| 99热在线观看精品蜜臀| 激情技师在线观看高清无码| 久久人人97超碰人人澡爱香蕉| 久久久久久手机av免费观看|