字節(jié)跳動(dòng)破解AI智能體難題:讓機(jī)器像人一樣從經(jīng)驗(yàn)中明智學(xué)習(xí)
作者:不嫁我干嘛還要撩我 來(lái)源:平頂山 瀏覽: 【大中小】 發(fā)布時(shí)間:2025-09-14評(píng)論數(shù):
這項(xiàng)由字節(jié)跳動(dòng)種子團(tuán)隊(duì)的王家偉、劉家才、付雨千、李映如、王鑫濤、林遠(yuǎn)、岳宇、張霖、王楊和王可等研究人員完成的突破性研究,于2025年9月發(fā)表在arXiv預(yù)印本平臺(tái)上。有興趣深入了解的讀者可以通過(guò)項(xiàng)目主頁(yè) https://empgseed-seed.github.io/ 訪問(wèn)完整內(nèi)容和相關(guān)材料。
在人工智能的世界里,讓機(jī)器像人類一樣學(xué)習(xí)一直是個(gè)巨大挑戰(zhàn),特別是當(dāng)機(jī)器需要完成那些需要多個(gè)步驟才能達(dá)到目標(biāo)的復(fù)雜任務(wù)時(shí)。就像教一個(gè)孩子學(xué)會(huì)做飯,你不能只在他最后端上一道菜時(shí)才說(shuō)"做得好"或"做得不好",而是需要在他每一個(gè)操作步驟中給予適當(dāng)?shù)闹笇?dǎo)。但現(xiàn)實(shí)情況是,大多數(shù)AI系統(tǒng)只能在任務(wù)完成后才知道結(jié)果的好壞,這就像讓學(xué)生做完整張?jiān)嚲砗蟛胖雷罱K分?jǐn)?shù),卻不知道每道題的對(duì)錯(cuò)。
字節(jié)跳動(dòng)的研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前的大語(yǔ)言模型智能體在處理需要多步驟完成的長(zhǎng)期任務(wù)時(shí)面臨著一個(gè)根本性問(wèn)題:稀疏獎(jiǎng)勵(lì)信號(hào)讓系統(tǒng)難以判斷中間步驟的價(jià)值。這個(gè)問(wèn)題就好比一個(gè)廚師在做一道復(fù)雜菜品時(shí),只有在客人品嘗后才知道菜品好壞,卻不知道在準(zhǔn)備食材、調(diào)味、烹飪的各個(gè)環(huán)節(jié)中哪些步驟做對(duì)了,哪些需要改進(jìn)。
更深層的問(wèn)題在于,研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析發(fā)現(xiàn),傳統(tǒng)的策略梯度方法存在一個(gè)內(nèi)在缺陷:模型的學(xué)習(xí)更新幅度與其預(yù)測(cè)不確定性緊密相關(guān)。簡(jiǎn)單來(lái)說(shuō),當(dāng)模型對(duì)某個(gè)步驟很有信心時(shí),即使這個(gè)步驟是正確的重要決策,它得到的學(xué)習(xí)強(qiáng)化也很??;相反,當(dāng)模型對(duì)某個(gè)步驟毫無(wú)把握時(shí),這種不確定性反而會(huì)產(chǎn)生很大的學(xué)習(xí)波動(dòng),可能讓整個(gè)學(xué)習(xí)過(guò)程變得不穩(wěn)定。這種現(xiàn)象就像一個(gè)新手司機(jī),在熟悉的路段開(kāi)車時(shí)即使表現(xiàn)很好也不會(huì)有太多提升,而在完全陌生的路段卻因?yàn)榫o張而操作失誤,反而養(yǎng)成了壞習(xí)慣。
一、突破傳統(tǒng)框架的全新學(xué)習(xí)策略
針對(duì)這些問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案:熵調(diào)制策略梯度(EMPG)。這個(gè)方法的核心思想是重新校準(zhǔn)學(xué)習(xí)信號(hào),讓AI系統(tǒng)能夠根據(jù)每個(gè)步驟的不確定性程度來(lái)調(diào)整學(xué)習(xí)強(qiáng)度,同時(shí)鼓勵(lì)系統(tǒng)尋找那些能導(dǎo)向更明確未來(lái)狀態(tài)的行動(dòng)路徑。
EMPG的工作原理可以用學(xué)習(xí)駕駛來(lái)類比。傳統(tǒng)方法就像一個(gè)駕駛教練,無(wú)論學(xué)員在哪種情況下的表現(xiàn),都給予同樣強(qiáng)度的反饋。而EMPG更像一位經(jīng)驗(yàn)豐富的教練,他會(huì)根據(jù)不同情況采用不同的教學(xué)策略:當(dāng)學(xué)員在簡(jiǎn)單路段表現(xiàn)出色時(shí),教練會(huì)給予強(qiáng)烈的正面強(qiáng)化,讓學(xué)員牢牢記住這些正確操作;當(dāng)學(xué)員犯了明顯錯(cuò)誤但表現(xiàn)得很自信時(shí),教練會(huì)給予嚴(yán)厲批評(píng),防止錯(cuò)誤固化;而當(dāng)學(xué)員在復(fù)雜路段表現(xiàn)不確定時(shí),教練則會(huì)溫和地指導(dǎo),避免因?yàn)檫^(guò)度批評(píng)而打擊學(xué)員信心。
這套方法包含兩個(gè)核心組件。第一個(gè)是"自校準(zhǔn)梯度縮放"機(jī)制,它會(huì)動(dòng)態(tài)調(diào)整每個(gè)步驟的學(xué)習(xí)信號(hào)強(qiáng)度。當(dāng)AI系統(tǒng)對(duì)某個(gè)正確步驟很有信心時(shí),這個(gè)機(jī)制會(huì)放大學(xué)習(xí)信號(hào),讓系統(tǒng)更深刻地記住這種正確做法;當(dāng)系統(tǒng)犯了錯(cuò)誤但表現(xiàn)得很自信時(shí)(這種情況被稱為"幻覺(jué)性自信"),系統(tǒng)會(huì)受到更強(qiáng)的糾正;而當(dāng)系統(tǒng)在某個(gè)步驟表現(xiàn)得不確定時(shí),學(xué)習(xí)信號(hào)會(huì)被適當(dāng)減弱,避免不穩(wěn)定的更新影響整體學(xué)習(xí)。
第二個(gè)組件是"未來(lái)清晰度獎(jiǎng)勵(lì)",這是一個(gè)內(nèi)在激勵(lì)機(jī)制,鼓勵(lì)A(yù)I系統(tǒng)選擇那些能夠?qū)蚋鞔_、更可預(yù)測(cè)狀態(tài)的行動(dòng)。就像下棋時(shí)優(yōu)秀棋手會(huì)偏向選擇那些讓棋局變得更加明朗的走法,EMPG也會(huì)引導(dǎo)AI系統(tǒng)朝著能夠減少未來(lái)不確定性的方向發(fā)展。這種設(shè)計(jì)幫助系統(tǒng)找到更加穩(wěn)健和可預(yù)測(cè)的解決路徑,而不是陷入混亂或不可預(yù)測(cè)的狀態(tài)中。
二、嚴(yán)謹(jǐn)?shù)睦碚摶A(chǔ)與數(shù)學(xué)證明
研究團(tuán)隊(duì)并不滿足于僅僅提出一個(gè)實(shí)用的方法,他們深入挖掘了問(wèn)題的數(shù)學(xué)本質(zhì)。通過(guò)嚴(yán)格的理論分析,他們證明了在標(biāo)準(zhǔn)的softmax策略下,評(píng)分函數(shù)的期望平方范數(shù)與策略熵之間存在單調(diào)關(guān)系。這個(gè)看似抽象的數(shù)學(xué)結(jié)論實(shí)際上揭示了一個(gè)重要現(xiàn)象:高熵(不確定)的行動(dòng)天然會(huì)產(chǎn)生較大的梯度,而低熵(確定)的行動(dòng)則產(chǎn)生較小的梯度。
這種內(nèi)在的數(shù)學(xué)特性創(chuàng)造了一個(gè)學(xué)習(xí)上的矛盾。一方面,那些模型表現(xiàn)得很有信心且正確的步驟應(yīng)該得到強(qiáng)化,但由于它們的低熵特性,實(shí)際得到的學(xué)習(xí)信號(hào)卻很微弱,就像表現(xiàn)優(yōu)異的學(xué)生卻得不到足夠的表?yè)P(yáng)一樣。另一方面,那些充滿不確定性的探索性步驟會(huì)產(chǎn)生很大的學(xué)習(xí)波動(dòng),這些噪聲可能會(huì)干擾整個(gè)學(xué)習(xí)過(guò)程的穩(wěn)定性,就像課堂上總有一些搗亂的學(xué)生會(huì)影響整體學(xué)習(xí)氛圍。
EMPG的理論貢獻(xiàn)在于提供了一個(gè)原則性的解決方案來(lái)重新平衡這種不對(duì)稱性。通過(guò)引入熵調(diào)制機(jī)制,系統(tǒng)能夠在數(shù)學(xué)上正確地重新分配學(xué)習(xí)信號(hào),確保每種類型的步驟都能得到適當(dāng)?shù)奶幚?。研究團(tuán)隊(duì)進(jìn)一步從信息論角度論證了未來(lái)清晰度獎(jiǎng)勵(lì)的合理性,將其與信息增益和權(quán)能框架聯(lián)系起來(lái),為這種內(nèi)在激勵(lì)提供了堅(jiān)實(shí)的理論支撐。
三、全面的實(shí)驗(yàn)驗(yàn)證與卓越表現(xiàn)
為了驗(yàn)證EMPG的有效性,研究團(tuán)隊(duì)在三個(gè)極具挑戰(zhàn)性的長(zhǎng)期任務(wù)基準(zhǔn)上進(jìn)行了全面測(cè)試:WebShop(網(wǎng)絡(luò)購(gòu)物導(dǎo)航任務(wù))、ALFWorld(文本環(huán)境中的指令跟隨任務(wù))和Deep Search(多步信息檢索與綜合任務(wù))。這些任務(wù)都有一個(gè)共同特點(diǎn):需要AI系統(tǒng)執(zhí)行多個(gè)步驟才能達(dá)到最終目標(biāo),而且只有在任務(wù)結(jié)束時(shí)才能獲得成功或失敗的二元反饋。
在WebShop任務(wù)中,AI需要像真實(shí)用戶一樣在網(wǎng)站上搜索商品、瀏覽頁(yè)面、比較選項(xiàng)并做出購(gòu)買決定。實(shí)驗(yàn)結(jié)果顯示,當(dāng)EMPG應(yīng)用到不同規(guī)模的Qwen2.5模型上時(shí),都帶來(lái)了顯著的性能提升。在1.5B參數(shù)的模型上,EMPG讓GRPO基線方法的成功率提高了8.1個(gè)百分點(diǎn),讓DAPO基線提高了7.3個(gè)百分點(diǎn)。這種改進(jìn)在更大的7B模型上同樣明顯,DAPO結(jié)合EMPG后在WebShop上達(dá)到了82.7%的成功率。
ALFWorld任務(wù)要求AI在文本描述的環(huán)境中完成各種家務(wù)任務(wù),如"把熱土豆放進(jìn)冰箱"這樣的復(fù)雜指令。這個(gè)任務(wù)特別考驗(yàn)AI的常識(shí)推理能力和多步規(guī)劃能力。實(shí)驗(yàn)結(jié)果同樣令人印象深刻,EMPG在各種模型規(guī)模和基線算法上都表現(xiàn)出了穩(wěn)定的改進(jìn)效果。
最具挑戰(zhàn)性的是Deep Search任務(wù),這要求AI進(jìn)行多輪網(wǎng)絡(luò)搜索、閱讀和分析多個(gè)信息源,最終合成答案。研究團(tuán)隊(duì)使用了32B參數(shù)的強(qiáng)大模型來(lái)處理這個(gè)復(fù)雜任務(wù)。結(jié)果顯示,EMPG將強(qiáng)基線DAPO的平均得分從62.0提升到65.3,獲得了3.3個(gè)百分點(diǎn)的顯著改進(jìn)。更重要的是,EMPG在域外泛化任務(wù)上的表現(xiàn)尤為突出,提升了3.9個(gè)百分點(diǎn),顯示出該方法不僅能在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,還能有效處理新穎的未見(jiàn)過(guò)的任務(wù)。
四、深入分析揭示的學(xué)習(xí)機(jī)制
研究團(tuán)隊(duì)通過(guò)詳細(xì)的消融研究發(fā)現(xiàn)了EMPG兩個(gè)組件的不同作用機(jī)制。未來(lái)清晰度獎(jiǎng)勵(lì)主要作為訓(xùn)練期間的強(qiáng)大利用信號(hào),通過(guò)強(qiáng)化已知的高質(zhì)量決策序列來(lái)幫助模型掌握域內(nèi)分布,在域內(nèi)任務(wù)上帶來(lái)了2.6個(gè)百分點(diǎn)的顯著提升。相比之下,自校準(zhǔn)梯度縮放更像是一個(gè)強(qiáng)大的正則化機(jī)制,它教會(huì)模型在面臨不確定性時(shí)如何恰當(dāng)?shù)匦袨?。通過(guò)減弱高熵步驟的更新,這個(gè)機(jī)制產(chǎn)生了一個(gè)本質(zhì)上更加魯棒、不易出錯(cuò)的最終策略。
這種學(xué)習(xí)到的魯棒性在測(cè)試階段面對(duì)新穎輸入時(shí)表現(xiàn)得尤為明顯。當(dāng)模型遇到引發(fā)高不確定性的域外任務(wù)時(shí),由于在訓(xùn)練中學(xué)會(huì)了不在這種情況下過(guò)度反應(yīng),它展現(xiàn)出了優(yōu)越的泛化能力,在域外任務(wù)上獲得了3.9個(gè)百分點(diǎn)的魯棒提升。這證明EMPG不僅僅是在過(guò)度擬合訓(xùn)練數(shù)據(jù),而是通過(guò)學(xué)習(xí)如何處理不確定性這一基本技能,獲得了更有彈性的問(wèn)題解決方法。
研究團(tuán)隊(duì)還深入分析了學(xué)習(xí)動(dòng)態(tài)過(guò)程,發(fā)現(xiàn)了一個(gè)重要現(xiàn)象:傳統(tǒng)基線方法在所有實(shí)驗(yàn)中都會(huì)一致地達(dá)到明顯的性能平臺(tái)期,學(xué)習(xí)停滯,成功率不再提高。相比之下,EMPG增強(qiáng)的智能體能夠果斷突破這個(gè)性能上限。通過(guò)提供更豐富和更有效的學(xué)習(xí)信號(hào),EMPG使智能體能夠維持學(xué)習(xí)動(dòng)力,推進(jìn)到基線方法的峰值之外,最終收斂到顯著更高的最終成功率。
五、訓(xùn)練穩(wěn)定性的顯著改善
除了性能提升,EMPG還顯著增強(qiáng)了訓(xùn)練過(guò)程的穩(wěn)定性和魯棒性。在線強(qiáng)化學(xué)習(xí)微調(diào)中的一個(gè)常見(jiàn)失敗模式是"策略崩潰",即智能體的策略在訓(xùn)練后期發(fā)散,導(dǎo)致性能災(zāi)難性下降。研究團(tuán)隊(duì)通過(guò)追蹤訓(xùn)練過(guò)程中的KL損失發(fā)現(xiàn),DAPO基線智能體最初學(xué)習(xí)有效,但在大約240個(gè)訓(xùn)練步驟后KL損失變得高度不穩(wěn)定,表明嚴(yán)重的不穩(wěn)定性。
相比之下,EMPG增強(qiáng)的智能體在整個(gè)訓(xùn)練過(guò)程中保持了低且穩(wěn)定的KL損失。這表明EMPG的機(jī)制,特別是自校準(zhǔn)梯度縮放,有效地調(diào)節(jié)了策略更新,防止了可能導(dǎo)致發(fā)散的過(guò)度激進(jìn)變化,確保了更可靠地收斂到高性能策略。這種穩(wěn)定性對(duì)于實(shí)際應(yīng)用至關(guān)重要,因?yàn)樗馕吨芯咳藛T和工程師可以更可靠地訓(xùn)練高性能的AI智能體,而不用擔(dān)心訓(xùn)練過(guò)程中的意外崩潰。
研究團(tuán)隊(duì)還探索了為什么步驟級(jí)別的熵分析對(duì)于他們的方法至關(guān)重要。他們發(fā)現(xiàn),與先前在令牌級(jí)別的分析不同,即使是初始熵很低的步驟仍然會(huì)經(jīng)歷實(shí)質(zhì)性的平均熵變化。這一關(guān)鍵發(fā)現(xiàn)強(qiáng)調(diào)了他們以步驟為中心的方法的重要性,并證明了EMPG設(shè)計(jì)用于在整個(gè)置信度譜上調(diào)制更新的合理性。
六、實(shí)際應(yīng)用價(jià)值與未來(lái)影響
EMPG的意義遠(yuǎn)不止是一個(gè)技術(shù)改進(jìn),它代表了AI系統(tǒng)學(xué)習(xí)方式的根本性轉(zhuǎn)變。傳統(tǒng)方法主要依賴外部獎(jiǎng)勵(lì)信號(hào),就像只能通過(guò)考試成績(jī)來(lái)判斷學(xué)生學(xué)習(xí)效果的教育系統(tǒng)。而EMPG開(kāi)創(chuàng)了一個(gè)新范式,讓AI系統(tǒng)能夠利用自身的內(nèi)在不確定性作為額外的學(xué)習(xí)信號(hào),就像優(yōu)秀的學(xué)生能夠通過(guò)自我反思來(lái)改進(jìn)學(xué)習(xí)方法。
這種方法的實(shí)際應(yīng)用潛力巨大。在網(wǎng)頁(yè)導(dǎo)航、軟件工程和深度搜索等現(xiàn)實(shí)任務(wù)中,反饋往往只在完成整個(gè)任務(wù)后才提供,EMPG提供了一個(gè)可擴(kuò)展的替代方案來(lái)替代昂貴的過(guò)程獎(jiǎng)勵(lì)模型。它能夠從最少的外部反饋中鍛造出密集、信息豐富的學(xué)習(xí)信號(hào),這對(duì)于那些難以獲得詳細(xì)中間反饋的復(fù)雜任務(wù)特別有價(jià)值。
研究團(tuán)隊(duì)表示,未來(lái)計(jì)劃將EMPG應(yīng)用到其他長(zhǎng)期任務(wù)中,如具身AI和多智能體協(xié)作。他們相信這項(xiàng)工作為開(kāi)發(fā)更高效、更魯棒和更能自我糾正的自主智能體奠定了基礎(chǔ)性基石。隨著AI系統(tǒng)在現(xiàn)實(shí)世界中承擔(dān)越來(lái)越復(fù)雜的任務(wù),像EMPG這樣能夠從內(nèi)在信號(hào)中學(xué)習(xí)的方法將變得越來(lái)越重要。
說(shuō)到底,字節(jié)跳動(dòng)這項(xiàng)研究解決的是AI領(lǐng)域的一個(gè)基本問(wèn)題:如何讓機(jī)器從稀疏的外部反饋中高效學(xué)習(xí)。通過(guò)巧妙地利用模型自身的不確定性作為額外的學(xué)習(xí)信號(hào),EMPG不僅提高了性能,還增強(qiáng)了訓(xùn)練的穩(wěn)定性和泛化能力。這種方法讓AI系統(tǒng)變得更像人類學(xué)習(xí)者,能夠通過(guò)自我反思和對(duì)不確定性的敏感度來(lái)指導(dǎo)自己的學(xué)習(xí)過(guò)程。對(duì)于那些希望開(kāi)發(fā)能夠在復(fù)雜現(xiàn)實(shí)環(huán)境中可靠工作的AI系統(tǒng)的研究者和工程師來(lái)說(shuō),這項(xiàng)研究提供了一個(gè)強(qiáng)大且實(shí)用的新工具。
Q&A
Q1:什么是熵調(diào)制策略梯度EMPG?它解決什么問(wèn)題?
A:EMPG是字節(jié)跳動(dòng)開(kāi)發(fā)的一種新型AI學(xué)習(xí)方法,專門解決長(zhǎng)期復(fù)雜任務(wù)中的學(xué)習(xí)難題。傳統(tǒng)AI只能在任務(wù)結(jié)束后知道好壞,就像學(xué)生只能通過(guò)期末考試了解學(xué)習(xí)效果。EMPG則讓AI根據(jù)每步操作的確定性程度調(diào)整學(xué)習(xí)強(qiáng)度,同時(shí)鼓勵(lì)選擇導(dǎo)向明確結(jié)果的行動(dòng)路徑,就像經(jīng)驗(yàn)豐富的教練會(huì)根據(jù)不同情況給學(xué)員差異化指導(dǎo)。
Q2:EMPG在實(shí)際測(cè)試中表現(xiàn)如何?
A:在三個(gè)挑戰(zhàn)性任務(wù)中,EMPG都帶來(lái)顯著提升。在網(wǎng)購(gòu)導(dǎo)航任務(wù)中,成功率提高了7-8個(gè)百分點(diǎn);在Deep Search復(fù)雜檢索任務(wù)中,平均得分從62.0提升到65.3。更重要的是,EMPG在處理未見(jiàn)過(guò)的新任務(wù)時(shí)表現(xiàn)尤為出色,域外任務(wù)提升了3.9個(gè)百分點(diǎn),顯示出強(qiáng)大的泛化能力和魯棒性。
Q3:EMPG為什么比傳統(tǒng)方法更穩(wěn)定?
A:傳統(tǒng)方法容易出現(xiàn)"策略崩潰",即訓(xùn)練后期性能突然大幅下降。EMPG通過(guò)自校準(zhǔn)梯度縮放機(jī)制,在模型不確定時(shí)減弱學(xué)習(xí)更新,在確定且正確時(shí)加強(qiáng)學(xué)習(xí),就像溫和而有針對(duì)性的教學(xué)方式。實(shí)驗(yàn)顯示EMPG在整個(gè)訓(xùn)練過(guò)程中保持穩(wěn)定的KL損失,避免了傳統(tǒng)方法在240步后出現(xiàn)的嚴(yán)重不穩(wěn)定現(xiàn)象。
- {loop type="catelog" row=10}{$vo.title}
九九国产乱子伦视频|
精品无人乱码一区二区三区|
婷婷五月综合久久中文字幕|
亚洲另类自拍|
久久精品国产亚洲av麻豆长发|
久久久精品国产免大香伊|
亚洲AV.38|
欧美性video高清精品|
成人网站一区二区|
色播五月激情综合网|
97色色亚洲|
被三个男人绑着躁我好爽视频|
无码A V 每日更新|
成人无码七区|
中国少妇被黑人xxxxx|
女人扒开屁股让我添|
天天躁日日躁狠狠躁日日躁|
免费现黄频在线观看国产|
成人韩免费网站|
人人艹,人人摸|
人人草人人摸人人看|
国产AV自拍A级|
国精产品一线二线三在线播放
|
无码移满少妇|
久久久精品人妻互换|
she欧洲无码成人影视|
www.-级毛片线天内射视视|
老妇网性色aV棚户区|
av黄片大全|
国内精品视频一区二区三区|
欧美专区另类专区在线视频|
日韩毛片免费视频|
国产成人av片免费|
亚洲精品无码久久一线|
欧美一区二区三区青椒视频|
巨大黑人极品videos精品|
精品人妻无码专区在线无广告视频|
亚洲精品一区二区天堂|
精品久久久久久无码囯产|
亚洲色欲色欲大片www无码|
波多野结衣久久久|