機器之心發(fā)布
機器之心編輯部
通義 DeepResearch 重磅發(fā)布,讓 AI 從 “能聊天” 躍遷到 “會做研究”。在多項權威 Deep Research benchmark 上取得 SOTA,綜合能力對標并跑贏海外旗艦模型,同時實現(xiàn)模型、框架、方案全面開源,把深度研究的生產(chǎn)力真正帶到每個人手里。
相比于海外的旗艦模型昂貴和限制的調(diào)用,通義 DeepResearch 團隊做到了完全開源!開源模型,開源框架,開源方案!在 Humanity's Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch, WebWalkerQA 以及FRAMES等多個 Benchmark 上,相比于基于基礎模型的 ReAct Agent 和閉源 Deep Research Agent,其 30B-A3B 輕量級 tongyi DeepResearch,達到了 SOTA 效果。
通義 DeepResearch 團隊也在 Blog 和 Github 完整分享了一套可落地的 DeepResearch Agent 構建方法論,系統(tǒng)性地覆蓋了從數(shù)據(jù)合成、Agentic 增量預訓練 (CPT)、有監(jiān)督微調(diào) (SFT) 冷啟動,到強化學習 (RL) 的端到端全流程。尤其在 RL 階段,該團隊提供了集算法創(chuàng)新、自動化數(shù)據(jù)構建與高穩(wěn)定性基礎設施于一體的全棧式解決方案。在推理層面,模型展現(xiàn)出雙重優(yōu)勢:基礎的 ReAct 模式無需提示工程即可充分釋放模型固有能力;而深度模式 (test-time scaling) 則進一步探索了其在復雜推理與規(guī)劃能力上的上限。
Homepage: https://tongyi-agent.github.io/Blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/Github: https://github.com/Alibaba-NLP/DeepResearchHugging Face: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3BModel Scope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
1 數(shù)據(jù)策略:基于全合成數(shù)據(jù)的增量預訓練和后訓練
模型能力的提升,主要得益于通義 DeepResearch 團隊設計的一套多階段數(shù)據(jù)策略。這個策略的核心目標是,不依賴昂貴的人工標注,也能大規(guī)模地生成高質(zhì)量的訓練數(shù)據(jù)。
1.1 增量預訓練數(shù)據(jù)
團隊引入了 Agentic CPT(增量預訓練)來為模型打下堅實的 Agent 基礎。為此,開發(fā)了一個系統(tǒng)化、可擴展的數(shù)據(jù)合成方案。它能利用后續(xù)訓練流程產(chǎn)生的數(shù)據(jù),形成一個數(shù)據(jù)生成的正向循環(huán)。
數(shù)據(jù)重組和問題構建 基于廣泛收集和增量更新的知識文檔、公開可用的爬蟲數(shù)據(jù)、知識圖譜以及后訓練產(chǎn)生的軌跡數(shù)據(jù)和工具調(diào)用返回結(jié)果(例如,搜索結(jié)果和網(wǎng)頁訪問記錄)等,團隊構建了一個以實體為錨定的開放世界知識記憶。進一步,研究者基于采樣的實體和相關知識構造多風格的(問題,答案)對,以盡可能涵蓋智能體所面臨的真實場景。
動作合成基于多風格問題和歷史軌跡數(shù)據(jù),團隊分別構建了三種類型的動作數(shù)據(jù),包含規(guī)劃、推理和決策動作。該方法能夠在離線環(huán)境下大規(guī)模、全面地探索潛在的推理 - 動作空間,從而消除了對額外商業(yè)工具 API 調(diào)用的需求。特別地,對于決策動作合成,該研究將軌跡重構為多步驟決策過程,以增強模型的決策能力。
1.2 Post-training 數(shù)據(jù)
通義 DeepRsearch 團隊開發(fā)了一套全自動的合成數(shù)據(jù)生成方案,旨在全自動化生成超越人工標注質(zhì)量的數(shù)據(jù)集,以挑戰(zhàn)模型的能力極限。這個方案經(jīng)過了多次迭代,從早期的 WebWalker,到更系統(tǒng)的 WebSailor 和 WebShaper,數(shù)據(jù)質(zhì)量和可擴展性都得到了保證。
為了生成能應對復雜問題的問答數(shù)據(jù),團隊開創(chuàng)性得設計了一個新流程。首先,通過知識圖譜隨機游走和表格數(shù)據(jù)融合等方式,從真實網(wǎng)站數(shù)據(jù)中提取信息,保證數(shù)據(jù)結(jié)構的真實性。然后,通過策略性地模糊或隱藏問題中的信息來增加難度。團隊將問答難度建模為一系列可控的 “原子操作”,這樣就可以系統(tǒng)性地提升問題的復雜度。
為了減少推理捷徑,團隊還基于集合論對信息搜索問題進行了形式化建模。這幫助他們以可控的方式生成更高質(zhì)量的問題,并解決了合成數(shù)據(jù)難以驗證正確性的問題。
此外,該團隊還開發(fā)了一個自動化數(shù)據(jù)引擎,用于生成需要多學科知識和多源推理的 “博士級” 研究問題。它會讓一個配備了網(wǎng)絡搜索、學術檢索等工具的代理,在一個循環(huán)中不斷深化和擴展問題,使任務難度可控地升級。
2 推理模式
Tongyi DeepResearch 既有原生的ReAct Mode,又有進行上下文管理的Heavy Mode。
2.1 ReAct Mode
模型在標準的 ReAct 模式(思考 - 行動 - 觀察)下表現(xiàn)出色。128K 的上下文長度支持大量的交互輪次,團隊遵循大道至簡,認為通用的、可擴展的方法最終會更有優(yōu)勢。
2.2 Heavy Mode
除了 ReAct 模式外,通義 DeepResearch 團隊還開發(fā)了 “深度模式”,用于處理極端復雜的多步研究任務。此模式基于該團隊全新的 IterResearch 范式,旨在將 Agent 的能力發(fā)揮到極致。
IterResearch 范式的創(chuàng)建是為了解決 Agent 將所有信息堆積在一個不斷擴展的單一上下文窗口中時出現(xiàn)的認知瓶頸和噪音污染。相反,IterResearch 將一項任務解構為一系列 “研究輪次”。
在每一輪中,Agent 僅使用上一輪中最重要的輸出來重建一個精簡的工作空間。在這個專注的工作空間中,Agent 會分析問題,將關鍵發(fā)現(xiàn)整合成一個不斷演變的核心報告,然后決定下一步行動 —— 是收集更多信息還是提供最終答案。這種 “綜合與重構” 的迭代過程使 Agent 能夠在執(zhí)行長期任務時保持清晰的 “認知焦點” 和高質(zhì)量的推理能力。
在此基礎上,團隊還提出了 Research-Synthesis 框架:讓多個 IterResearch Agent 并行探索同一個問題,最后整合它們的報告和結(jié)論,以獲得更準確的答案。
3 訓練
打通整個鏈路,引領新時代下 Agent model 訓練的新范式
通義 DeepResearch 團隊對 Agent model 訓練流程進行革新!從 Agentic CPT (contine pre-training) 到 RFT (rejected fine-tuning) 再到 Agentic RL (reinforment learning),打通整個鏈路,引領新時代下 Agent model 訓練的新范式。
端到端 Agent 訓練流程
Tongyi DeepResearch Agent 建立了一套連接 Agentic CPT → Agentic SFT → Agentic RL 的訓練范式。下面重點介紹該團隊如何通過強化學習來完成最后的優(yōu)化。
基于策略的強化學習(RL)
通過強化學習構建高質(zhì)量的 Agent 是一項復雜的系統(tǒng)工程挑戰(zhàn);如果將整個開發(fā)過程視為一個 “強化學習” 循環(huán),其組件中的任何不穩(wěn)定或魯棒性不足都可能導致錯誤的 “獎勵” 信號。接下來,團隊將分享他們在強化學習方面的實踐,涵蓋算法和基礎設施兩個方面。
在強化學習(RL)算法方面,通義 DeepResearch 團隊基于 GRPO 進行了定制優(yōu)化。他們嚴格遵循 on-policy 的訓練范式,確保學習信號始終與模型當前的能力精準匹配。同時,團隊采取了一個 token 級別的策略梯度損失函數(shù)來優(yōu)化訓練目標。其次,為了進一步降低優(yōu)勢估計(advantage estimation)的方差,團隊采用了留一法 (leave-one-out) 策略。此外,團隊發(fā)現(xiàn)未經(jīng)篩選的負樣本會嚴重影響訓練的穩(wěn)定性,這種不穩(wěn)定性在長時間訓練后可能表現(xiàn)為 “格式崩潰”(format collapse)現(xiàn)象。為緩解此問題,他們會選擇性地將某些負樣本排除在損失計算之外,例如那些因過長而未能生成最終答案的樣本。出于效率考慮,該團隊沒有采用動態(tài)采樣,而是通過增大批次(batch size)和組規(guī)模(group size)的方式,來維持較小的方差并提供充足的監(jiān)督信號。
訓練過程的動態(tài)指標顯示,模型學習效果顯著,獎勵(reward)呈持續(xù)上升趨勢。同時,策略熵(policy entropy)始終維持在較高水平,這表明模型在持續(xù)進行探索,有效防止了過早收斂。團隊人員將此歸因于 Web 環(huán)境天然的非平穩(wěn)性,該特性促進了穩(wěn)健自適應策略的形成,也因此無需再進行顯式的熵正則化。
通義 DeepResearch 團隊認為,算法固然重要,但并非 Agentic RL 成功的唯一決定因素。在嘗試了多種算法和優(yōu)化技巧后他們發(fā)現(xiàn),數(shù)據(jù)質(zhì)量和訓練環(huán)境的穩(wěn)定性,可能是決定強化學習項目成敗的更關鍵一環(huán)。一個有趣的現(xiàn)象是,團隊曾嘗試直接在 BrowseComp 測試集上訓練,但其表現(xiàn)遠不如使用合成數(shù)據(jù)的結(jié)果。研究者推測,這種差異源于合成數(shù)據(jù)提供了一致性更高的分布,使模型能進行更有效的學習和擬合。相比之下,像 BrowseComp 這樣的人工標注數(shù)據(jù),本身就含有更多噪聲,加之其規(guī)模有限,導致模型很難從中提煉出一個可供學習的潛在分布,從而影響了其學習和泛化(generalize)能力。這一發(fā)現(xiàn)對其他智能體的訓練同樣具有啟發(fā)意義,為構建更多樣、更復雜的智能體訓練方案提供了思路。
在基礎設施方面,使用工具訓練智能體需要一個高度穩(wěn)定高效的環(huán)境:
仿真訓練環(huán)境:依賴實時 Web API 進行開發(fā)成本高昂、速度慢且不一致。團隊利用離線維基百科數(shù)據(jù)庫和自定義工具套件創(chuàng)建了一個模擬訓練環(huán)境來解決這一問題。并且通過 SailorFog-QA-V2 的流程,為該環(huán)境生成專屬的高質(zhì)量數(shù)據(jù),創(chuàng)建了一個經(jīng)濟高效、快速可控的平臺,顯著加快了研究和迭代速度。穩(wěn)定高效的工具沙盒:為了確保在智能體訓練和評估期間對工具的穩(wěn)定調(diào)用,團隊開發(fā)了一個統(tǒng)一的沙盒。該沙盒通過緩存結(jié)果、重試失敗的調(diào)用以及飽和式響應等改進來高效地處理并發(fā)和故障。這為智能體提供了快速且魯棒的交互環(huán)境,可以有效防止工具的錯誤響應破壞其學習軌跡。自動數(shù)據(jù)管理:數(shù)據(jù)是提升模型能力的核心驅(qū)動力,其重要性甚至超過了算法。數(shù)據(jù)質(zhì)量直接決定了模型是否能通過自我探索提升分布外泛化能力。因此,團隊在訓練動態(tài)的指導下實時優(yōu)化數(shù)據(jù),通過全自動數(shù)據(jù)合成和數(shù)據(jù)漏斗動態(tài)調(diào)整訓練集。通過數(shù)據(jù)生成和模型訓練之間的正向循環(huán),這種方法不僅確保了訓練的穩(wěn)定性,還帶來了顯著的性能提升。基于策略的異步框架:團隊在 rLLM 之上實現(xiàn)了異步強化學習訓練推理框架,多個智能體實例并行與(模擬或真實)環(huán)境交互,獨立生成軌跡。
通過這些措施,通義 DeepResearch 團隊實現(xiàn)了智能體強化訓練的 “閉環(huán)”。從基座模型開始,團隊進行了 Agentic 持續(xù)預訓練以初始化工具使用技能,然后使用類似專家的數(shù)據(jù)進行監(jiān)督微調(diào)以實現(xiàn)冷啟動,最后進在 on-policy 的強化學習,使模型進行自我進化。這種全棧方法為訓練能夠在動態(tài)環(huán)境中穩(wěn)健地解決復雜任務的 AI 代理提供了一種全新的范例。
4 應用落地
目前通義 DeepResearch 已賦能多個阿里巴巴內(nèi)部應用,包括:
高德出行 Agent:
高德 App 作為通義在集團內(nèi)長期共建的重點客戶,其 “地圖導航 + 本地生活” 的業(yè)務場景,以及高德內(nèi)部豐富的專用工具,具備構建這類 Agent 的土壤,高德也將這類 Agent 能力作為 25 年暑期大版本 V16 的一個亮點功能。通義團隊近期在地圖 + 本地生活場景,基于純 agentic+ReAct 執(zhí)行復雜推理的垂類 agent 技術建設,可以為高德提供更好效果的模型。因此,雙方團隊共建合作,“通義團隊提供模型 + 高德團隊提供工具和 Agent 鏈路”,打造了高德 App 中助手高德小德的復雜查詢體驗,在地圖行業(yè)內(nèi)打出影響力。
通義法睿:
通義法睿,作為大模型原生的 “法律智能體”,致力于為大眾及法律從業(yè)者提供專業(yè)、便捷的法律智能服務。集法律問答、案例法條檢索、合同審查、文書閱讀、文書起草等功能于一體,全面滿足法律用戶需求。依托創(chuàng)新的 Agentic 架構與迭代式規(guī)劃(Iterative Planning)技術,通義法睿全新升級司法 DeepResearch 能力,可高效執(zhí)行多步查詢與復雜推理,實現(xiàn)權威類案精準檢索、法條智能匹配與專業(yè)觀點深度融合。我們以真實判例、官方法規(guī)和權威解讀為基礎,打造可追溯、高可信的法律分析服務,在法律問答的深度研究三大核心維度 —— 答案要點質(zhì)量、案例引用質(zhì)量、法條引用質(zhì)量上領先行業(yè)。
通義 DeepResearch 也擁有豐富的 Deep Research Agent 家族。您可以在以下論文中找到更多信息:
[1] WebWalker: Benchmarking LLMs in Web Traversal
[2] WebDancer: Towards Autonomous Information Seeking Agency
[3] WebSailor: Navigating Super-human Reasoning for Web Agent
[4] WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
[5] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
[6] WebResearch: Unleashing reasoning capability in Long-Horizon Agents
[7] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
[8] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
[9] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
[10] Scaling Agents via Continual Pre-training
[11] Towards General Agentic Intelligence via Environment Scaling
通義 DeepResearch 團隊長期致力于 Deep Research 的研發(fā)。過去六個月,以每月持續(xù)發(fā)布一篇技術報告,迄今為止已發(fā)布五篇。今天,同時發(fā)布六篇新報告,并在開源社區(qū)發(fā)布了通義 DeepResearch-30B-A3B 模型。
關于我們|版權聲明| 違法和不良信息舉報電話:010-84151598 | 網(wǎng)絡敲詐和有償刪帖舉報電話:010-84151598
Copyright ? 2008-2024 by {當前域名}. all rights reserved