告別錯誤累計與噪聲干擾,EviNote-RAG 開啟 RAG 新范式
XXX000免费看,久久国产农村

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 2025-09-18 14:03:54
    來源:大馬金刀網(wǎng)

    告別錯誤累計與噪聲干擾,EviNote-RAG 開啟 RAG 新范式

    字體:

    本文第一作者戴語琴,清華大學博士生。該工作為戴語琴在螞蟻大安全實習期間完成,該工作屬于螞蟻集團大安全 Venus 系列工作,致力于打造搜索智能體 / UI 智能體。本文通訊作者為該校副教授呂帥,研究方向包括大語言模型、多模態(tài)生成、AI4Design。共同通訊作者沈永亮,浙江大學百人計劃研究員,博士生導師,研究方向包括大模型推理、RAG 檢索增強生成、多模態(tài)生成模型等。

    在檢索增強生成(RAG)飛速發(fā)展的當下,研究者們面臨的最大困境并非「生成」,而是「穩(wěn)定」。

    低信噪比讓關鍵信息淹沒在冗余文檔里,錯誤累計則讓推理鏈像骨牌一樣層層坍塌。這兩大頑疾,使得現(xiàn)有 RAG 系統(tǒng)在復雜任務中難以真正可靠。

    近期,一項由螞蟻集團、清華大學、浙江大學、MIT、UC Berkeley、香港大學和新加坡國立大學等機構聯(lián)合完成的研究提出了全新方案——EviNote-RAG。它不僅在多個權威基準上實現(xiàn)了顯著性能提升,更在訓練穩(wěn)定性與推理可靠性上帶來了質(zhì)的飛躍。

    核心秘訣在于兩個創(chuàng)新:

    支持性證據(jù)筆記(Supportive-Evidence Notes, SEN):像人類一樣「先做筆記」,用結構化方式過濾噪聲、標記不確定信息。

    證據(jù)質(zhì)量獎勵(Evidence Quality Reward, EQR):通過邏輯蘊含監(jiān)督,確保筆記真正支撐答案,避免淺層匹配和錯誤累積。

    這一組合帶來的改變是革命性的:訓練曲線不再震蕩,答案推理更加穩(wěn)健。消融與補充實驗進一步驗證了這一點——SEN 是性能提升的基石,而 EQR 則是質(zhì)量提升的關鍵。兩者相輔相成,使 EviNote-RAG 成為當前最穩(wěn)定、最可信賴的 RAG 框架之一。

    換句話說,EviNote-RAG 不僅解決了性能問題,更為復雜推理場景下的檢索增強開辟了一條全新的發(fā)展路徑。

    在多個開放域問答基準上,EviNote-RAG 取得了顯著突破:

    在HotpotQA上相對提升 20%(+0.093 F1 score),在Bamboogle上相對提升 40%(+0.151 F1 score),在2Wiki上相對提升 91%(+0.256 F1 score),不僅刷新了當前最優(yōu)表現(xiàn),還表現(xiàn)出更強的泛化能力與訓練穩(wěn)定性。

    論文標題:EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes論文地址:https://arxiv.org/abs/2509.00877v1Github 地址:https://github.com/Dalyuqin/EviNoteRAG

    研究背景與動機

    在如今這個信息爆炸的時代,檢索增強生成(RAG)技術已經(jīng)成為大型語言模型(LLM)在開放問答(QA)任務中的得力助手。通過引入外部知識,RAG 能夠有效提升回答的準確性和時效性。

    但一個現(xiàn)實問題是:LLM 的知識固定在訓練時刻,容易輸出過時甚至錯誤的信息。于是,檢索增強生成(RAG)被提出:在問答時,從外部知識庫中檢索最新信息,輔助模型生成更準確的答案。然而,現(xiàn)有 RAG 系統(tǒng)依然存在兩個核心痛點:

    低信噪比。在開放域檢索場景中,真正與答案相關的證據(jù)信息往往稀缺且難以識別,大量無關或冗余內(nèi)容充斥在檢索結果中,導致模型在有限的上下文窗口里難以高效聚焦關鍵信息。

    錯誤累。當推理跨越不完整或噪聲證據(jù)時,錯誤會在多跳鏈路中層層放大,最終嚴重削弱答案的準確性和穩(wěn)定性。這一問題在多跳問答場景中尤為突出。

    過去的研究嘗試通過改進檢索質(zhì)量、引入重排序或摘要壓縮、以及對特定語料進行監(jiān)督微調(diào)來緩解上述問題。雖然這些方法在一定程度上降低了噪聲、減輕了推理負擔,但它們普遍依賴標注的信息提取數(shù)據(jù)或外部啟發(fā)式規(guī)則,缺乏一種端到端、穩(wěn)健且可泛化的解決路徑。如何從根本上突破低信噪比與錯誤累計這兩大瓶頸,成為推動 RAG 演進的核心動因。

    因此,研究者提出了新的框架——EviNote-RAG。

    EviNote-RAG 與傳統(tǒng)方法的對比:EviNote-RAG 通過證據(jù)注釋提取關鍵信息,并在蘊意法官的指導下,確保保留的內(nèi)容直接支持答案,從而減少噪音并提高性能。

    傳統(tǒng)的「檢索-回答」范式不同,EviNote-RAG 將流程重構為「檢索-筆記-回答」的三階段結構。

    在這一框架中,模型首先生成Supportive-Evidence Notes(SENs)——類似人類筆記的精簡摘要,僅保留與答案相關的關鍵信息,并對不確定或缺失的部分進行明確標注。這一過程有效過濾了無關內(nèi)容,從源頭上緩解了低信噪比問題。

    進一步地,EviNote-RAG 通過引入Evidence Quality Reward(EQR)——基于邏輯蘊含的獎勵信號,對 SEN 是否真正支撐最終答案進行評估和反饋。這一機制促使模型避免依賴淺層匹配或片段化證據(jù),從而大幅減輕了錯誤累計的風險。

    得益于 SEN 與 EQR 的協(xié)同作用,EviNote-RAG 不僅在多個開放域問答基準上實現(xiàn)了顯著性能提升,還在訓練穩(wěn)定性、泛化能力與推理可靠性方面表現(xiàn)突出,真正為解決 RAG 的兩大頑疾提供了一條端到端的可行路徑。

    技術亮點

    檢索-筆記-回答新范式:不再直接依賴原始檢索結果,而是通過結構化的筆記生成,主動過濾干擾信息,增強證據(jù)利用率。

    類人筆記機制:SEN 模塊模仿人類做筆記的習慣,用「*」標記關鍵信息,用「–」標記不確定信息,避免模型被誤導。

    邏輯蘊含驅動的獎勵信號:引入輕量級自然語言推理模型作為「蘊含判別器」,確保筆記能夠邏輯上支撐最終答案,從而在訓練中提供更密集、更高質(zhì)量的獎勵信號。

    EviNote-RAG 概述:為了提高信息利用率,該方法引入了一個記錄階段,在這個階段,模型生成支持性證據(jù)筆記(SENs),這些筆記只捕獲回答所需的信息?;谔N涵的證據(jù)質(zhì)量獎勵(EQR)進一步確保每個注釋忠實地支持最終答案,引導模型走向更準確和基于證據(jù)的推理。

    實驗表現(xiàn)

    在7 個主流 QA 基準數(shù)據(jù)集上測試了 EviNote-RAG,涵蓋了in-domain(同分布任務)和 out-of-domain(跨域任務)兩大類。評價指標包括F1和EM(Exact Match)。

    結果非常亮眼:在HotpotQA(多跳推理任務)上相比基礎模型,F(xiàn)1 提升 +0.093(20%);在 Bamboogle(跨域復雜 QA)上 F1 提升 +0.151(40%);在 2Wiki(多跳跨域 QA)上 F1 提升 +0.256(91%)。

    Training Dynamics:

    從不穩(wěn)定到穩(wěn)健,RAG 訓練的新范式

    在傳統(tǒng) RAG 框架中,訓練往往充滿不確定性:獎勵稀疏,KL 發(fā)散,甚至在訓練中后期出現(xiàn)「坍塌」現(xiàn)象,模型陷入無效循環(huán)或生成退化答案。

    EviNote-RAG 的引入,徹底改變了這一局面。通過在訓練過程中加入Supportive-Evidence Notes(SEN)與Evidence Quality Reward(EQR),模型不僅學會了過濾無關信息,更獲得了密集、穩(wěn)定的獎勵信號。這一結構化的「檢索-筆記-回答」范式,使得訓練曲線從動蕩轉向平滑,逐步提升性能的同時,極大增強了魯棒性。

    我們的分析揭示了三個關鍵發(fā)現(xiàn):

    Finding 1.穩(wěn)定性來自結構化指令,而非獎勵本身。僅靠獎勵設計無法避免模型漂移,唯有通過「先做筆記、再回答」的流程,把推理顯式約束在證據(jù)之上,才能保證訓練穩(wěn)定增長。

    Finding 2.檢索噪聲過濾顯著提升計算效率。SEN 在訓練早期即丟棄無關證據(jù),使輸出更簡潔聚焦,減少冗余推理,從而顯著降低推理時延。

    Finding 3.行為監(jiān)督不僅提升穩(wěn)定性,更改善輸出質(zhì)量。EQR 的引入有效防止了「過短回答」與「循環(huán)生成」等退化模式,使模型在保持高效的同時,輸出更忠實、更有邏輯支撐。

    結果表明,EviNote-RAG 不只是性能提升,更是一種訓練范式的革新:在噪聲橫行的檢索環(huán)境中,訓練終于能像一條清晰的軌道般穩(wěn)定前行。

    案例分析

    一個直觀的案例是回答「誰創(chuàng)作了《Knockin’ on Heaven’s Door》?」。

    在傳統(tǒng) RAG 系統(tǒng)中,模型容易被檢索文檔中的噪聲或誤導性信息干擾。例如,某些文檔強調(diào) Guns N’ Roses 的翻唱版本,甚至用語暗示其「作者身份」。結果,模型很容易被這種表述帶偏,最終輸出錯誤答案「Guns N’ Roses」。

    而在同樣的場景下,EviNote-RAG 展現(xiàn)出了截然不同的表現(xiàn)。通過生成Supportive-Evidence Notes(SEN),模型能夠主動篩除無關或誤導性的片段,僅保留和問題直接相關的核心證據(jù)。多份文檔反復提及「Bob Dylan 為 1973 年電影《Pat Garrett and Billy the Kid》創(chuàng)作了這首歌」,這些被標注為關鍵信息,最終幫助模型穩(wěn)定輸出正確答案「Bob Dylan」。

    這一案例生動展示了EviNote-RAG 在低信噪比環(huán)境下的優(yōu)勢:即便存在大量混淆性信息,模型依然能夠通過「先做筆記、再給答案」的流程,構建出基于真實證據(jù)的推理鏈,從而避免被誤導。換句話說,EviNote-RAG 不僅是在「回答問題」,更是在「學會像人類一樣做判斷」。

    消融實驗與補充實驗:

    拆解模塊貢獻,驗證方法穩(wěn)健性

    為了進一步理解 EviNote-RAG 的機制貢獻,我們系統(tǒng)地進行了消融實驗與補充實驗。結果表明,我們的方法并非黑箱優(yōu)化的「偶然勝利」,而是每一個設計環(huán)節(jié)都發(fā)揮了關鍵作用。

    消融實驗:SEN 與 EQR 締造穩(wěn)健推理在逐步剝離組件的實驗中,基線模型(SEARCH-R1)在跨域和多跳任務中表現(xiàn)不穩(wěn)定。引入Supportive-Evidence Notes(SEN)后,模型性能顯著提升:無關檢索內(nèi)容被過濾,答案相關性更強。在此基礎上進一步加入Evidence Quality Reward(EQR),模型在復雜推理鏈路中表現(xiàn)更加穩(wěn)定,F(xiàn)1 和 EM 得到進一步提升。這一組合清晰地驗證了我們的方法論邏輯:SEN 提供結構化約束,EQR 提供邏輯一致性監(jiān)督,二者相輔相成,最終顯著增強推理準確性。

    補充實驗:不同總結策略與獎勵設計的比較我們進一步探索了不同的總結與監(jiān)督方式:Naive Summary (NS)、Naive Evidence (NE)、Force Summary (FS) 等。結果顯示,強行要求輸出總結(FS)非但沒有帶來增益,反而由于獎勵稀疏導致性能下降。

    相比之下,SEN 在明確標注關鍵信息與不確定信息的同時,提供了更細粒度的監(jiān)督信號,顯著優(yōu)于 NS/NE。實驗還表明,單純的獎勵擾動(Stochastic Reward)難以帶來穩(wěn)定提升,而結合 EQR 的 SEN+EQR 則在穩(wěn)定性與準確性上均達到最佳。這一系列對照實驗凸顯出一個核心結論:有效的監(jiān)督不在于「要求總結」,而在于「如何組織與標記支持性證據(jù)」。

    核心發(fā)現(xiàn):

    SEN 是性能提升的基礎:通過強制模型「做筆記」,顯著降低噪聲干擾。

    EQR 是質(zhì)量提升的關鍵:通過邏輯蘊含約束,防止淺層匹配,強化因果一致性。

    結構化監(jiān)督勝于簡單約束:相比強制總結或隨機獎勵,SEN+EQR 提供了穩(wěn)定、密集且高質(zhì)量的學習信號。

    綜上,消融與補充實驗不僅驗證了 EviNote-RAG 的有效性,更揭示了在 noisy RAG 環(huán)境中,結構化證據(jù)組織與邏輯監(jiān)督是突破性能瓶頸的關鍵。

    【糾錯】【責任編輯:zxb0268】
    欧美久久久久久久久久片| 久久高清精品| 国产99在线观看| 精品美女Www爽不爽| 120秒试看无码体验区| 天天做天天爱天天综合网2021| 久久99精品久久久久久清纯| 少妇高潮惨叫久久久久久电影| 人人干人人色人人澡| 国产大片黄在线观看| 无码人妻av一二区二区三区| 亚洲 欧美 国产 精品 成人 在线| 国产精品无码a∨麻豆| 无码一卡二卡三卡四卡| 国产卡一卡二卡三| 亚洲欧洲日产国码无码久久99| 俄罗斯AV毛片世道| 国产男女猛烈无遮挡免费视频| 亚洲小说乱欧美另类| 无码一区二区在线看| 久久亚洲私人国产精品va| 国产成人久久婷婷精品流白浆| 西西大胆扒开裸图| 一二区在线观看免费| 亚洲精品国产精品不乱码| 狠狠干狠狠操人人| 乌克兰Av在线:| 鲁丝一区二区三区免费| 2021久久精品国产99国产精品| 高清无码的黄色视频| 亚洲AV无码专区亚洲AV| 亚州无码色色色| 国产乱来╳╳AV| 少妇精品无码一区二区三区| 午夜福利av无码一区二区| 美女视频黄频| 欧美在线黄| 国产肉体XXXX裸体XXXXX| 日本精品婷婷色有码| 午夜爽爽视频| 人人看人人干人人|