伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 點(diǎn)擊右上角微信好友

    朋友圈

    請(qǐng)使用瀏覽器分享功能進(jìn)行分享

    正在閱讀:扎克伯格的豪賭初見(jiàn)成效?Meta新方法讓LLM長(zhǎng)上下文處理提速30倍
    首頁(yè)>時(shí)政頻道>要聞>正文

    扎克伯格的豪賭初見(jiàn)成效?Meta新方法讓LLM長(zhǎng)上下文處理提速30倍

    來(lái)源:{getone name="zzc/xinwenwang"/}2025-09-19 03:18:09

    機(jī)器之心報(bào)道

    編輯:+0,冷貓

    經(jīng)歷了前段時(shí)間的雞飛狗跳,扎克伯格的投資似乎終于初見(jiàn)成效。

    近期,Meta Superintelligence Labs 聯(lián)合提出了一個(gè)名為 REFRAG 的高效解碼框架,旨在解決 LLM 在處理長(zhǎng)上下文輸入時(shí)面臨的效率瓶頸,尤其是在 RAG 等應(yīng)用場(chǎng)景下。

    論文標(biāo)題:REFRAG:Rethinking RAG based Decoding論文地址:https://arxiv.org/abs/2509.01092

    為什么長(zhǎng)上下文處理如此困難?

    在當(dāng)前的 AI 應(yīng)用中,利用 LLM 處理包含大量外部知識(shí)的長(zhǎng)文本輸入,是提升問(wèn)答、對(duì)話和智能體應(yīng)用能力的關(guān)鍵。然而,這一過(guò)程也帶來(lái)了嚴(yán)峻的挑戰(zhàn):在傳統(tǒng) LLM 中,注意力機(jī)制的計(jì)算和內(nèi)存開(kāi)銷會(huì)隨著輸入長(zhǎng)度的平方(N2)增長(zhǎng)。

    這意味著文本長(zhǎng)度翻一倍,速度可能會(huì)慢 4 倍,這會(huì)導(dǎo)致顯著的系統(tǒng)延遲,并消耗大量?jī)?nèi)存用于存儲(chǔ) KV Cache,進(jìn)而降低系統(tǒng)吞吐量。這使得開(kāi)發(fā)者不得不在知識(shí)豐富度與系統(tǒng)效率之間做出痛苦的權(quán)衡。

    Meta 的研究指出,在 RAG 應(yīng)用中,LLM 處理的上下文中包含了大量從外部知識(shí)庫(kù)檢索拼接而成的段落,但其中只有一小部分與用戶查詢緊密相關(guān)。這些不相關(guān)的段落導(dǎo)致了計(jì)算資源的浪費(fèi)。REFRAG 的核心思想正是基于這一觀察,通過(guò)識(shí)別并跳過(guò)對(duì)這些非相關(guān)上下文的無(wú)效計(jì)算,來(lái)優(yōu)化解碼過(guò)程。

    REFRAG 是如何解決問(wèn)題的?

    REFRAG 框架通過(guò)一個(gè)精巧的四步流程,利用注意力稀疏結(jié)構(gòu),實(shí)現(xiàn)了顯著的性能提升。它與傳統(tǒng) RAG 的關(guān)鍵差異在于,它避免了讓 LLM 直接處理冗長(zhǎng)的原始文本。

    壓縮:首先,一個(gè)輕量級(jí)的編碼器會(huì)讀取檢索到的文檔,將每 16 個(gè) token 壓縮成一個(gè)濃縮了語(yǔ)義精華的「塊向量」??s短:接下來(lái),主模型不再讀取原始的 token,而是直接處理這些塊向量。輸入序列的長(zhǎng)度因此立刻縮短了 16 倍。加速:由于輸入變得極短,注意力機(jī)制的計(jì)算開(kāi)銷大幅降低,同時(shí)作為顯存消耗大頭的 KV cache 也變得更小。這正是其能實(shí)現(xiàn)驚人速度提升的根本原因。選擇:為了防止在壓縮過(guò)程中丟失關(guān)鍵信息,框架引入了一個(gè)基于 RL 的策略充當(dāng)「質(zhì)檢員」,它能智能地挑出信息密度最高、與任務(wù)最相關(guān)的關(guān)鍵片段,確保它們不被壓縮,從而保留核心信息。

    Meta 表示,該框架的有效性已在包括 RAG、多輪對(duì)話和長(zhǎng)文檔摘要在內(nèi)的多種長(zhǎng)上下文任務(wù)中得到驗(yàn)證,取得了突破性的成果:

    速度提升: 將首個(gè) token 生成時(shí)間(TTFT)加速高達(dá) 30.8 倍。在 16k tokens 的場(chǎng)景下,相比 CEPE 等基線方法,實(shí)現(xiàn)了超過(guò) 16 倍的 TTFT 加速。從性能圖表可以看出,文本越長(zhǎng),REFRAG 的優(yōu)勢(shì)越明顯,其加速效果隨上下文規(guī)模增加呈指數(shù)級(jí)提升,而基線方法僅為線性增長(zhǎng)。

    上下文擴(kuò)展: 能夠?qū)F(xiàn)有 LLM 的有效上下文大小擴(kuò)展 16 倍,使其能處理更海量的信息。精度不降反升: 在大幅提升速度和擴(kuò)展上下文的同時(shí),做到了模型的準(zhǔn)確率沒(méi)有損失。更關(guān)鍵的是,在 GSM8K 基準(zhǔn)測(cè)試上,REFRAG 不僅能處理 8 倍更長(zhǎng)的上下文(80 個(gè) chunk vs 10 個(gè) chunk),運(yùn)行速度還提升了一倍,最終成績(jī)更是幾乎翻倍,從 6.71 提升到 12.08。

    簡(jiǎn)而言之,REFRAG 讓「大上下文 RAG」從理想變成了現(xiàn)實(shí)。

    雖然其效果聽(tīng)起來(lái)非常不錯(cuò),但評(píng)論區(qū)也表示,它最終的價(jià)值仍需要在更廣泛的實(shí)際應(yīng)用場(chǎng)景中進(jìn)行檢驗(yàn)。

    還有人對(duì)該研究中的 RL 策略提出了質(zhì)疑。

    方法

    為實(shí)現(xiàn)編碼器與解碼器的有效對(duì)齊,本研究遵循 Yen et al. (2024) 的工作,采用了一種基于「下一段落預(yù)測(cè)」任務(wù)的持續(xù)預(yù)訓(xùn)練方法。

    在訓(xùn)練中,每個(gè)數(shù)據(jù)點(diǎn)包含總計(jì) s+o=T 個(gè)詞元(token)。通過(guò)這一預(yù)訓(xùn)練過(guò)程,模型能夠?qū)W習(xí)如何利用塊嵌入(chunk embeddings)來(lái)高效執(zhí)行下游任務(wù)。

    為了進(jìn)一步提升模型性能,該方法還引入了通過(guò) RL 實(shí)現(xiàn)的選擇性壓縮機(jī)制。在完成 CPT 對(duì)齊后,模型會(huì)經(jīng)過(guò)監(jiān)督微調(diào) ,以適應(yīng)具體的下游應(yīng)用場(chǎng)景,例如 RAG 和多輪對(duì)話。

    持續(xù)預(yù)訓(xùn)練方案

    為確保 CPT 階段的成功,研究者提出了一個(gè)包含重建任務(wù)課程學(xué)習(xí)方法的訓(xùn)練方案。消融研究表明,該方案對(duì)于實(shí)現(xiàn)優(yōu)異的 CPT 性能至關(guān)重要。

    該任務(wù)主要實(shí)現(xiàn)兩個(gè)目標(biāo):

    高效壓縮:訓(xùn)練編碼器將 k 個(gè)詞元壓縮成一個(gè)塊嵌入,同時(shí)最大程度地保留原始信息??臻g映射:訓(xùn)練投影層有效地將編碼器輸出的塊嵌入映射到解碼器的詞元空間中,使解碼器能夠「理解」并準(zhǔn)確重建原始信息。

    設(shè)計(jì)重建任務(wù)的一個(gè)特定意圖是,鼓勵(lì)模型在訓(xùn)練時(shí)更多地依賴其上下文記憶(即從輸入中獲取信息),而非其固有的參數(shù)化記憶(即模型自身已經(jīng)學(xué)到的知識(shí))。一旦通過(guò)此任務(wù)初步對(duì)齊了編碼器與解碼器,便會(huì)解凍解碼器,正式開(kāi)始 CPT。

    選擇性壓縮。為了進(jìn)一步提升答案預(yù)測(cè)的準(zhǔn)確性,該方法(REFRAG)引入了選擇性詞元壓縮機(jī)制。其核心思想是,對(duì)于上下文中特別重要的信息塊,可以不進(jìn)行壓縮,而是以原始形式保留,從而避免關(guān)鍵信息丟失。

    一個(gè)強(qiáng)化學(xué)習(xí)策略被用來(lái)決定哪些塊應(yīng)當(dāng)被保留。該策略以下一段落預(yù)測(cè)的困惑度作為負(fù)向獎(jiǎng)勵(lì)信號(hào)進(jìn)行指導(dǎo)(即困惑度越低,獎(jiǎng)勵(lì)越高),從而學(xué)習(xí)識(shí)別并保留關(guān)鍵信息。編碼器和解碼器都經(jīng)過(guò)微調(diào),以適應(yīng)這種壓縮塊與未壓縮塊混合的輸入形式。該策略網(wǎng)絡(luò)利用塊嵌入和掩碼技術(shù)來(lái)優(yōu)化塊的擴(kuò)展順序,既保留了解碼器的自回歸特性,又實(shí)現(xiàn)了壓縮位置的靈活安排。

    更多技術(shù)細(xì)節(jié)請(qǐng)參看原論文。</p>

    [責(zé)編:{getone name="zzc/mingzi"/}]
    閱讀剩余全文(

    亚洲精品一区久久久久久| 蜜美杏中文字幕一区二区| 国产午夜成人无码免费看| 我不卡 亚洲| 亚洲欧美日韩国产手机在线| 国产性爱av| 91熟女乱色一区二区三区| 国产精品XXX| 99精品久久99久久久久| 天天VA视频| 国产99久久久国产精品~~牛| 久久国产精品老女人| 夫旁人妻在公交被中出出水| laoshunvcaobi| 精品久久久无码人妻中文字幕| 亚洲制服丝袜中文字幕在线| 成人无区777| 爆乳美女午夜福利视频| 亚洲午夜无码av毛片久久| 俄罗斯毛片短视频| 免费国产黄片不卡无码视频| AV免費下載| 国产日韩精品中文字幕| 99麻豆久久久国产精品免费| 侵犯人极品白嫩人妻| 日本不卡在线视频二区三区| 人人草人人操‘| 两个人看的WWW高清免费中文| 女同免费毛片在线播放| 国产一区二区精品尤物| 精品国精品自拍自在线| 欧洲无码第一页| 91精品国产自产在线蜜臀| 国产精品卡1卡2卡三卡四 | 国产av一区二区三区日韩| 亚洲av无码国产精品永久一区 | 美女啪啪视频| 日本一卡二卡3卡四卡网站精品| 性色AV乱码| 成人综合在线播放| 漂亮人妻中文字幕丝袜|