伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 點擊右上角微信好友

    朋友圈

    請使用瀏覽器分享功能進行分享

    正在閱讀:騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜
    首頁>時政頻道>要聞>正文

    騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

    來源:{getone name="zzc/xinwenwang"/}2025-09-18 05:56:24

    智東西作者 陳駿達編輯 心緣

    那些畫風(fēng)“油膩”的AI生圖,終于有救了?

    智東西9月16日報道,騰訊近期開源勢頭太猛了,最新發(fā)布的圖像模型算法SRPO登上Hugging Face趨勢榜首,并在趨勢榜前3占2。

    目前Hugging Face模型趨勢榜前6中,有5個均來自國內(nèi)企業(yè),被騰訊、百度、阿里包攬。

    SRPO由騰訊混元生圖團隊聯(lián)合香港中文大學(xué)(深圳)、清華大學(xué)聯(lián)合開發(fā),9月13日開源,已發(fā)布完整訓(xùn)練代碼及技巧,社區(qū)量化版本下載量達1.6萬次,Github Star數(shù)量超過600。

    SRPO的全稱是Semantic Relative Preference Optimization(語義相對偏好優(yōu)化),旨在解決當(dāng)前開源社區(qū)中熱門AI生圖模型Flux生成人像時皮膚質(zhì)感差、過于油膩的問題。

    通過在線調(diào)整獎勵偏好、優(yōu)化早期生成軌跡等手段,SRPO可改善圖像生成效果,能將模型生成圖片的真實度、美學(xué)優(yōu)秀率的人類評估提升超300%。

    ▲Flux與SRPO生成效果對比

    在取得更好效果的同時,SRPO大幅提升了訓(xùn)練效率,在32卡設(shè)置下,僅需10分鐘(5.3GPU卡時)就可以完成訓(xùn)練,效率相比DanceGRPO提升了75倍。

    開發(fā)者可在ComfyUI中使用SRPO,僅需將下圖導(dǎo)入ComfyUI即可獲取完整工作流,或者直接加載SRPO-workflow的JSON文件。

    目前,SRPO已被上傳至Hugging Face、Github等開源托管平臺,相關(guān)技術(shù)報告已發(fā)布。

    論文鏈接:

    https://arxiv.org/abs/2509.06942

    項目主頁:

    https://tencent.github.io/srpo-project-page/

    GitHub:

    https://github.com/Tencent-Hunyuan/SRPO

    Hugging Face:

    https://huggingface.co/tencent/SRPO

    開源社區(qū)還在其基礎(chǔ)上制作了多個量化版本。

    量化版本鏈接:

    https://huggingface.co/wikeeyang/SRPO-Refine-Quantized-v1.0

    https://huggingface.co/befox/SRPO-GGUF

    https://huggingface.co/rockerBOO/flux.1-dev-SRPO

    一、引入新型采樣策略,給去噪提供“標(biāo)準答案”

    在SRPO中,研究團隊引入了一種用于擴散微調(diào)的新型采樣策略Direct-Align,可以有效地恢復(fù)高度噪聲的圖像,從而使優(yōu)化過程更加穩(wěn)定且計算要求更低,尤其是在初始時間步驟中。

    當(dāng)前主流的方法主要依賴多步采樣器(如DDIM)結(jié)合直接梯度反傳來將生成過程與獎勵偏好對齊,計算成本高且容易出現(xiàn)梯度爆炸和優(yōu)化不穩(wěn)定。因此,現(xiàn)有方法通常只能優(yōu)化生成軌跡的后半段。

    這種“僅優(yōu)化后半段”的策略極易導(dǎo)致獎勵模型在高頻信息上的過擬合問題。實驗結(jié)果表明,模型會逐漸學(xué)會“鉆獎勵模型的空子”——具體表現(xiàn)為:HPSv2獎勵模型會偏好偏紅色調(diào)的圖像,PickScore傾向于紫色圖像,而ImageReward則容易對過曝區(qū)域給出過高評分。

    SRPO的研究團隊發(fā)現(xiàn),解決采樣瓶頸的秘密就在于擴散模型的前向公式:中間圖像是噪聲和干凈圖像的插值。這一發(fā)現(xiàn)表明只要掌握噪聲先驗的參考信息,就可以通過精確插值重建擴散軌跡上的任意中間狀態(tài)。

    基于這一理論發(fā)現(xiàn),該團隊創(chuàng)新性地提出了Direct-Align方法:首先對輸入圖像進行可控的噪聲注入,隨后通過單步模型推理,最后借助預(yù)先注入的噪聲作為“參考錨點”進行圖像重建。

    這種帶有“標(biāo)準答案”的去噪方式,相比ReFL等直接依賴模型預(yù)測的傳統(tǒng)方法,顯著降低了重建誤差,實現(xiàn)了更精準的獎勵信號傳導(dǎo)。

    二、有效避免獎勵破解,給模型加上“語義方向盤”

    SRPO的研究團隊改進了直接利用獎勵信號進行反向傳播的方法(例如ReFL和DRaFT)的訓(xùn)練策略,并直接使用負獎勵對模型進行正則化,無需KL散度或單獨的獎勵系統(tǒng)。同時,該團隊還首次在模型中加入了動態(tài)可控的文本條件,能夠在獎勵模型范圍內(nèi)動態(tài)調(diào)整對風(fēng)格的獎勵偏好。

    上述調(diào)整的原因是,文生圖的在線強化學(xué)習(xí)方法(如ReFL、DRaFT)通過直接采樣圖片并反傳可微獎勵梯度,訓(xùn)練效率高,但高度依賴預(yù)訓(xùn)練獎勵模型,這些模型難以滿足多樣化、高質(zhì)量的后訓(xùn)練需求。

    例如,用舊獎勵模型優(yōu)化新架構(gòu)(如SD3、Flux)或提升特定美學(xué)維度時,效果有限。傳統(tǒng)做法需大量離線優(yōu)化、微調(diào)獎勵模型或手工設(shè)計復(fù)合獎勵函數(shù),耗時且難以快速應(yīng)對新需求。

    SRPO的研究團隊發(fā)現(xiàn),當(dāng)前主流的圖像-文本雙分支獎勵模型,可以視為以文本分支的輸出為模型參數(shù)關(guān)于圖片特征的函數(shù)。這樣一來,通過調(diào)整文本分支的語義特征,就能有效引導(dǎo)整個獎勵模型的偏好方向。

    基于此,SRPO的研究團隊性提出了“語義引導(dǎo)偏好”機制,通過為獎勵模型添加特定的控制提示詞(如“真實感”)來定向調(diào)整其優(yōu)化目標(biāo)。實驗結(jié)果顯示,某些精心設(shè)計的控制詞能夠增強獎勵模型在真實感等特定維度的優(yōu)化能力。

    然而,研究團隊進一步發(fā)現(xiàn),單純的語義引導(dǎo)仍存在獎勵破解(reward hacking)的風(fēng)險,而獎勵偏差主要源自圖像分支(因為文本分支不參與梯度反傳)。

    針對這一問題,團隊提出了創(chuàng)新的“語義相對偏好優(yōu)化”策略:同時使用正向詞和負向詞作為引導(dǎo)信號,通過負向梯度有效中和獎勵模型的一般性偏差,同時保留語義差異中的特定偏好。

    在具體實現(xiàn)上,為了平衡訓(xùn)練效率和負向詞強度,團隊采用了加權(quán)獎勵公式的設(shè)計,其實現(xiàn)機制類似于無分類器引導(dǎo)(classifier-free guidance)。

    實驗結(jié)果顯示,SRPO顯著增強獎勵模型在真實度等特定維度的優(yōu)化能力。這一突破性方法為長期受困于高質(zhì)量數(shù)據(jù)獲取難題的研究者,提供了一條更加直接高效的優(yōu)化路徑,有望顯著降低模型優(yōu)化的門檻和成本。

    三、美學(xué)優(yōu)秀率、真實度提升超300%,未出現(xiàn)明顯獎勵破解

    SRPO的研究團隊在HPDv2基準測試上對方法進行了評估。HPDv2是一個文生圖領(lǐng)域廣泛使用的基準,用來衡量模型生成圖像的質(zhì)量,特別是與人類偏好(human preferences)對齊的程度。

    在測試中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等主流評測指標(biāo)上均已達到SOTA水平,而結(jié)合SRPO后,在AE和PickScore等關(guān)鍵指標(biāo)上更是取得明顯提升。

    在人類評估方面,與Direct-Align等直接優(yōu)化獎勵偏好的方法不同,SRPO不會因獎勵破解而犧牲真實感,能夠在不依賴額外訓(xùn)練數(shù)據(jù)的情況下,將模型的美學(xué)優(yōu)秀率從8.2%提升至38.9%,提升幅度超過300%,圖像感知真實度提升同樣超過300%。

    用SRPO增強后的FLUX.1.dev超過了最新的開源模型FLUX.1.krea,僅需不到1500張圖像即可實現(xiàn)有效訓(xùn)練。

    更為關(guān)鍵的是,SRPO未出現(xiàn)明顯的獎勵破解現(xiàn)象,驗證了Direct-Align的設(shè)計能夠有效去除獎勵偏差,模型真實感顯著提升。

    在主流獎勵模型上,SRPO也未出現(xiàn)偏色等獎勵破解問題。

    SRPO具備細粒度的人類偏好優(yōu)化能力,通過引入控制詞能夠顯著提升在常見風(fēng)格(如亮度調(diào)整、漫畫、概念藝術(shù))上的可控性,但在低頻風(fēng)格(如賽博朋克)中則受到獎勵模型識別能力的限制。

    最后,研究還發(fā)現(xiàn)Direct-Align具備類似監(jiān)督微調(diào)的擬合特性,當(dāng)結(jié)合真實照片作為離線數(shù)據(jù)時,SRPO能進一步增強圖像真實感。

    結(jié)語:系統(tǒng)提升擴散模型真實感,可控性與可解釋性將成優(yōu)化方向

    與單純的數(shù)據(jù)擬合方法不同,SRPO同時整合了人類偏好信號與強化學(xué)習(xí)優(yōu)化。SRPO研究團隊認為,這是首個大規(guī)模擴散模型中系統(tǒng)性提升真實感的完整方法。

    不過,SRPO在可控性和可解釋性上仍存在一定局限。該團隊計劃通過更系統(tǒng)的控制策略、可學(xué)習(xí)的控制詞以及針對控制信號優(yōu)化的視覺語言模型獎勵來提升方法的可控性與泛化能力。

    [責(zé)編:{getone name="zzc/mingzi"/}]
    閱讀剩余全文(

    日韩老熟妇在线| 亚洲国产V高清在线观看| 2020亚洲欧美国产日韩| 色777狠狠狠综合| 亚洲国产欧美日韩图片在线人成| 婷婷成人影视| 国产精品亚洲日韩AⅤ在线观看| www.爱啪啪| 无码欧洲高潮AV人XXXXX一| 国产亚洲欧美日韩在线观看一区二区| 女女一区二区| 日本XXXX18野外无毒不卡| 本道无码一区二区久久激情| 波多野结衣福利视频| 欧洲精品一区二区| 日韩一区二区三区不卡片| 久久久久少妇久久久久| 欧美精品性爱视频| 亚洲gv在线观看| 亚洲熟妇av日韩熟妇在线| 被拉到野外强要好爽| 六月丁香空姐网| 乱码午夜-极品国产内射| 女人十八禁日本| 国产乱子论一区二区视频| 国产三区在线成人av| 嫩草影院美女| 蜜芽福利在线| 香蕉久久人人爽人人爽人人片av| 加勒比东京热一本大道AV| 体育生gay脱裤子自慰| 精品国产鲁一鲁一区二区深喉 | 九九热这里只有精品蜜桃| 精品国产免费一区二区三区香蕉| 国产日韩精品秘 入口| av熟女乱伦一区| 亚洲精品一区久久久久久 | 国产。色在线| 久久播免费视频| 高清熟女不卡| 人人爱人人操人人爱人人|