騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜
智東西作者 陳駿達(dá)編輯 心緣
那些畫風(fēng)“油膩”的AI生圖,終于有救了?
智東西9月16日報(bào)道,騰訊近期開源勢頭太猛了,最新發(fā)布的圖像模型算法SRPO登上Hugging Face趨勢榜首,并在趨勢榜前3占2。
目前Hugging Face模型趨勢榜前6中,有5個(gè)均來自國內(nèi)企業(yè),被騰訊、百度、阿里包攬。
SRPO由騰訊混元生圖團(tuán)隊(duì)聯(lián)合香港中文大學(xué)(深圳)、清華大學(xué)聯(lián)合開發(fā),9月13日開源,已發(fā)布完整訓(xùn)練代碼及技巧,社區(qū)量化版本下載量達(dá)1.6萬次,Github Star數(shù)量超過600。
SRPO的全稱是Semantic Relative Preference Optimization(語義相對偏好優(yōu)化),旨在解決當(dāng)前開源社區(qū)中熱門AI生圖模型Flux生成人像時(shí)皮膚質(zhì)感差、過于油膩的問題。
通過在線調(diào)整獎(jiǎng)勵(lì)偏好、優(yōu)化早期生成軌跡等手段,SRPO可改善圖像生成效果,能將模型生成圖片的真實(shí)度、美學(xué)優(yōu)秀率的人類評估提升超300%。
▲Flux與SRPO生成效果對比
在取得更好效果的同時(shí),SRPO大幅提升了訓(xùn)練效率,在32卡設(shè)置下,僅需10分鐘(5.3GPU卡時(shí))就可以完成訓(xùn)練,效率相比DanceGRPO提升了75倍。
開發(fā)者可在ComfyUI中使用SRPO,僅需將下圖導(dǎo)入ComfyUI即可獲取完整工作流,或者直接加載SRPO-workflow的JSON文件。
目前,SRPO已被上傳至Hugging Face、Github等開源托管平臺,相關(guān)技術(shù)報(bào)告已發(fā)布。
論文鏈接:
https://arxiv.org/abs/2509.06942
項(xiàng)目主頁:
https://tencent.github.io/srpo-project-page/
GitHub:
https://github.com/Tencent-Hunyuan/SRPO
Hugging Face:
https://huggingface.co/tencent/SRPO
開源社區(qū)還在其基礎(chǔ)上制作了多個(gè)量化版本。
量化版本鏈接:
https://huggingface.co/wikeeyang/SRPO-Refine-Quantized-v1.0
https://huggingface.co/befox/SRPO-GGUF
https://huggingface.co/rockerBOO/flux.1-dev-SRPO
一、引入新型采樣策略,給去噪提供“標(biāo)準(zhǔn)答案”
在SRPO中,研究團(tuán)隊(duì)引入了一種用于擴(kuò)散微調(diào)的新型采樣策略Direct-Align,可以有效地恢復(fù)高度噪聲的圖像,從而使優(yōu)化過程更加穩(wěn)定且計(jì)算要求更低,尤其是在初始時(shí)間步驟中。
當(dāng)前主流的方法主要依賴多步采樣器(如DDIM)結(jié)合直接梯度反傳來將生成過程與獎(jiǎng)勵(lì)偏好對齊,計(jì)算成本高且容易出現(xiàn)梯度爆炸和優(yōu)化不穩(wěn)定。因此,現(xiàn)有方法通常只能優(yōu)化生成軌跡的后半段。
這種“僅優(yōu)化后半段”的策略極易導(dǎo)致獎(jiǎng)勵(lì)模型在高頻信息上的過擬合問題。實(shí)驗(yàn)結(jié)果表明,模型會(huì)逐漸學(xué)會(huì)“鉆獎(jiǎng)勵(lì)模型的空子”——具體表現(xiàn)為:HPSv2獎(jiǎng)勵(lì)模型會(huì)偏好偏紅色調(diào)的圖像,PickScore傾向于紫色圖像,而ImageReward則容易對過曝區(qū)域給出過高評分。
SRPO的研究團(tuán)隊(duì)發(fā)現(xiàn),解決采樣瓶頸的秘密就在于擴(kuò)散模型的前向公式:中間圖像是噪聲和干凈圖像的插值。這一發(fā)現(xiàn)表明只要掌握噪聲先驗(yàn)的參考信息,就可以通過精確插值重建擴(kuò)散軌跡上的任意中間狀態(tài)。
基于這一理論發(fā)現(xiàn),該團(tuán)隊(duì)創(chuàng)新性地提出了Direct-Align方法:首先對輸入圖像進(jìn)行可控的噪聲注入,隨后通過單步模型推理,最后借助預(yù)先注入的噪聲作為“參考錨點(diǎn)”進(jìn)行圖像重建。
這種帶有“標(biāo)準(zhǔn)答案”的去噪方式,相比ReFL等直接依賴模型預(yù)測的傳統(tǒng)方法,顯著降低了重建誤差,實(shí)現(xiàn)了更精準(zhǔn)的獎(jiǎng)勵(lì)信號傳導(dǎo)。
二、有效避免獎(jiǎng)勵(lì)破解,給模型加上“語義方向盤”
SRPO的研究團(tuán)隊(duì)改進(jìn)了直接利用獎(jiǎng)勵(lì)信號進(jìn)行反向傳播的方法(例如ReFL和DRaFT)的訓(xùn)練策略,并直接使用負(fù)獎(jiǎng)勵(lì)對模型進(jìn)行正則化,無需KL散度或單獨(dú)的獎(jiǎng)勵(lì)系統(tǒng)。同時(shí),該團(tuán)隊(duì)還首次在模型中加入了動(dòng)態(tài)可控的文本條件,能夠在獎(jiǎng)勵(lì)模型范圍內(nèi)動(dòng)態(tài)調(diào)整對風(fēng)格的獎(jiǎng)勵(lì)偏好。
上述調(diào)整的原因是,文生圖的在線強(qiáng)化學(xué)習(xí)方法(如ReFL、DRaFT)通過直接采樣圖片并反傳可微獎(jiǎng)勵(lì)梯度,訓(xùn)練效率高,但高度依賴預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型,這些模型難以滿足多樣化、高質(zhì)量的后訓(xùn)練需求。
例如,用舊獎(jiǎng)勵(lì)模型優(yōu)化新架構(gòu)(如SD3、Flux)或提升特定美學(xué)維度時(shí),效果有限。傳統(tǒng)做法需大量離線優(yōu)化、微調(diào)獎(jiǎng)勵(lì)模型或手工設(shè)計(jì)復(fù)合獎(jiǎng)勵(lì)函數(shù),耗時(shí)且難以快速應(yīng)對新需求。
SRPO的研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前主流的圖像-文本雙分支獎(jiǎng)勵(lì)模型,可以視為以文本分支的輸出為模型參數(shù)關(guān)于圖片特征的函數(shù)。這樣一來,通過調(diào)整文本分支的語義特征,就能有效引導(dǎo)整個(gè)獎(jiǎng)勵(lì)模型的偏好方向。
基于此,SRPO的研究團(tuán)隊(duì)性提出了“語義引導(dǎo)偏好”機(jī)制,通過為獎(jiǎng)勵(lì)模型添加特定的控制提示詞(如“真實(shí)感”)來定向調(diào)整其優(yōu)化目標(biāo)。實(shí)驗(yàn)結(jié)果顯示,某些精心設(shè)計(jì)的控制詞能夠增強(qiáng)獎(jiǎng)勵(lì)模型在真實(shí)感等特定維度的優(yōu)化能力。
然而,研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn),單純的語義引導(dǎo)仍存在獎(jiǎng)勵(lì)破解(reward hacking)的風(fēng)險(xiǎn),而獎(jiǎng)勵(lì)偏差主要源自圖像分支(因?yàn)槲谋痉种Р粎⑴c梯度反傳)。
針對這一問題,團(tuán)隊(duì)提出了創(chuàng)新的“語義相對偏好優(yōu)化”策略:同時(shí)使用正向詞和負(fù)向詞作為引導(dǎo)信號,通過負(fù)向梯度有效中和獎(jiǎng)勵(lì)模型的一般性偏差,同時(shí)保留語義差異中的特定偏好。
在具體實(shí)現(xiàn)上,為了平衡訓(xùn)練效率和負(fù)向詞強(qiáng)度,團(tuán)隊(duì)采用了加權(quán)獎(jiǎng)勵(lì)公式的設(shè)計(jì),其實(shí)現(xiàn)機(jī)制類似于無分類器引導(dǎo)(classifier-free guidance)。
實(shí)驗(yàn)結(jié)果顯示,SRPO顯著增強(qiáng)獎(jiǎng)勵(lì)模型在真實(shí)度等特定維度的優(yōu)化能力。這一突破性方法為長期受困于高質(zhì)量數(shù)據(jù)獲取難題的研究者,提供了一條更加直接高效的優(yōu)化路徑,有望顯著降低模型優(yōu)化的門檻和成本。
三、美學(xué)優(yōu)秀率、真實(shí)度提升超300%,未出現(xiàn)明顯獎(jiǎng)勵(lì)破解
SRPO的研究團(tuán)隊(duì)在HPDv2基準(zhǔn)測試上對方法進(jìn)行了評估。HPDv2是一個(gè)文生圖領(lǐng)域廣泛使用的基準(zhǔn),用來衡量模型生成圖像的質(zhì)量,特別是與人類偏好(human preferences)對齊的程度。
在測試中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等主流評測指標(biāo)上均已達(dá)到SOTA水平,而結(jié)合SRPO后,在AE和PickScore等關(guān)鍵指標(biāo)上更是取得明顯提升。
在人類評估方面,與Direct-Align等直接優(yōu)化獎(jiǎng)勵(lì)偏好的方法不同,SRPO不會(huì)因獎(jiǎng)勵(lì)破解而犧牲真實(shí)感,能夠在不依賴額外訓(xùn)練數(shù)據(jù)的情況下,將模型的美學(xué)優(yōu)秀率從8.2%提升至38.9%,提升幅度超過300%,圖像感知真實(shí)度提升同樣超過300%。
用SRPO增強(qiáng)后的FLUX.1.dev超過了最新的開源模型FLUX.1.krea,僅需不到1500張圖像即可實(shí)現(xiàn)有效訓(xùn)練。
更為關(guān)鍵的是,SRPO未出現(xiàn)明顯的獎(jiǎng)勵(lì)破解現(xiàn)象,驗(yàn)證了Direct-Align的設(shè)計(jì)能夠有效去除獎(jiǎng)勵(lì)偏差,模型真實(shí)感顯著提升。
在主流獎(jiǎng)勵(lì)模型上,SRPO也未出現(xiàn)偏色等獎(jiǎng)勵(lì)破解問題。
SRPO具備細(xì)粒度的人類偏好優(yōu)化能力,通過引入控制詞能夠顯著提升在常見風(fēng)格(如亮度調(diào)整、漫畫、概念藝術(shù))上的可控性,但在低頻風(fēng)格(如賽博朋克)中則受到獎(jiǎng)勵(lì)模型識別能力的限制。
最后,研究還發(fā)現(xiàn)Direct-Align具備類似監(jiān)督微調(diào)的擬合特性,當(dāng)結(jié)合真實(shí)照片作為離線數(shù)據(jù)時(shí),SRPO能進(jìn)一步增強(qiáng)圖像真實(shí)感。
結(jié)語:系統(tǒng)提升擴(kuò)散模型真實(shí)感,可控性與可解釋性將成優(yōu)化方向
與單純的數(shù)據(jù)擬合方法不同,SRPO同時(shí)整合了人類偏好信號與強(qiáng)化學(xué)習(xí)優(yōu)化。SRPO研究團(tuán)隊(duì)認(rèn)為,這是首個(gè)大規(guī)模擴(kuò)散模型中系統(tǒng)性提升真實(shí)感的完整方法。
不過,SRPO在可控性和可解釋性上仍存在一定局限。該團(tuán)隊(duì)計(jì)劃通過更系統(tǒng)的控制策略、可學(xué)習(xí)的控制詞以及針對控制信號優(yōu)化的視覺語言模型獎(jiǎng)勵(lì)來提升方法的可控性與泛化能力。