點(diǎn)擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進(jìn)行分享
香港大學(xué)聯(lián)合香港中文大學(xué)、北京航空航天大學(xué)和阿里巴巴的研究團(tuán)隊(duì),在2025年9月發(fā)布了一項(xiàng)突破性研究成果。這項(xiàng)名為"FLUX-Reason-6M & PRISM-Bench"的研究發(fā)表于arXiv預(yù)印本平臺(論文編號:arXiv:2509.09680v1),感興趣的讀者可以通過該編號在arXiv官網(wǎng)查閱完整論文,相關(guān)數(shù)據(jù)集和代碼也已在GitHub和Hugging Face平臺開放獲取。
當(dāng)我們要求AI繪制一幅"夕陽下騎自行車的小貓戴著巫師帽在云朵上穿行"這樣充滿想象力的畫面時(shí),目前最先進(jìn)的開源AI繪畫工具往往會(huì)產(chǎn)生奇怪的結(jié)果:小貓可能沒有巫師帽,自行車可能懸浮在奇怪的位置,或者整個(gè)畫面看起來毫無邏輯。這是因?yàn)楝F(xiàn)有的AI繪畫模型缺乏像人類藝術(shù)家那樣的推理能力——它們無法理解為什么某些元素要以特定方式組合,也不明白如何處理復(fù)雜的空間關(guān)系和情感表達(dá)。
這個(gè)問題困擾著整個(gè)AI繪畫領(lǐng)域。雖然像GPT-Image和Gemini這樣的閉源商業(yè)模型表現(xiàn)出色,但開源模型在面對復(fù)雜、詳細(xì)的創(chuàng)作要求時(shí)常常力不從心。研究團(tuán)隊(duì)深入分析后發(fā)現(xiàn),問題的根源在于兩個(gè)關(guān)鍵缺失:首先,缺乏大規(guī)模、高質(zhì)量、專注于推理能力訓(xùn)練的開源數(shù)據(jù)集;其次,缺乏一個(gè)能夠全面評估AI繪畫模型真實(shí)能力的測評標(biāo)準(zhǔn)。
為了解決這些問題,香港大學(xué)的研究團(tuán)隊(duì)投入了15000個(gè)A100 GPU天的計(jì)算資源,耗時(shí)4個(gè)月,創(chuàng)建了迄今為止最大規(guī)模的AI繪畫推理數(shù)據(jù)集。這個(gè)名為FLUX-Reason-6M的數(shù)據(jù)集包含600萬張高質(zhì)量圖像和2000萬條雙語(中英文)描述文本,專門用于教會(huì)AI模型進(jìn)行復(fù)雜的視覺推理。
一、突破傳統(tǒng)局限:六大特征重新定義AI繪畫能力
研究團(tuán)隊(duì)沒有簡單地收集更多圖片,而是從根本上重新思考了AI繪畫模型需要掌握哪些核心能力。他們將現(xiàn)代AI繪畫的挑戰(zhàn)分解為六個(gè)相互關(guān)聯(lián)的特征維度,就像為一位全才藝術(shù)家制定的技能清單。
想象力(Imagination)是第一個(gè)維度,專門訓(xùn)練AI創(chuàng)造超現(xiàn)實(shí)、奇幻或抽象概念的能力。這類數(shù)據(jù)包含了違反物理定律或?qū)⑼耆煌拍钇婷罱Y(jié)合的場景描述。比如"一座由玻璃建成的城市,光之河流在其中流淌"這樣的描述,要求AI不僅要理解現(xiàn)實(shí)中的城市和河流,還要能夠創(chuàng)造性地重新組合這些概念,產(chǎn)生全新的視覺體驗(yàn)。這種訓(xùn)練讓AI具備了突破字面理解的創(chuàng)造性思維。
實(shí)體描述(Entity)維度聚焦于知識基礎(chǔ)的準(zhǔn)確呈現(xiàn)。當(dāng)用戶要求AI繪制"梅西在世界杯決賽中過人"這樣的場景時(shí),模型需要準(zhǔn)確識別和描繪特定的真實(shí)世界對象、人物或知名實(shí)體。這要求AI不僅要掌握視覺技巧,還要具備豐富的世界知識,能夠準(zhǔn)確再現(xiàn)各種真實(shí)存在的事物及其特征。
文字渲染(Text Rendering)解決了AI繪畫中的一個(gè)老大難題。傳統(tǒng)的生成模型在處理圖像中的文字時(shí)經(jīng)常出現(xiàn)拼寫錯(cuò)誤、位置不當(dāng)或根本無法辨認(rèn)的問題。這個(gè)維度專門收集能夠成功融合清晰可讀英文文字的圖像,對應(yīng)的文本描述明確指出文字內(nèi)容、樣式和在圖像中的具體位置。比如描述"一個(gè)標(biāo)著'FLUX-Reason-6M'的霓虹燈招牌",讓AI學(xué)會(huì)精確的文字控制能力。
風(fēng)格表現(xiàn)(Style)維度建立了一個(gè)龐大而多樣的藝術(shù)與攝影風(fēng)格庫。這些數(shù)據(jù)明確參考特定藝術(shù)運(yùn)動(dòng)(如立體主義、印象主義)、視覺技巧(如長曝光、魚眼鏡頭)甚至著名藝術(shù)家的美學(xué)特征。通過這種訓(xùn)練,AI能夠理解并成功應(yīng)用各種藝術(shù)風(fēng)格,就像掌握了多種繪畫技法的藝術(shù)家。
情感表達(dá)(Affection)維度專門訓(xùn)練AI將抽象的情感概念轉(zhuǎn)化為具體的視覺表現(xiàn)。這類數(shù)據(jù)使用富有感染力的語言描述情緒、感受或氛圍,如"寧靜孤獨(dú)的感覺"或"混亂而充滿喜悅的市場場景"。對應(yīng)的圖像通過色彩搭配、光線處理和主題表情等視覺元素,將這些無形的情感概念轉(zhuǎn)化為有形的視覺符號。
構(gòu)圖安排(Composition)維度關(guān)注場景中對象的精確排列和相互作用。這些描述使用明確的空間定位語言,包括方位詞(如"在...下面"、"在...后面"、"緊鄰")和相對位置關(guān)系。對應(yīng)的圖像提供了正確執(zhí)行這些復(fù)雜空間指令的清晰示例,讓AI學(xué)會(huì)處理精確的構(gòu)圖要求。
這種多標(biāo)簽設(shè)計(jì)的巧妙之處在于,一張圖像可以同時(shí)屬于多個(gè)特征類別。以"埃菲爾鐵塔以梵高《星夜》風(fēng)格呈現(xiàn)"為例,這張圖像既屬于實(shí)體類別(準(zhǔn)確描繪地標(biāo)建筑),也屬于風(fēng)格類別(模仿藝術(shù)家風(fēng)格)。這種有意的重疊確保模型能夠?qū)W會(huì)融合不同類型的推理能力,就像人類藝術(shù)家會(huì)自然地結(jié)合多種技巧一樣。
二、生成鏈?zhǔn)剿季S:讓AI像人類藝術(shù)家一樣思考創(chuàng)作過程
FLUX-Reason-6M數(shù)據(jù)集的最大創(chuàng)新在于引入了"生成鏈?zhǔn)剿季S"(Generation Chain-of-Thought,簡稱GCoT)的概念。這種方法徹底改變了AI學(xué)習(xí)繪畫的方式,從簡單的圖文對應(yīng)關(guān)系升級為深度的創(chuàng)作邏輯理解。
傳統(tǒng)的AI繪畫訓(xùn)練就像教學(xué)生照著樣本臨摹,只告訴他們"這是什么",但從不解釋"為什么這樣畫"。而GCoT方法則像一位經(jīng)驗(yàn)豐富的藝術(shù)導(dǎo)師,不僅展示作品,還詳細(xì)解釋創(chuàng)作的每一個(gè)決策過程。
具體來說,當(dāng)面對一張小狗坐在粉色盒子里的圖像時(shí),傳統(tǒng)方法只會(huì)提供簡單描述:"一只可愛的約克夏犬坐在標(biāo)有'Fabulous'的粉色盒子里,戴著匹配的粉色蝴蝶結(jié)。"而GCoT方法則會(huì)提供詳細(xì)的創(chuàng)作推理過程:"這幅作品巧妙地運(yùn)用了色彩協(xié)調(diào)原理,粉色盒子、蝴蝶結(jié)和周圍裝飾形成統(tǒng)一的色彩主題。小狗的棕白相間毛色與暖色調(diào)背景形成恰當(dāng)對比,突出了主體。構(gòu)圖上采用居中對稱設(shè)計(jì),小狗的爪子輕搭在盒子邊緣,增加了畫面的動(dòng)感和親和力。周圍的羽毛和花朵營造出夢幻氛圍,整體傳達(dá)出純真、可愛的情感基調(diào)。"
這種訓(xùn)練方式讓AI不僅知道畫什么,更重要的是理解為什么這樣畫。模型學(xué)會(huì)了分析空間關(guān)系、藝術(shù)選擇、色彩搭配、情感基調(diào)和構(gòu)圖平衡等創(chuàng)作要素之間的內(nèi)在邏輯。這就像教會(huì)AI掌握了藝術(shù)創(chuàng)作的"內(nèi)功",而不僅僅是表面的"招式"。
研究團(tuán)隊(duì)使用強(qiáng)大的Qwen-VL模型來生成這些詳細(xì)的推理鏈條。該模型接收圖像和所有類別特定的描述作為輸入,然后生成一個(gè)詳細(xì)的逐步推理過程。這個(gè)過程不僅解釋圖像中的元素,還揭示這些元素如何相互作用,為什么存在特定的布局,以及支配場景構(gòu)成的構(gòu)圖和語義原則。
三、精密的數(shù)據(jù)制作流水線:打造工業(yè)級訓(xùn)練資源
創(chuàng)建如此龐大而高質(zhì)量的數(shù)據(jù)集需要一個(gè)精密設(shè)計(jì)的制作流水線。研究團(tuán)隊(duì)將整個(gè)過程分為四個(gè)主要階段,每個(gè)階段都經(jīng)過精心設(shè)計(jì)以確保最終數(shù)據(jù)的質(zhì)量和一致性。
第一階段是建立高質(zhì)量的視覺基礎(chǔ)。不同于簡單收集網(wǎng)絡(luò)圖片,研究團(tuán)隊(duì)選擇使用FLUX.1-dev這一先進(jìn)的圖像生成模型作為合成引擎。他們首先利用視覺語言模型結(jié)合Laion-Aesthetics數(shù)據(jù)集中的圖像,重寫原始說明文字,創(chuàng)造出高質(zhì)量且描述準(zhǔn)確的文本提示。這種方法避免了網(wǎng)絡(luò)爬取數(shù)據(jù)中常見的質(zhì)量不一致和風(fēng)格混亂問題。
但這種策略在兩個(gè)特征類別上存在明顯不足:想象力和文字渲染內(nèi)容嚴(yán)重缺乏。針對想象力類別,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)漸進(jìn)式創(chuàng)意培養(yǎng)過程。他們首先使用Gemini-2.5-Pro生成200個(gè)高概念、富有想象力的種子提示。然后采用創(chuàng)意擴(kuò)展技術(shù):隨機(jī)選取其中10個(gè)提示作為上下文示例輸入Qwen3-32B,并提高模型的溫度參數(shù)以最大化創(chuàng)意輸出,鼓勵(lì)產(chǎn)生新穎的概念關(guān)聯(lián)。這個(gè)過程產(chǎn)生了大量極具創(chuàng)意的文本說明,經(jīng)過FLUX.1-dev渲染后,為數(shù)據(jù)集注入了超現(xiàn)實(shí)和奇幻的視覺內(nèi)容。
對于文字渲染類別,團(tuán)隊(duì)開發(fā)了一個(gè)三階段的挖掘-生成-合成流水線。首先,他們使用強(qiáng)大的Qwen2.5-VL-32B系統(tǒng)性地從Laion-2B數(shù)據(jù)集中挖掘包含清晰可讀文字的圖像。接著,對每個(gè)驗(yàn)證過的富含文字的圖像,再次利用Qwen-VL的描述能力生成高保真的新說明。這些說明精確描述文字內(nèi)容、視覺呈現(xiàn)方式以及圖像中的上下文關(guān)系。最后,這些以文字為中心的說明被輸入FLUX.1-dev進(jìn)行最終合成,產(chǎn)生的圖像中渲染的文字與精制說明直接對應(yīng),形成文字渲染類別的高質(zhì)量訓(xùn)練數(shù)據(jù)。
第二階段是VLM驅(qū)動(dòng)的質(zhì)量篩選和多維度評分。面對800萬張初始合成圖像,團(tuán)隊(duì)設(shè)計(jì)了多層級的篩選系統(tǒng)。首先進(jìn)行基礎(chǔ)質(zhì)量篩選,使用Qwen-VL作為自動(dòng)化質(zhì)量保證檢查員,分析每張圖像的基本清晰度和結(jié)構(gòu)一致性,識別并丟棄存在過度模糊、干擾噪點(diǎn)或顯著結(jié)構(gòu)扭曲的圖像。
然后進(jìn)行強(qiáng)大的多維度分類。團(tuán)隊(duì)使用Qwen-VL根據(jù)預(yù)定義的六個(gè)特征對每張篩選過的圖像進(jìn)行評估。采用量化評分系統(tǒng),模型為每個(gè)特征分配1到10的相關(guān)性分?jǐn)?shù),而不是簡單的二元分類。通過為每個(gè)特征設(shè)置精心校準(zhǔn)的閾值,系統(tǒng)最終確定圖像的類別歸屬。這個(gè)系統(tǒng)專門設(shè)計(jì)用于多標(biāo)簽分類,能夠準(zhǔn)確識別單張圖像屬于多個(gè)特征的情況。
考慮到文字渲染的獨(dú)特挑戰(zhàn),團(tuán)隊(duì)還實(shí)施了專門的字體質(zhì)量篩選。即使高質(zhì)量的生成模型也會(huì)產(chǎn)生難以辨認(rèn)或上下文錯(cuò)誤的文字。為確保數(shù)據(jù)集為這一困難任務(wù)提供清晰可靠的信號,他們再次使用Qwen-VL作為嚴(yán)格的字體質(zhì)量檢查員,對標(biāo)記為文字渲染類別的圖像執(zhí)行詳細(xì)掃描,篩選出任何包含低對比度、扭曲或無意義文字的實(shí)例。
第三階段是VLM驅(qū)動(dòng)的密集說明生成和推理框架構(gòu)建。通過建立高質(zhì)量分類圖像基礎(chǔ)后,下一個(gè)關(guān)鍵階段是生成豐富的多維度說明并構(gòu)建生成鏈?zhǔn)剿季S。這個(gè)過程從傳統(tǒng)說明范式轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化且具有推理意識的注釋框架。
團(tuán)隊(duì)的注釋策略核心是利用VLM的先進(jìn)多模態(tài)推理能力,為每張圖像生成高度針對性的類別特定說明。與產(chǎn)生通用描述的傳統(tǒng)方法不同,他們的方法為每張圖像的特定特征生成詳細(xì)說明。例如,處理實(shí)體圖像時(shí),Qwen-VL被指導(dǎo)生成優(yōu)先考慮場景中特定對象、地標(biāo)或人物準(zhǔn)確識別和詳細(xì)描述的說明。相反,對于風(fēng)格類別的圖像,生成的說明強(qiáng)調(diào)藝術(shù)技巧、視覺美學(xué)和定義藝術(shù)特色的風(fēng)格元素。
生成鏈?zhǔn)剿季S合成是注釋過程的核心步驟。為了構(gòu)建這些推理過程,團(tuán)隊(duì)采用精心的融合策略,將Qwen-VL與完整上下文(即圖像加上所有類別特定說明)一起提供。這種全面的輸入使模型能夠合成詳細(xì)的逐步推理鏈條,不僅闡明圖像中存在的元素,還揭示這些元素如何相互作用、為什么存在特定布局,以及支配場景構(gòu)成的構(gòu)圖和語義原則。
最終階段是原始說明整合和大規(guī)模雙語發(fā)布。為了在策劃的推理信號之外擴(kuò)大泛化能力,研究團(tuán)隊(duì)重新整合了Laion-Aesthetics中能夠可靠描述FLUX.1-dev合成圖像的高質(zhì)量傳統(tǒng)說明。他們使用Qwen-VL作為對齊評判員,評分每個(gè)原始Laion說明與其配對FLUX圖像之間的語義對應(yīng)關(guān)系。分?jǐn)?shù)超過校準(zhǔn)閾值的說明被保留作為額外監(jiān)督,確保覆蓋多樣化的自然語言表達(dá),同時(shí)避免圖像-說明漂移。整合原始說明、類別特定說明和GCoT注釋后,語料庫總計(jì)達(dá)到2000萬個(gè)獨(dú)特說明。
為了實(shí)現(xiàn)資源民主化并促進(jìn)國際合作,團(tuán)隊(duì)使用Qwen的先進(jìn)翻譯能力對整個(gè)說明語料庫進(jìn)行了全面中文翻譯。每個(gè)原始說明、類別特定說明和GCoT說明都被翻譯成中文。然而,對于文字渲染類別,他們實(shí)施了關(guān)鍵的內(nèi)容保護(hù)策略:為了保持任務(wù)的語義完整性,圖像中預(yù)期渲染的特定英文文字在翻譯的說明中保持原始形式。這種雙語框架使FLUX-Reason-6M成為最大且最易獲取的雙語T2I推理數(shù)據(jù)集之一。
四、PRISM-Bench:全方位測評AI繪畫的真實(shí)能力
僅僅創(chuàng)建龐大的訓(xùn)練數(shù)據(jù)集還不夠,研究團(tuán)隊(duì)意識到還需要一個(gè)能夠準(zhǔn)確評估AI繪畫模型真實(shí)能力的測評標(biāo)準(zhǔn)?,F(xiàn)有的評測基準(zhǔn)往往過于簡單或只關(guān)注少數(shù)幾個(gè)維度,無法有效區(qū)分先進(jìn)模型之間的細(xì)微差別。于是,他們開發(fā)了PRISM-Bench(精確且強(qiáng)健的圖像合成測量基準(zhǔn)),這是一個(gè)包含七個(gè)獨(dú)立測試軌道的綜合評估框架。
PRISM-Bench的設(shè)計(jì)哲學(xué)是"細(xì)致入微,人類對齊"。傳統(tǒng)評測方法常常依賴簡單的CLIP分?jǐn)?shù)或目標(biāo)檢測器,這些工具容易達(dá)到飽和狀態(tài),無法真正區(qū)分模型的實(shí)際表現(xiàn)差異。PRISM-Bench采用了一種革命性的方法:利用先進(jìn)視覺語言模型(GPT-4.1和Qwen2.5-VL-72B)的認(rèn)知判斷能力作為人類判斷的代理,實(shí)現(xiàn)細(xì)致入微且與人類評估高度一致的模型性能分析。
七個(gè)測試軌道中的前六個(gè)直接對應(yīng)FLUX-Reason-6M數(shù)據(jù)集的六個(gè)特征:想象力、實(shí)體、文字渲染、風(fēng)格、情感和構(gòu)圖。第七個(gè)軌道是獨(dú)特且具有挑戰(zhàn)性的"長文本"測試,利用GCoT說明來測試模型處理復(fù)雜指令的能力。每個(gè)軌道包含100個(gè)精心選擇和構(gòu)建的提示,總計(jì)700個(gè)多樣化、代表性強(qiáng)且具有挑戰(zhàn)性的雙語提示。
每個(gè)軌道的100個(gè)提示分為兩組,各50個(gè),設(shè)計(jì)用于測量模型性能的不同方面。第一組通過系統(tǒng)化采樣直接來自FLUX-Reason-6M數(shù)據(jù)集,確保廣泛的代表性。為了避免選擇偏差并確保廣泛覆蓋,團(tuán)隊(duì)沒有使用簡單的隨機(jī)采樣,而是采用語義聚類和分層采樣方法。具體地,對每個(gè)類別收集FLUX-Reason-6M數(shù)據(jù)集中得分最高的前10000個(gè)提示,然后使用K-Means算法將提示分為50個(gè)不同的語義聚類。每個(gè)聚類代表該類別內(nèi)的獨(dú)特概念主題。他們從每個(gè)聚類中選擇最接近聚類質(zhì)心的一個(gè)提示作為該語義主題最具代表性的示例。
第二組50個(gè)提示來自精心策劃,專門針對每個(gè)軌道的特定挑戰(zhàn)性方面。對于想象力軌道,團(tuán)隊(duì)將想象概念劃分為幾個(gè)主要類別,如物理不可能性和超現(xiàn)實(shí)敘述,然后使用大語言模型從一個(gè)或多個(gè)類別中隨機(jī)選擇元素生成相應(yīng)提示。實(shí)體軌道策劃了不同類別實(shí)體的列表:著名地標(biāo)、特定動(dòng)植物物種、歷史人物和品牌對象,然后利用大語言模型隨機(jī)選擇一到三個(gè)實(shí)體生成相應(yīng)提示。
文字渲染軌道設(shè)計(jì)了不同長度的文字內(nèi)容、不同字體樣式以及表面和位置組合。風(fēng)格軌道定義了四個(gè)主要風(fēng)格類別,包括藝術(shù)運(yùn)動(dòng)、媒介、攝影技術(shù)和數(shù)字現(xiàn)代美學(xué),總共25種詳細(xì)風(fēng)格,為每種風(fēng)格生成2個(gè)提示。情感軌道使用Plutchik的情感輪作為基礎(chǔ)來源,選擇八種主要情感及其溫和和強(qiáng)烈形式。構(gòu)圖軌道構(gòu)建了包括顏色、數(shù)量、尺寸、空間關(guān)系等屬性池,每次生成時(shí)從各個(gè)池中抽取幾個(gè)屬性,讓大語言模型自由組合創(chuàng)建具有多個(gè)對象及各種關(guān)系的提示。
長文本軌道從FLUX-Reason-6M數(shù)據(jù)集中選擇50張高質(zhì)量圖像及其所有對應(yīng)說明,將這些輸入Gemini2.5-Pro進(jìn)行長文本擴(kuò)展,最終產(chǎn)生50個(gè)具有挑戰(zhàn)性的提示。所有生成的提示都經(jīng)過人工審查,確保它們明確、語法正確且邏輯合理,從而保證評估的公平性和挑戰(zhàn)性。
五、評估協(xié)議:讓AI評判AI的創(chuàng)新方法
PRISM-Bench的評估方法代表了AI繪畫測評領(lǐng)域的一次重大創(chuàng)新。傳統(tǒng)評估方法的問題在于過于粗糙——簡單詢問"圖像是否匹配提示?"無法捕捉每個(gè)類別的特定挑戰(zhàn)。研究團(tuán)隊(duì)認(rèn)識到,針對不同軌道需要專門設(shè)計(jì)的評估標(biāo)準(zhǔn),就像不同類型的藝術(shù)作品需要不同的評判標(biāo)準(zhǔn)一樣。
團(tuán)隊(duì)為每個(gè)軌道設(shè)計(jì)了專門的評估提示,確保評估能夠針對性地關(guān)注該軌道的核心挑戰(zhàn)。想象力軌道的評估重點(diǎn)是模型是否成功合成了描述的新穎或超現(xiàn)實(shí)概念,獎(jiǎng)勵(lì)對想象創(chuàng)意的創(chuàng)造性和連貫詮釋。實(shí)體軌道基于對特定命名真實(shí)世界實(shí)體的準(zhǔn)確渲染進(jìn)行對齊評分,包括它們的關(guān)鍵定義特征和上下文。
文字渲染軌道采用嚴(yán)格的評分標(biāo)準(zhǔn),專注于可讀性、拼寫準(zhǔn)確性以及指定文字在圖像中的精確定位。風(fēng)格軌道指導(dǎo)VLM評估生成圖像對明確請求的藝術(shù)或攝影風(fēng)格的忠實(shí)度,檢查特征技術(shù)。情感軌道的評估集中于圖像是否通過顏色、光線和主體表情等視覺線索有效傳達(dá)了指定的情緒、情感或氛圍。
構(gòu)圖軌道的VLM評估強(qiáng)調(diào)驗(yàn)證對象的空間排列、它們的相對位置、顏色外觀以及文本規(guī)定的正確對象計(jì)數(shù)。長文本軌道測量模型從復(fù)雜多句GCoT提示中融入高密度細(xì)節(jié)的能力。
每個(gè)生成的圖像,VLM都會(huì)提供一句話的理由說明和基于相應(yīng)軌道特定標(biāo)準(zhǔn)的1分(極差對齊)到10分(完美對齊)的評分。這種針對性方法使得能夠更精確和有意義地測量模型在每個(gè)不同類別中的能力。
除了對齊度評估,PRISM-Bench還采用統(tǒng)一的美學(xué)評估。與對齊度指標(biāo)不同,圖像美學(xué)評估在所有七個(gè)軌道中使用單一的統(tǒng)一指令集。這是因?yàn)槊缹W(xué)質(zhì)量——包括光線、色彩和諧、細(xì)節(jié)和整體視覺吸引力等因素——是獨(dú)立于特定提示內(nèi)容的通用屬性。VLM為每張圖像分配一句話理由和從1分(極低質(zhì)量)到10分(專業(yè)質(zhì)量)的美學(xué)評分。
通過系統(tǒng)性地將此協(xié)議應(yīng)用于領(lǐng)先閉源模型和開源模型生成的圖像,研究團(tuán)隊(duì)收集了全面的結(jié)果。每個(gè)模型在每個(gè)軌道上的表現(xiàn)被報(bào)告為相應(yīng)100個(gè)提示的平均對齊分?jǐn)?shù)和美學(xué)分?jǐn)?shù)。這兩個(gè)指標(biāo)的平均值代表模型在該軌道上的綜合表現(xiàn),所有7個(gè)軌道的總體平均分?jǐn)?shù)代表模型的最終表現(xiàn),提供了當(dāng)前T2I生成狀態(tài)的清晰且可操作的概覽。
六、震撼的測評結(jié)果:揭示AI繪畫的真實(shí)水平
研究團(tuán)隊(duì)對19個(gè)先進(jìn)圖像生成模型進(jìn)行了全面測評,結(jié)果既令人印象深刻又發(fā)人深省。這些模型包括最新的閉源商業(yè)模型如Gemini2.5-Flash-Image和GPT-Image-1,以及頂級開源模型如Qwen-Image、SEEDream 3.0和FLUX系列。
整體表現(xiàn)方面,閉源模型確實(shí)展現(xiàn)了明顯的優(yōu)勢。GPT-Image-1以86.3分的總分位居榜首,緊隨其后的是Gemini2.5-Flash-Image的85.3分。這兩個(gè)模型在幾乎所有評估軌道上都超越了其他競爭對手,證明了大型科技公司在AI繪畫領(lǐng)域的技術(shù)積累和資源投入確實(shí)產(chǎn)生了顯著效果。
然而,開源模型的表現(xiàn)也不容小覷。以Qwen-Image為首的競爭性階梯正在形成,雖然與頂級模型仍有明顯的性能差距,但這些模型代表了開源社區(qū)的重大飛躍。HiDream-I1-Full和FLUX.1-Krea-dev也取得了優(yōu)異成績,表明該領(lǐng)域正在快速進(jìn)步。模型系列內(nèi)部的演進(jìn)也很明顯,SDXL相比SD1.5顯示出實(shí)質(zhì)性改進(jìn),而更新的SD3.5-Large進(jìn)一步縮小了與頂級模型的差距。
分軌道分析揭示了更多有趣的發(fā)現(xiàn)。在想象力軌道上,Gemini2.5-Flash-Image以88.6分大幅領(lǐng)先,GPT-Image-1以86.4分緊隨其后。這表明領(lǐng)先閉源模型在創(chuàng)意理解和詮釋方面具有更高級的能力。Qwen-Image的表現(xiàn)也很出色,但像SD1.5這樣的老模型表現(xiàn)很差,經(jīng)常生成普通或扭曲的圖像,無法捕捉提示的想象精髓。
實(shí)體軌道上,GPT-Image-1憑借88.2分在這一領(lǐng)域表現(xiàn)卓越,展示了其強(qiáng)大的內(nèi)部知識庫和高保真渲染能力。Gemini2.5-Flash-Image和SEEDream 3.0也表現(xiàn)良好。這個(gè)軌道對世界知識基礎(chǔ)較弱的模型來說很有挑戰(zhàn)性,突出了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)對于準(zhǔn)確真實(shí)世界描繪的重要性。
文字渲染軌道的結(jié)果最為令人關(guān)注,因?yàn)樗鼘缀跛蠺2I模型來說都是一個(gè)重大挑戰(zhàn)。該基準(zhǔn)證實(shí)了這一點(diǎn),這個(gè)類別在所有軌道中獲得了最低的整體分?jǐn)?shù)。值得注意的是,像Bagel和JanusPro這樣的自回歸模型在這個(gè)軌道上表現(xiàn)很差,突出了自回歸架構(gòu)在文字渲染任務(wù)中的內(nèi)在局限性。即使是表現(xiàn)最好的GPT-Image-1,在這個(gè)軌道上也只獲得了74.5分,顯示出即便是最先進(jìn)的模型在這個(gè)基礎(chǔ)能力上仍有很大改進(jìn)空間。
風(fēng)格軌道上,GPT-Image-1表現(xiàn)出卓越的性能,獲得了93.1分。大多數(shù)現(xiàn)代模型在這個(gè)軌道上表現(xiàn)相對較好,對請求風(fēng)格顯示出高保真度。這些模型的高分表明,相比文字渲染等其他任務(wù),捕捉風(fēng)格精髓的能力更加成熟。
情感軌道展現(xiàn)了頂級模型在捕捉情緒和氛圍方面的非凡能力。Gemini2.5-Flash-Image以92.1分的出色表現(xiàn)領(lǐng)先,GPT-Image-1和Qwen-Image緊隨其后。值得注意的是,F(xiàn)LUX.1-dev在這個(gè)類別中獲得了最高的美學(xué)分?jǐn)?shù),表明其生成的圖像在視覺傳達(dá)情感方面特別有效,即使提示對齊度略低。
構(gòu)圖軌道上,GPT-Image-1以92.8分的高分大幅領(lǐng)先,充分展示了其解析和執(zhí)行復(fù)雜空間指令的能力。Gemini2.5-Flash-Image以90.5分緊隨其后。頂級開源模型在這個(gè)領(lǐng)域具有很強(qiáng)競爭力,Qwen-Image的得分幾乎與Gemini2.5-Flash-Image相同,表明復(fù)雜構(gòu)圖理解方面的差距正在縮小。HiDream-I1-Full和FLUX.1-dev等模型也展現(xiàn)了強(qiáng)大的構(gòu)圖能力,頂級表現(xiàn)者之間的小差異表明構(gòu)圖控制正在成為現(xiàn)代圖像生成系統(tǒng)的一項(xiàng)成熟能力。
長文本軌道的評估結(jié)果清楚地區(qū)分了頂級模型。Gemini2.5-Flash-Image獲得了最高分81.1分,GPT-Image-1和SEEDream 3.0也表現(xiàn)相對較好。然而,與其他軌道相比,所有模型的整體分?jǐn)?shù)都明顯較低,表明在遵循復(fù)雜多層指令生成高質(zhì)量圖像的能力方面還有很大改進(jìn)空間。這突出了FLUX-Reason-6M旨在解決的推理差距問題。
七、中文能力測試:意外的發(fā)現(xiàn)
研究團(tuán)隊(duì)還專門創(chuàng)建了PRISM-Bench-ZH來評估模型處理中文提示的能力,結(jié)果揭示了一些意想不到的發(fā)現(xiàn)。GPT-Image-1以87.5分確立了其主導(dǎo)地位,在想象力、實(shí)體、風(fēng)格、情感和構(gòu)圖等大多數(shù)軌道上始終領(lǐng)先,展示了在響應(yīng)中文提示時(shí)的卓越創(chuàng)意詮釋、知識基礎(chǔ)和空間排列能力。
SEEDream 3.0和Qwen-Image展現(xiàn)了強(qiáng)大的競爭力,在所有軌道上都表現(xiàn)出色,經(jīng)常與領(lǐng)導(dǎo)者表現(xiàn)接近。特別值得注意的是SEEDream 3.0和Qwen-Image在文字渲染方面的表現(xiàn),這與英文文字生成中觀察到的普遍弱點(diǎn)形成鮮明對比。其中,SEEDream 3.0和GPT-Image-1共享最高平均分,SEEDream 3.0獲得最高美學(xué)分?jǐn)?shù),表明其具有渲染高質(zhì)量中文字符的能力。
這些模型的強(qiáng)大表現(xiàn)驗(yàn)證了基準(zhǔn)設(shè)計(jì)中使用文化適應(yīng)性中文提示的有效性,并突出了處理中文字體方面的重大進(jìn)展。研究團(tuán)隊(duì)展示了不同模型在中文文字渲染方面的具體例子,可以看到GPT-Image-1在文字的清晰度和整合性方面表現(xiàn)最佳,而其他模型雖然能夠生成中文字符,但在精確度和自然融入畫面方面仍有改進(jìn)空間。
與英文測試結(jié)果一致的是,長文本軌道仍然是所有模型面臨的最大挑戰(zhàn)。雖然GPT-Image-1在這個(gè)類別中再次領(lǐng)先,但普遍較低的分?jǐn)?shù)突出了理解和合成冗長、多面向中文指令的實(shí)質(zhì)性障礙。這進(jìn)一步強(qiáng)調(diào)了像FLUX-Reason-6M這樣專注于推理的數(shù)據(jù)集對于解決現(xiàn)有差距和訓(xùn)練下一代真正智能T2I模型的迫切需要。
八、深遠(yuǎn)影響:改變AI繪畫的游戲規(guī)則
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了單純的技術(shù)突破,它為整個(gè)AI繪畫領(lǐng)域設(shè)立了新的發(fā)展方向和評價(jià)標(biāo)準(zhǔn)。從數(shù)據(jù)集規(guī)模來看,F(xiàn)LUX-Reason-6M耗費(fèi)的15000個(gè)A100 GPU天計(jì)算資源,使其可能成為成本最高的開源數(shù)據(jù)集,為開源社區(qū)提供了以前只有大型工業(yè)實(shí)驗(yàn)室才能獲得的寶貴資源。
在技術(shù)創(chuàng)新方面,生成鏈?zhǔn)剿季S(GCoT)的概念徹底改變了AI學(xué)習(xí)繪畫的方式。這種方法不僅教會(huì)模型"畫什么",更重要的是讓模型理解"為什么這樣畫",這種深層推理能力的培養(yǎng)將AI繪畫從簡單的圖像復(fù)制提升到了真正的藝術(shù)創(chuàng)作層面。未來基于這種數(shù)據(jù)集訓(xùn)練的模型將具備更強(qiáng)的創(chuàng)造性和邏輯性,能夠處理更加復(fù)雜和抽象的創(chuàng)作要求。
評估標(biāo)準(zhǔn)的革新同樣具有深遠(yuǎn)意義。PRISM-Bench建立的精細(xì)化、多維度評測體系,使用先進(jìn)視覺語言模型作為人類判斷代理的方法,為整個(gè)AI繪畫領(lǐng)域提供了更加科學(xué)和全面的能力評估工具。這種評估方法的出現(xiàn),將推動(dòng)整個(gè)行業(yè)從追求簡單的視覺效果轉(zhuǎn)向追求真正的藝術(shù)創(chuàng)作能力。
對于開源社區(qū)來說,這項(xiàng)研究的公開發(fā)布具有里程碑意義。完整的數(shù)據(jù)集、評測基準(zhǔn)和評估代碼的開放,大大降低了AI繪畫研究的準(zhǔn)入門檻。世界各地的研究者現(xiàn)在都能夠基于這個(gè)強(qiáng)大的基礎(chǔ)開發(fā)更先進(jìn)的模型,加速整個(gè)領(lǐng)域的發(fā)展進(jìn)程。這種開放創(chuàng)新的模式將有助于縮小開源模型與閉源商業(yè)模型之間的性能差距。
從實(shí)際應(yīng)用角度來看,這項(xiàng)研究揭示的技術(shù)方向?qū)⑸羁逃绊懳磥鞟I繪畫工具的發(fā)展。具備推理能力的AI繪畫模型將能夠更好地理解用戶的創(chuàng)作意圖,處理更加復(fù)雜的場景描述,并在創(chuàng)作過程中展現(xiàn)出更強(qiáng)的邏輯一致性和藝術(shù)表現(xiàn)力。這將極大地?cái)U(kuò)展AI繪畫的應(yīng)用范圍,從簡單的圖片生成擴(kuò)展到復(fù)雜的創(chuàng)意設(shè)計(jì)、教育培訓(xùn)、娛樂內(nèi)容制作等眾多領(lǐng)域。
特別值得注意的是,這項(xiàng)研究對文字渲染這一長期技術(shù)難題的關(guān)注,一旦在未來版本中得到有效解決,將開啟全新的應(yīng)用可能。能夠準(zhǔn)確生成包含文字的圖像對于廣告設(shè)計(jì)、教育材料制作、多媒體內(nèi)容創(chuàng)作等領(lǐng)域具有巨大價(jià)值。
說到底,這項(xiàng)來自香港大學(xué)團(tuán)隊(duì)的研究不僅僅是技術(shù)層面的進(jìn)步,更是AI繪畫領(lǐng)域發(fā)展理念的重大轉(zhuǎn)變。它從關(guān)注單純的圖像質(zhì)量轉(zhuǎn)向追求深層的創(chuàng)作推理能力,從封閉的商業(yè)競爭轉(zhuǎn)向開放的協(xié)作創(chuàng)新,從簡單的功能實(shí)現(xiàn)轉(zhuǎn)向系統(tǒng)的能力培養(yǎng)。這種轉(zhuǎn)變將推動(dòng)整個(gè)AI繪畫領(lǐng)域向著更加智能、更加實(shí)用、更加貼近人類創(chuàng)作思維的方向發(fā)展。
研究團(tuán)隊(duì)在論文中坦承,即便是最先進(jìn)的模型在面對復(fù)雜任務(wù)時(shí)仍有顯著改進(jìn)空間,這種誠實(shí)的態(tài)度和持續(xù)改進(jìn)的承諾,為整個(gè)AI繪畫領(lǐng)域的健康發(fā)展指明了方向。未來,我們可以期待基于這項(xiàng)研究成果開發(fā)出的新一代AI繪畫工具,將真正實(shí)現(xiàn)從"能畫"到"會(huì)畫",從"模仿"到"創(chuàng)造"的跨越。對于每一個(gè)對AI藝術(shù)創(chuàng)作感興趣的人來說,這項(xiàng)研究標(biāo)志著一個(gè)激動(dòng)人心的新時(shí)代的開始。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以通過arXiv:2509.09680v1查閱完整的研究論文,或訪問項(xiàng)目的GitHub頁面和Hugging Face數(shù)據(jù)集頁面獲取相關(guān)資源。
Q&A
Q1:FLUX-Reason-6M數(shù)據(jù)集有什么特別之處?為什么要花這么大代價(jià)制作?
A:FLUX-Reason-6M是全球首個(gè)專門訓(xùn)練AI繪畫推理能力的大規(guī)模數(shù)據(jù)集,包含600萬張高質(zhì)量圖像和2000萬條雙語描述。它的特別之處在于引入了"生成鏈?zhǔn)剿季S"技術(shù),不僅告訴AI畫什么,還詳細(xì)解釋為什么這樣畫。研究團(tuán)隊(duì)花費(fèi)15000個(gè)A100 GPU天的計(jì)算資源,是因?yàn)閭鹘y(tǒng)數(shù)據(jù)集只能讓AI模仿,而這個(gè)數(shù)據(jù)集能教會(huì)AI像人類藝術(shù)家一樣思考創(chuàng)作過程。
Q2:PRISM-Bench測評結(jié)果顯示哪些AI繪畫模型表現(xiàn)最好?
A:測評結(jié)果顯示GPT-Image-1以86.3分位居第一,Gemini2.5-Flash-Image以85.3分緊隨其后。開源模型中Qwen-Image表現(xiàn)最佳。有趣的是,所有模型在文字渲染方面都表現(xiàn)較弱,而在風(fēng)格模仿和構(gòu)圖安排方面相對較強(qiáng)。這說明AI繪畫技術(shù)在不同能力維度上發(fā)展并不均衡,仍有很大改進(jìn)空間。
Q3:普通用戶如何從這項(xiàng)研究中受益?
A:這項(xiàng)研究的開源發(fā)布將推動(dòng)整個(gè)AI繪畫領(lǐng)域的技術(shù)進(jìn)步,普通用戶很快就能體驗(yàn)到更智能的AI繪畫工具。未來的AI將能更好理解復(fù)雜創(chuàng)作要求,生成邏輯更合理、細(xì)節(jié)更豐富的圖像。特別是在處理包含文字的圖像創(chuàng)作、復(fù)雜場景構(gòu)圖等方面會(huì)有顯著改善,讓AI真正成為每個(gè)人都能使用的智能創(chuàng)作助手。