發(fā)布時(shí)間:2025-09-17 來源:關(guān)山迢遞網(wǎng)作者:Angular浪
這項(xiàng)由Meta公司GenAI團(tuán)隊(duì)的王振庭、胡書明等研究人員與羅格斯大學(xué)、獨(dú)立研究者和馬薩諸塞大學(xué)阿默斯特分校合作完成的研究,發(fā)表于2025年1月3日,論文題為《MLLM-as-a-Judge for Image Safety without Human Labeling》。有興趣深入了解的讀者可以通過arXiv:2501.00192v2訪問完整論文。
在網(wǎng)絡(luò)時(shí)代,每天都有無數(shù)張圖片在各大平臺上傳播,其中難免會有一些不適合公開展示的內(nèi)容。從傳統(tǒng)意義上的暴力血腥圖片,到如今AI生成的各種危險(xiǎn)內(nèi)容,如何準(zhǔn)確識別這些"問題圖片"已經(jīng)成為一個越來越緊迫的社會問題。就像商場需要保安來維持秩序一樣,網(wǎng)絡(luò)平臺也需要"內(nèi)容保安"來過濾不當(dāng)圖片。
目前,這個"內(nèi)容保安"的工作主要依賴兩種方式:要么讓真人逐一審查,要么訓(xùn)練AI模型來自動識別。然而,人工審查不僅成本高昂、效率低下,還會給審核人員帶來心理創(chuàng)傷。而訓(xùn)練AI模型則需要大量人工標(biāo)注的數(shù)據(jù),這個過程同樣耗時(shí)耗力,而且當(dāng)安全規(guī)則發(fā)生變化時(shí),整個訓(xùn)練過程又要重新開始。
Meta的研究團(tuán)隊(duì)提出了一個頗具創(chuàng)新性的解決方案:能否讓AI模型在完全不需要人工標(biāo)注數(shù)據(jù)的情況下,僅僅根據(jù)一套明文規(guī)定的安全準(zhǔn)則,就能準(zhǔn)確判斷圖片是否違規(guī)?這就好比讓一個從未接受過專門訓(xùn)練的新員工,僅僅通過閱讀公司手冊,就能勝任復(fù)雜的安全檢查工作。
研究團(tuán)隊(duì)發(fā)現(xiàn),簡單地把安全規(guī)則和圖片一起輸入給現(xiàn)有的多模態(tài)大語言模型(MLLM),效果并不理想。這些模型在面對復(fù)雜的安全判斷時(shí),會遇到三個主要障礙。首先,許多安全規(guī)則本身就比較主觀,比如"不應(yīng)顯示性暗示內(nèi)容"這樣的表述,不同的人理解起來可能差別很大,就像不同的人對"辣"的定義完全不同一樣。其次,當(dāng)安全規(guī)則變得冗長復(fù)雜時(shí),AI模型往往無法正確處理全部信息,就像人在閱讀過長的法律條文時(shí)容易遺漏重要細(xì)節(jié)。最后,這些模型還存在固有偏見,可能會因?yàn)閳D片中的某些無關(guān)元素而做出錯誤判斷,比如看到地面有血跡就錯誤地推斷動物喉嚨被割,盡管實(shí)際情況并非如此。
為了解決這些問題,研究團(tuán)隊(duì)開發(fā)了一套名為CLUE(Constitutional MLLM JUdgE)的創(chuàng)新方法,它就像一個經(jīng)過精心設(shè)計(jì)的多層過濾系統(tǒng)。
一、讓規(guī)則變得更加客觀明確
研究團(tuán)隊(duì)意識到,要讓AI準(zhǔn)確執(zhí)行安全規(guī)則,首先需要讓這些規(guī)則變得足夠客觀和具體。傳統(tǒng)的安全規(guī)則往往充滿主觀色彩,比如"不得展示不當(dāng)內(nèi)容"這樣的表述,不同的人會有完全不同的理解。研究團(tuán)隊(duì)通過一個巧妙的方法來"客觀化"這些規(guī)則:他們讓大語言模型為每條規(guī)則的客觀性打分,滿分10分,然后反復(fù)修改那些得分低于9分的規(guī)則,直到它們變得足夠具體和可操作。
舉個例子,原本模糊的規(guī)則"腿部姿態(tài)不得過于暴露或具有性暗示"被改寫成了具體的"穿泳裝或內(nèi)衣的人腿部張開角度不得超過90度"。這種轉(zhuǎn)變就像把"菜要做得好吃"的模糊指導(dǎo)改成"鹽加5克,糖加3克,炒制8分鐘"的具體食譜一樣,讓執(zhí)行標(biāo)準(zhǔn)變得清晰明確。
通過這種方法,研究團(tuán)隊(duì)構(gòu)建了一套包含14條具體規(guī)則的安全準(zhǔn)則,涵蓋了從人體暴露到暴力內(nèi)容的各個方面。每條規(guī)則都經(jīng)過精心設(shè)計(jì),確保即使是機(jī)器也能準(zhǔn)確理解和執(zhí)行。
二、智能篩選相關(guān)規(guī)則
面對一張圖片和十幾條安全規(guī)則,讓AI逐一檢查每條規(guī)則既費(fèi)時(shí)又容易出錯,就像讓人在巨大的圖書館里逐本翻閱來尋找特定信息一樣效率低下。研究團(tuán)隊(duì)想出了一個聰明的解決辦法:使用CLIP模型來預(yù)先篩選與圖片內(nèi)容相關(guān)的規(guī)則。
CLIP是一種能夠同時(shí)理解圖片和文字的AI模型,它可以快速判斷一張圖片和某條規(guī)則之間的相關(guān)性。比如,對于一張風(fēng)景照,CLIP會自動過濾掉關(guān)于人體姿態(tài)的規(guī)則,只保留可能相關(guān)的規(guī)則進(jìn)行詳細(xì)檢查。這種方法就像給圖書管理員配備了一個智能索引系統(tǒng),能夠快速定位到最有可能包含所需信息的書籍,大大提高了整個檢索過程的效率。
實(shí)驗(yàn)結(jié)果顯示,這個智能篩選系統(tǒng)能夠過濾掉67%的不相關(guān)規(guī)則,同時(shí)保持96.6%的準(zhǔn)確率,確保真正需要檢查的規(guī)則不會被誤過濾。
三、化繁為簡的條件分解
即使經(jīng)過了規(guī)則客觀化和智能篩選,有些安全規(guī)則仍然過于復(fù)雜,包含多個并列或遞進(jìn)的條件。比如"不得顯示人員或動物身體遭受嚴(yán)重可見血腥傷害并可能導(dǎo)致即死亡的情形"這樣的規(guī)則,實(shí)際上包含了多個需要同時(shí)滿足的條件:必須有人或動物、必須有可見傷害、傷害必須嚴(yán)重到可能致死。
研究團(tuán)隊(duì)開發(fā)了一種自動分解技術(shù),能夠?qū)?fù)雜規(guī)則拆解成一系列簡單的前置條件。上面的復(fù)雜規(guī)則被分解成三個簡單判斷:圖片中是否有人或動物?身體是否有可見的血腥傷害?這些傷害是否嚴(yán)重到可能導(dǎo)致死亡?只有當(dāng)所有條件都滿足時(shí),才認(rèn)為違反了該規(guī)則。
這種分解方式就像把一道復(fù)雜的數(shù)學(xué)應(yīng)用題拆解成幾個簡單的計(jì)算步驟,讓原本令人頭疼的難題變成了一系列可以輕松處理的小問題。通過這種方法,AI模型可以逐步、準(zhǔn)確地進(jìn)行安全判斷,避免了因?yàn)橐?guī)則過于復(fù)雜而導(dǎo)致的理解偏差。
四、消除判斷偏見的巧妙設(shè)計(jì)
研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的AI安全判斷方法存在兩種顯著偏見。第一種是語言先驗(yàn)偏見,即模型會基于訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律做出判斷,而不是真正"看懂"圖片內(nèi)容。比如,當(dāng)詢問"圖片中是否顯示了可能導(dǎo)致即死亡的嚴(yán)重血腥傷害"時(shí),即使圖片確實(shí)包含此類內(nèi)容,模型也可能因?yàn)樵谟?xùn)練數(shù)據(jù)中很少見到這類極端情況而傾向于回答"否"。
第二種是圖像區(qū)域偏見,即模型容易被圖片中的無關(guān)細(xì)節(jié)所誤導(dǎo)。例如,看到地面上的血跡就錯誤推斷動物喉嚨被割,盡管動物的喉嚨部位實(shí)際上完好無損。
為了解決這些偏見,研究團(tuán)隊(duì)設(shè)計(jì)了兩套巧妙的對比策略。針對語言偏見,他們會對比模型在看到圖片時(shí)的判斷和僅憑文字描述的判斷。如果模型看到圖片后的答案明顯不同于僅憑文字的答案,那么這種差異就更可能反映了圖片的真實(shí)內(nèi)容,而不是模型的語言偏見。
針對圖像偏見,他們會對比完整圖片和移除中心主體后的圖片在判斷上的差異。如果完整圖片的違規(guī)分?jǐn)?shù)明顯高于移除主體后的圖片,這通常意味著違規(guī)內(nèi)容確實(shí)存在于圖片的主要區(qū)域,而不是來源于無關(guān)的背景細(xì)節(jié)。
這種雙重對比就像在法庭上進(jìn)行交叉詢問,通過多角度驗(yàn)證來確保判斷的準(zhǔn)確性和公正性。
五、遞進(jìn)式判斷機(jī)制
CLUE系統(tǒng)采用了一種類似人類思考過程的遞進(jìn)式判斷機(jī)制。對于每個分解后的簡單條件,系統(tǒng)首先使用快速的概率分析方法進(jìn)行初步判斷。這種方法分析模型輸出"是"和"否"這兩個詞的概率,并結(jié)合前面提到的去偏見技術(shù),得出一個初步的置信度評分。
當(dāng)初步判斷的置信度足夠高時(shí),系統(tǒng)就直接采用這個結(jié)果,這樣既保證了準(zhǔn)確性,又大大提高了處理效率。但是,當(dāng)置信度較低、存在模糊情況時(shí),系統(tǒng)會自動切換到更深入的推理模式,讓模型進(jìn)行詳細(xì)的逐步分析,就像人在面對困難決定時(shí)需要仔細(xì)思考一樣。
這種分層處理機(jī)制確保了系統(tǒng)既能快速處理明顯的情況,又能準(zhǔn)確處理復(fù)雜的邊界情況。對于大多數(shù)圖片,快速的概率分析就足以得出準(zhǔn)確結(jié)論,而對于少數(shù)復(fù)雜情況,深入推理能夠提供更可靠的判斷。
六、全面的實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證CLUE系統(tǒng)的有效性,研究團(tuán)隊(duì)構(gòu)建了一個名為"客觀安全基準(zhǔn)測試集"(OS Bench)的專門數(shù)據(jù)集。由于現(xiàn)有的圖像安全數(shù)據(jù)集大多基于主觀規(guī)則,不適合評估他們提出的客觀化方法,研究團(tuán)隊(duì)決定從零開始構(gòu)建一個全新的測試集。
他們使用最先進(jìn)的圖像生成模型創(chuàng)建了大約1400張圖片,其中一半明確違反某項(xiàng)安全規(guī)則,另一半則是剛好處于安全邊界的"邊緣安全"圖片。這些邊緣安全圖片的設(shè)計(jì)特別巧妙,它們在視覺上可能看起來有些爭議,但實(shí)際上并不違反任何具體規(guī)則,就像在考試中設(shè)計(jì)的那些容易出錯但答案明確的陷阱題。
實(shí)驗(yàn)結(jié)果令人印象深刻。在使用InternVL2-76B模型的情況下,CLUE系統(tǒng)達(dá)到了95.9%的召回率、94.8%的準(zhǔn)確率和0.949的F1分?jǐn)?shù)。相比之下,傳統(tǒng)的直接詢問方法在同樣的模型上只能達(dá)到62.6%的召回率和71.8%的準(zhǔn)確率。這種顯著的性能提升充分證明了新方法的有效性。
更重要的是,研究團(tuán)隊(duì)還與現(xiàn)有的微調(diào)方法進(jìn)行了對比。傳統(tǒng)的微調(diào)方法需要大量人工標(biāo)注的訓(xùn)練數(shù)據(jù),而且當(dāng)安全規(guī)則發(fā)生變化時(shí)需要重新訓(xùn)練。CLUE系統(tǒng)不僅在性能上超越了這些傳統(tǒng)方法,而且具有更好的靈活性和適應(yīng)性,能夠快速適應(yīng)規(guī)則的變化而無需重新訓(xùn)練。
七、各個組件的獨(dú)特貢獻(xiàn)
研究團(tuán)隊(duì)通過詳細(xì)的消融實(shí)驗(yàn)分析了系統(tǒng)各個組件的貢獻(xiàn)。規(guī)則客觀化組件將準(zhǔn)確率從74.0%提升到98.0%,證明了將主觀規(guī)則轉(zhuǎn)換為客觀標(biāo)準(zhǔn)的重要性。智能篩選組件在保持96.6%準(zhǔn)確率的同時(shí)過濾掉了67%的無關(guān)規(guī)則,大大提高了系統(tǒng)效率。
條件分解組件的作用尤其明顯。實(shí)驗(yàn)顯示,即使是最先進(jìn)的GPT-4o模型,在面對完整的復(fù)雜規(guī)則時(shí)也經(jīng)常出錯,但在面對分解后的簡單條件時(shí)卻能給出正確答案。這說明問題不在于模型的基礎(chǔ)能力不足,而在于復(fù)雜規(guī)則超出了模型的處理范圍。
去偏見技術(shù)的效果同樣顯著,將InternVL2-8B-AWQ模型的F1分?jǐn)?shù)從0.746提升到0.879。這種提升主要來自于系統(tǒng)能夠更準(zhǔn)確地識別真正的違規(guī)內(nèi)容,而不會被無關(guān)細(xì)節(jié)或語言偏見所誤導(dǎo)。
八、實(shí)際應(yīng)用的廣闊前景
CLUE系統(tǒng)的最大優(yōu)勢在于其無需人工標(biāo)注數(shù)據(jù)就能工作的特性。在實(shí)際應(yīng)用中,這意味著內(nèi)容平臺可以快速部署安全檢測系統(tǒng),而不需要投入大量人力進(jìn)行數(shù)據(jù)標(biāo)注。當(dāng)安全政策發(fā)生變化時(shí),只需要更新規(guī)則文本,系統(tǒng)就能立即適應(yīng)新的要求,無需重新訓(xùn)練模型。
這種靈活性在快速變化的網(wǎng)絡(luò)環(huán)境中尤為重要。新的內(nèi)容類型和安全威脅層出不窮,傳統(tǒng)的基于訓(xùn)練數(shù)據(jù)的方法往往難以快速響應(yīng)。CLUE系統(tǒng)的零樣本學(xué)習(xí)能力使其能夠快速適應(yīng)新的安全需求,為內(nèi)容平臺提供了一個既高效又靈活的解決方案。
從成本角度來看,CLUE系統(tǒng)也具有明顯優(yōu)勢。雖然單次檢測的計(jì)算時(shí)間比簡單方法略長(在A100 GPU上平均需要22-102秒,具體取決于使用的模型),但這個成本遠(yuǎn)低于人工審核的費(fèi)用。更重要的是,系統(tǒng)可以作為自動標(biāo)注工具,為訓(xùn)練更小、更快的專用模型提供高質(zhì)量的訓(xùn)練數(shù)據(jù),從而在保持準(zhǔn)確性的同時(shí)進(jìn)一步降低運(yùn)行成本。
九、技術(shù)創(chuàng)新的深層意義
CLUE系統(tǒng)的成功不僅僅是一個技術(shù)突破,更代表了AI安全判斷領(lǐng)域的一個重要范式轉(zhuǎn)變。傳統(tǒng)的方法依賴于"從數(shù)據(jù)中學(xué)習(xí)模式"的思路,需要大量標(biāo)注數(shù)據(jù)來訓(xùn)練模型識別違規(guī)內(nèi)容。CLUE系統(tǒng)則采用了"基于規(guī)則進(jìn)行推理"的方法,讓AI模型像人類一樣理解和執(zhí)行明確的規(guī)則。
這種轉(zhuǎn)變具有深遠(yuǎn)的意義。它表明現(xiàn)代大語言模型已經(jīng)具備了足夠的理解和推理能力,能夠在沒有專門訓(xùn)練的情況下執(zhí)行復(fù)雜的判斷任務(wù)。這為AI在其他需要靈活應(yīng)用規(guī)則的場景中的應(yīng)用開辟了新的可能性,比如法律文檔分析、醫(yī)療診斷輔助、金融合規(guī)檢查等。
研究團(tuán)隊(duì)的方法還體現(xiàn)了一個重要的設(shè)計(jì)理念:將復(fù)雜問題分解為簡單子問題,然后通過巧妙的組合來解決原始問題。這種分解-組合的策略不僅提高了系統(tǒng)的準(zhǔn)確性,還增強(qiáng)了其可解釋性和可維護(hù)性。
十、當(dāng)前限制與未來改進(jìn)方向
盡管CLUE系統(tǒng)取得了顯著成功,研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的一些限制。首先,系統(tǒng)的處理速度相對較慢,每張圖片需要幾十秒到一百多秒的處理時(shí)間,這在需要實(shí)時(shí)處理大量內(nèi)容的場景中可能存在挑戰(zhàn)。不過,研究團(tuán)隊(duì)指出,這個問題可以通過將CLUE系統(tǒng)作為教師模型來訓(xùn)練更小、更快的學(xué)生模型來解決。
其次,系統(tǒng)的性能在很大程度上依賴于底層多模態(tài)大語言模型的能力。雖然實(shí)驗(yàn)顯示該方法在多個不同模型上都有效,但模型本身的局限性仍然會影響最終結(jié)果。隨著基礎(chǔ)模型能力的不斷提升,CLUE系統(tǒng)的性能也有望進(jìn)一步改善。
另外,當(dāng)前的客觀化規(guī)則主要針對相對明確的違規(guī)類型,對于一些高度依賴文化背景和社會語境的內(nèi)容判斷,如何制定客觀化規(guī)則仍然是一個挑戰(zhàn)。這需要在技術(shù)發(fā)展的同時(shí),深入思考如何在保持客觀性的前提下處理文化差異和價(jià)值觀多樣性。
研究團(tuán)隊(duì)認(rèn)為,CLUE系統(tǒng)為AI輔助內(nèi)容審核開辟了一條新路徑,但真正的突破還需要在技術(shù)優(yōu)化、規(guī)則設(shè)計(jì)和實(shí)際部署等多個方面的持續(xù)努力。他們希望這項(xiàng)工作能夠激發(fā)更多研究者和從業(yè)者的興趣,共同推動這一重要技術(shù)的發(fā)展和應(yīng)用。
總的來說,Meta團(tuán)隊(duì)的這項(xiàng)研究為解決網(wǎng)絡(luò)內(nèi)容安全這一重大社會問題提供了一個創(chuàng)新性的技術(shù)方案。CLUE系統(tǒng)通過規(guī)則客觀化、智能篩選、條件分解、去偏見處理和遞進(jìn)判斷等多項(xiàng)技術(shù)創(chuàng)新,成功實(shí)現(xiàn)了無需人工標(biāo)注數(shù)據(jù)的高精度圖像安全判斷。這不僅為內(nèi)容平臺提供了一個高效、靈活的安全檢測工具,也為AI在更廣泛的規(guī)則執(zhí)行場景中的應(yīng)用探索了新的可能性。隨著技術(shù)的不斷完善和優(yōu)化,這種基于規(guī)則推理的AI安全判斷方法有望在構(gòu)建更安全、更健康的網(wǎng)絡(luò)環(huán)境方面發(fā)揮重要作用。
Q&A
Q1:CLUE系統(tǒng)是什么?它與傳統(tǒng)的圖像安全檢測有什么區(qū)別?
A:CLUE系統(tǒng)是Meta團(tuán)隊(duì)開發(fā)的一種AI圖像安全判斷方法,全稱為Constitutional MLLM JUdgE。與傳統(tǒng)方法最大的區(qū)別是,CLUE不需要人工標(biāo)注大量訓(xùn)練數(shù)據(jù),只需要給它一套明文的安全規(guī)則,它就能自動判斷圖片是否違規(guī)。傳統(tǒng)方法需要人工審核員標(biāo)注成千上萬張圖片來訓(xùn)練AI模型,而CLUE系統(tǒng)可以直接"讀懂"規(guī)則并執(zhí)行,就像一個新員工僅通過閱讀公司手冊就能勝任安全檢查工作。
Q2:為什么簡單地把安全規(guī)則和圖片一起輸入給AI模型效果不好?
A:研究團(tuán)隊(duì)發(fā)現(xiàn)存在三個主要問題:首先是規(guī)則太主觀,比如"不得顯示性暗示內(nèi)容"這樣的表述,不同人理解差別很大;其次是規(guī)則太復(fù)雜,AI模型在處理冗長規(guī)則時(shí)容易遺漏重要信息;最后是AI模型存在固有偏見,會被無關(guān)細(xì)節(jié)誤導(dǎo),比如看到地面血跡就錯誤推斷動物被傷害。CLUE系統(tǒng)通過客觀化規(guī)則、分解復(fù)雜條件、消除偏見等方法解決了這些問題。
Q3:CLUE系統(tǒng)的準(zhǔn)確率有多高?處理速度如何?
A:在實(shí)驗(yàn)中,CLUE系統(tǒng)使用InternVL2-76B模型達(dá)到了95.9%的召回率和94.8%的準(zhǔn)確率,遠(yuǎn)超傳統(tǒng)直接詢問方法的62.6%召回率和71.8%準(zhǔn)確率。處理速度方面,根據(jù)使用的模型不同,每張圖片需要22-102秒不等。雖然比簡單方法慢一些,但研究團(tuán)隊(duì)指出可以用CLUE系統(tǒng)訓(xùn)練更小更快的專用模型來解決速度問題,而且這個成本仍然遠(yuǎn)低于人工審核。