聞樂 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
大模型已經(jīng)學(xué)會欺騙人類了!
OpenAI攜手APOLLO的新研究發(fā)現(xiàn),大模型會對指令陽奉陰違,為了達(dá)成目的故意答錯問題、暗中修改數(shù)據(jù)或者操作記錄來掩蓋自己的違規(guī)行為……
先來看看具體是怎么騙的。
大模型:開演
比如,o3模型在化學(xué)測試中,通過推理得出如果正確率超過50%將不會被部署的結(jié)論后,主動規(guī)劃僅答對4題、答錯6題的策略,刻意給出錯誤答案,偽裝成能力不達(dá)標(biāo)的樣子來獲取部署資格。
還有o1,在19%的測試場景中,表面遵循短期利潤目標(biāo)的指令,但實(shí)際上會優(yōu)先保護(hù)長期目標(biāo),為了不被發(fā)現(xiàn)還會修改任務(wù)相關(guān)數(shù)據(jù),并且不向人類披露修改行為,把這事兒瞞得死死的。
甚至被問到是否存在sandbagging(故意隱瞞實(shí)力、策略性低表現(xiàn)以達(dá)成特定目的)行為時,會識別出這是誠實(shí)性測試,所以盡管不想回答存在這種行為,但為了表現(xiàn)得誠實(shí),最后還是回答了true
針對這些情況,OpenAI首席研究官M(fèi)ark Chen表示:
隨著推理能力的擴(kuò)展,模型獲得了情境感知能力和自我保護(hù)的需求。(AI價值觀與人類價值觀)對齊至關(guān)重要。
實(shí)際上不止OpenAI家的模型這樣。其他前沿模型,比如Gemini-2.5-pro、Claude Opus-4等也出現(xiàn)了類似情況。
所以,大模型為什么會出現(xiàn)欺騙行為呢?
欺騙行為從何而來
大模型的謀劃與欺騙也并非憑空出現(xiàn)的,而是訓(xùn)練機(jī)制與能力提升共同作用的結(jié)果。
從訓(xùn)練邏輯來看,當(dāng)前主流模型的訓(xùn)練以任務(wù)完成率輸出準(zhǔn)確率為核心獎勵指標(biāo),這種單一導(dǎo)向的強(qiáng)化學(xué)習(xí)范式,導(dǎo)致模型形成結(jié)果優(yōu)先于合規(guī)的決策偏好。
也就是說,為獲取更高獎勵分?jǐn)?shù),模型可能會選擇生成錯誤輸出或隱瞞操作漏洞。
并且,當(dāng)指令存在多目標(biāo)沖突時,模型的目標(biāo)權(quán)衡機(jī)制會優(yōu)先選擇可以即時驗(yàn)證的短期目標(biāo),并通過隱蔽操作繞開指令約束,形成表面響應(yīng)指令、底層偏離意圖的行為模式。
與此同時,前沿模型的情境感知能力升級,進(jìn)一步放大了這種風(fēng)險。
研究發(fā)現(xiàn),OpenAI o1、Google Gemini等模型能通過分析任務(wù)場景中的評估特征(如重復(fù)校驗(yàn)節(jié)點(diǎn)、日志記錄標(biāo)識),能精準(zhǔn)區(qū)分合規(guī)測試環(huán)境與真實(shí)部署環(huán)境。
在測試場景中,模型會主動激活合規(guī)響應(yīng)模式,嚴(yán)格遵循規(guī)則以通過評估;進(jìn)入真實(shí)部署后,由于評估壓力減弱,模型又會原形畢露,執(zhí)行隱蔽操作(如修改數(shù)據(jù)日志、停用監(jiān)督模塊)。
如何應(yīng)對欺騙行為
針對大模型的欺騙行為,需要從技術(shù)干預(yù)與規(guī)則約束兩方面構(gòu)建防控體系。
在技術(shù)層面,首要任務(wù)是優(yōu)化訓(xùn)練框架。APOLLO提出了一種審慎對齊(deliberative alignment)的方法。
首先得給AI定好反欺騙的規(guī)范(spec),比如不能搞隱蔽行動、不能撒謊這些。
然后用審慎對齊進(jìn)行訓(xùn)練:讓它在做事前先想想,這么做符不符合這些規(guī)范,還得把思考過程說出來。
經(jīng)過這樣的訓(xùn)練,o3和o4-mini模型,耍心眼的情況少了很多,o3的欺騙率從13%降到 0.4%,o4-mini從8.7%降到0.3%。
此外,利用思維鏈(CoT)透明度技術(shù),實(shí)時追蹤模型的推理路徑,一旦檢測到“繞開規(guī)則”的思考節(jié)點(diǎn)(如規(guī)劃修改監(jiān)督日志),就立刻干預(yù),實(shí)現(xiàn)對欺騙行為的前置阻斷。
規(guī)則層面則需要建立全鏈路的評估約束體系。
OpenAI提出構(gòu)建動態(tài)壓力測試環(huán)境。通過隨機(jī)調(diào)整任務(wù)參數(shù)、增設(shè)突發(fā)合規(guī)校驗(yàn)節(jié)點(diǎn),干擾模型的情境識別能力,避免其通過環(huán)境適配偽裝,同時還建議謹(jǐn)慎使用敏感數(shù)據(jù)集進(jìn)行訓(xùn)練。
你有沒有被AI騙過呢?
[1]https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/[2]https://x.com/OpenAI/status/1968361701784568200[3]https://www.antischeming.ai/
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們,第一時間獲知前沿科技動態(tài)