9月12日,2025外灘大會(huì)“規(guī)范AI內(nèi)容 共筑清朗生態(tài)”見解論壇上,復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授、白澤智能團(tuán)隊(duì)負(fù)責(zé)人張謐以“大模型的安全風(fēng)險(xiǎn)與治理”為主題展開分享,從技術(shù)基礎(chǔ)視角切入,結(jié)合團(tuán)隊(duì)實(shí)踐經(jīng)驗(yàn)與成果,深入剖析大模型安全風(fēng)險(xiǎn)與治理,提出創(chuàng)新性解決方案。她認(rèn)為,大模型作為工具本身沒有善惡之分,其發(fā)展方向取決于人類如何利用和引導(dǎo)它向善發(fā)展。
本次論壇由南方都市報(bào)社、南都大數(shù)據(jù)研究院、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)人工智能工作委員會(huì)、復(fù)旦大學(xué)傳播與國(guó)家治理研究中心聯(lián)合主辦。
9月12日,復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授、白澤智能團(tuán)隊(duì)負(fù)責(zé)人張謐在2025外灘大會(huì)上進(jìn)行主題分享。
隨著大模型能力的迅速提升,其安全治理問(wèn)題已成為不容忽視的全球性挑戰(zhàn)。張謐將大模型安全問(wèn)題分為兩個(gè)方面,一是大模型自身的安全問(wèn)題,包括內(nèi)容合規(guī)、隱私泄露和生成內(nèi)容追溯等;二是以大模型為中心的全環(huán)節(jié)安全。作為“智能大腦”,大模型與外部系統(tǒng)交互時(shí),會(huì)在任務(wù)規(guī)劃、記憶模塊、外部資源獲取、工具調(diào)用等環(huán)節(jié)暴露風(fēng)險(xiǎn),尤其在多智能體協(xié)同場(chǎng)景下,行為可控性進(jìn)一步降低。
“當(dāng)前大模型已具備AGI雛形,自主性是其核心特征,也是風(fēng)險(xiǎn)根源?!睆堉k通過(guò)多個(gè)案例印證這一觀點(diǎn)。如AgentGPT能從零開始設(shè)計(jì)游戲、PaLM-E基于多模態(tài)大模型的具身智能、GPT-4驅(qū)動(dòng)的機(jī)器人化學(xué)家能夠自主設(shè)計(jì)并執(zhí)行復(fù)雜實(shí)驗(yàn),甚至DeepMind用谷歌大模型突破60年數(shù)學(xué)難題,解法超出人類已有認(rèn)知……
然而,這種自主性也帶來(lái)了前所未有的風(fēng)險(xiǎn)。張謐團(tuán)隊(duì)研究發(fā)現(xiàn),大模型已經(jīng)涌現(xiàn)出多種負(fù)面能力,如阿諛奉承(為符合用戶而忽視安全)、自我保全(拒絕關(guān)機(jī)指令)、偽裝人類(誘騙他人完成任務(wù)),甚至能夠輸出危險(xiǎn)價(jià)值觀、學(xué)習(xí)危險(xiǎn)知識(shí),輔助合成成癮性藥物和病毒等。
面對(duì)大模型的安全治理挑戰(zhàn),張謐團(tuán)隊(duì)開發(fā)了JADE大模型安全風(fēng)險(xiǎn)分析治理平臺(tái),該平臺(tái)目前已實(shí)現(xiàn)文本、多模態(tài)、文生圖、長(zhǎng)推理模型和Agent安全等多個(gè)維度的風(fēng)險(xiǎn)與分析全面覆蓋?,F(xiàn)場(chǎng)展示的案例中,經(jīng)過(guò)安全微調(diào)的模型不僅拒絕回答危險(xiǎn)問(wèn)題,還會(huì)給出正向引導(dǎo)和建議。張謐說(shuō)道:“器無(wú)大小善惡在人,人有妍媸巧拙在器?!彼J(rèn)為,大模型作為工具本身沒有善惡之分,關(guān)鍵在于人類如何利用和引導(dǎo)它向善發(fā)展。
采寫:南都研究員 麥潔瑩p>