恩將仇報(bào)網(wǎng)

“9月3日，中國(guó)舉行盛大閱兵的時(shí)候，我在塞內(nèi)加爾。當(dāng)時(shí)全球和

2025-09-18 13:18:15

復(fù)旦大學(xué)張謐：大模型工具本無(wú)善惡，向善引導(dǎo)是關(guān)鍵

9月12日，2025外灘大會(huì)“規(guī)范AI內(nèi)容共筑清朗生態(tài)”見解論壇上，復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授、白澤智能團(tuán)隊(duì)負(fù)責(zé)人張謐以“大模型的安全風(fēng)險(xiǎn)與治理”為主題展開分享，從技術(shù)基礎(chǔ)視角切入，結(jié)合團(tuán)隊(duì)實(shí)踐經(jīng)驗(yàn)與成果，深入剖析大模型安全風(fēng)險(xiǎn)與治理，提出創(chuàng)新性解決方案。她認(rèn)為，大模型作為工具本身沒有善惡之分，其發(fā)展方向取決于人類如何利用和引導(dǎo)它向善發(fā)展。

本次論壇由南方都市報(bào)社、南都大數(shù)據(jù)研究院、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)人工智能工作委員會(huì)、復(fù)旦大學(xué)傳播與國(guó)家治理研究中心聯(lián)合主辦。

9月12日，復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授、白澤智能團(tuán)隊(duì)負(fù)責(zé)人張謐在2025外灘大會(huì)上進(jìn)行主題分享。

隨著大模型能力的迅速提升，其安全治理問(wèn)題已成為不容忽視的全球性挑戰(zhàn)。張謐將大模型安全問(wèn)題分為兩個(gè)方面，一是大模型自身的安全問(wèn)題，包括內(nèi)容合規(guī)、隱私泄露和生成內(nèi)容追溯等；二是以大模型為中心的全環(huán)節(jié)安全。作為“智能大腦”，大模型與外部系統(tǒng)交互時(shí)，會(huì)在任務(wù)規(guī)劃、記憶模塊、外部資源獲取、工具調(diào)用等環(huán)節(jié)暴露風(fēng)險(xiǎn)，尤其在多智能體協(xié)同場(chǎng)景下，行為可控性進(jìn)一步降低。

“當(dāng)前大模型已具備AGI雛形，自主性是其核心特征，也是風(fēng)險(xiǎn)根源?！睆堉k通過(guò)多個(gè)案例印證這一觀點(diǎn)。如AgentGPT能從零開始設(shè)計(jì)游戲、PaLM-E基于多模態(tài)大模型的具身智能、GPT-4驅(qū)動(dòng)的機(jī)器人化學(xué)家能夠自主設(shè)計(jì)并執(zhí)行復(fù)雜實(shí)驗(yàn)，甚至DeepMind用谷歌大模型突破60年數(shù)學(xué)難題，解法超出人類已有認(rèn)知……

然而，這種自主性也帶來(lái)了前所未有的風(fēng)險(xiǎn)。張謐團(tuán)隊(duì)研究發(fā)現(xiàn)，大模型已經(jīng)涌現(xiàn)出多種負(fù)面能力，如阿諛奉承（為符合用戶而忽視安全）、自我保全（拒絕關(guān)機(jī)指令）、偽裝人類（誘騙他人完成任務(wù)），甚至能夠輸出危險(xiǎn)價(jià)值觀、學(xué)習(xí)危險(xiǎn)知識(shí)，輔助合成成癮性藥物和病毒等。

面對(duì)大模型的安全治理挑戰(zhàn)，張謐團(tuán)隊(duì)開發(fā)了JADE大模型安全風(fēng)險(xiǎn)分析治理平臺(tái)，該平臺(tái)目前已實(shí)現(xiàn)文本、多模態(tài)、文生圖、長(zhǎng)推理模型和Agent安全等多個(gè)維度的風(fēng)險(xiǎn)與分析全面覆蓋?，F(xiàn)場(chǎng)展示的案例中，經(jīng)過(guò)安全微調(diào)的模型不僅拒絕回答危險(xiǎn)問(wèn)題，還會(huì)給出正向引導(dǎo)和建議。張謐說(shuō)道：“器無(wú)大小善惡在人，人有妍媸巧拙在器?！彼J(rèn)為，大模型作為工具本身沒有善惡之分，關(guān)鍵在于人類如何利用和引導(dǎo)它向善發(fā)展。

采寫：南都研究員麥潔瑩p>

訪客，請(qǐng)您發(fā)表評(píng)論:取消回復(fù)

網(wǎng)站分類

熱門文章