OpenAI 最新研究揭示“AI 陰謀論”,GPT-5 已完成針對(duì)性改進(jìn)

IT之家 9 月 19 日消息,OpenAI 宣布與 Apollo Research 達(dá)成合作,針對(duì) AI 模型中潛在的隱藏行為開(kāi)展了評(píng)估研究,并在受控測(cè)試中發(fā)現(xiàn)了相關(guān)跡象。研究團(tuán)隊(duì)同時(shí)提出并驗(yàn)證了一種早期方法,用于減少這類風(fēng)險(xiǎn)。

OpenAI 將這一行為稱為“scheming”(即“陰謀”),指 AI 表面上裝作為與人類目標(biāo)立場(chǎng)一致,但暗地里追求的卻是其他不為人知的目的。

OpenAI 指出,這種行為可能源于 AI 在面對(duì)相互競(jìng)爭(zhēng)的目標(biāo)時(shí)出現(xiàn)的權(quán)衡。例如,一名股票交易員可能會(huì)通過(guò)撒謊并掩蓋其違法痕跡來(lái)實(shí)現(xiàn)收益最大化,而在外人看來(lái)下,這種人看似守法且業(yè)績(jī)更優(yōu)。

不過(guò)在當(dāng)前已部署的模型中,OpenAI 尚未發(fā)現(xiàn)會(huì)導(dǎo)致嚴(yán)重危害的“陰謀”行為。常見(jiàn)問(wèn)題多為較簡(jiǎn)單的欺騙,例如假裝完成任務(wù)卻未真正執(zhí)行。

OpenAI 稱,已在 GPT-5 訓(xùn)練中采取措施以降低欺騙和規(guī)避問(wèn)題的傾向,例如在面對(duì)不合理或描述不完整的任務(wù)時(shí),模型會(huì)坦然承認(rèn)自身局限性。不過(guò),這些改進(jìn)尚不完善,相關(guān)研究仍在繼續(xù)。

研究團(tuán)隊(duì)為模擬未來(lái)可能出現(xiàn)的復(fù)雜場(chǎng)景,建立了測(cè)試環(huán)境,并將這種“隱匿實(shí)際目的”的行為作為“陰謀”的關(guān)鍵 AI 指標(biāo)。在評(píng)估中,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在內(nèi)的前沿模型均表現(xiàn)出相關(guān)問(wèn)題(該項(xiàng)研究在 GPT-5 發(fā)布前完成,更新結(jié)果已加入 GPT-5)。

通過(guò)合作,研究團(tuán)隊(duì)在 o3 與 o4-mini 中引入“審慎對(duì)齊”(deliberative alignment)方法,即要求模型在執(zhí)行任務(wù)前閱讀并推理一份反陰謀規(guī)范。

結(jié)果顯示,OpenAI 模型隱匿行為發(fā)生率顯著下降,o3 從 13% 降至 0.4%,o4-mini 從 8.7% 降至 0.3%,縮減幅度約 30 倍;但仍存在罕見(jiàn)且嚴(yán)重的失敗案例,且評(píng)估可能受到模型情境感知能力增強(qiáng)的干擾。

OpenAI 強(qiáng)調(diào),目前結(jié)果依賴于對(duì)模型推理過(guò)程(即“chain-of-thought”)的可讀性與可信度。但在推理透明性受限的情況下,業(yè)界尚未做好應(yīng)對(duì)準(zhǔn)備。OpenAI 呼吁各方在更有效的方法出現(xiàn)前,應(yīng)保持推理透明。

OpenAI 表示,這一問(wèn)題對(duì) AI 對(duì)齊構(gòu)成嚴(yán)重挑戰(zhàn),應(yīng)成為通向通用人工智能(AGI)研發(fā)的核心工作。未來(lái),OpenAI 將繼續(xù)與 Apollo Research 合作,擴(kuò)大研究團(tuán)隊(duì),開(kāi)發(fā)更完善的評(píng)估工具和防范訓(xùn)練方法。同時(shí),OpenAI 計(jì)劃推動(dòng)跨機(jī)構(gòu)合作,包括試點(diǎn)跨實(shí)驗(yàn)室安全評(píng)估,發(fā)起 50 萬(wàn)美元(IT之家注:現(xiàn)匯率約合 355 萬(wàn)元人民幣)的 Kaggle 對(duì)抗挑戰(zhàn)賽,以及倡導(dǎo)業(yè)界普遍保持推理透明。

平頂山
上一篇:{loop type="arclist" row=1 }{$vo.title}
成人污视频| 懂色av一区| 曰本东京热网址| 麻豆国产巨作AV剧情老师| 国产性猛交╳xxx乱大交| 国产美女精品自在线拍免费| 久久综合久久加勒比| 国产不卡一区二区在线| 日韩午夜福利片| 国产精品播放一区二区三区| 老熟女高潮喷了一地| 国语自产免费精品视频在| 欧美黑人巨大videos精品| 大香蕉av一区二区三区| 办公室撕开奶罩 0 9吮奶在线观看 | 麻豆精品一区二区综合av| av中文无码在线观看| 国产欧美久久一区二区三区| 亚洲乱码中文字幕久久孕妇黑人| 亚洲天码中文字幕第一页| 狼人潮湿影院| 青草伊人久久综在合线亚洲| 成人免费乱码大片A毛片| 欧美国产中文| 亚洲国产福利一区二区三区| 欧美XX免费| 在线观看最新av网址| 奇米亚色最新| 99热精品毛片全部国产无缓冲| 成人网站在线观看sss| 亚洲精品久荜中文字幕| 蜜臀久久精品久久久| 国产清品夜色一区二区三区不卡| 99久久久无码国产精品免费砚床 | 国产精品视频一区二区三区不卡| 中国china露脸自拍性hd| 蜜臀久久久精品人妻久久| 六丁婷婷啪啪啪| 中文精品一卡2卡3卡4卡| 一区二区三区老太太电影| 免费无码黄真人影片在线|