亚洲色精品一区二区三区不卡,国产精品久久久久久久久久免费,久久99国产乱子免费视频

當(dāng)前位置：首頁(yè)>平頂山>OpenAI研究人員宣稱已破解模型“幻覺(jué)”：重新設(shè)計(jì)評(píng)估指標(biāo)即可

游客發(fā)表

OpenAI研究人員宣稱已破解模型“幻覺(jué)”：重新設(shè)計(jì)評(píng)估指標(biāo)即可

發(fā)帖時(shí)間：2025-09-16 08:41:49

[{$vo.typename}]來(lái)源：孟母三遷網(wǎng)

IT之家 9 月 6 日消息，據(jù)《商業(yè)內(nèi)幕》今日?qǐng)?bào)道，OpenAI 研究人員宣稱已經(jīng)破解大語(yǔ)言模型性能最大的障礙之一 —— 幻覺(jué)問(wèn)題。

IT之家注：所謂幻覺(jué)，是指大語(yǔ)言模型把不準(zhǔn)確的信息當(dāng)作事實(shí)輸出，幾乎所有主流模型都深受其困擾。

OpenAI 在周四發(fā)布的一篇論文中指出，幻覺(jué)的根源在于訓(xùn)練方式更偏向獎(jiǎng)勵(lì)“猜測(cè)”，而不是承認(rèn)不確定性。換句話說(shuō)，模型被訓(xùn)練成“裝作知道”，而不是坦率地說(shuō)“我不確定”。

不過(guò)，不同模型的表現(xiàn)差別明顯。OpenAI 在上個(gè)月的博文中提到，Claude 在面對(duì)不確定時(shí)往往更謹(jǐn)慎，常常避免給出錯(cuò)誤回答。但 OpenAI 也提醒，Claude 拒答率偏高，可能削弱了使用價(jià)值。

研究人員在論文中寫(xiě)道：“幻覺(jué)之所以難以消除，是因?yàn)楝F(xiàn)有的評(píng)估標(biāo)準(zhǔn)獎(jiǎng)勵(lì)猜測(cè)。模型被優(yōu)化成‘考試型選手’，在不確定時(shí)猜一猜反而能提高分?jǐn)?shù)?！?/p>

結(jié)果是，大語(yǔ)言模型幾乎一直處于“考試模式”，把世界看成非黑即白的是非題。但現(xiàn)實(shí)遠(yuǎn)比考試復(fù)雜，不確定性往往多于確定性，絕對(duì)的準(zhǔn)確并不常見(jiàn)。

研究人員指出：“人類會(huì)在現(xiàn)實(shí)生活的挫折中學(xué)會(huì)表達(dá)不確定性的價(jià)值，而大語(yǔ)言模型的評(píng)估主要依賴考試，這些考試卻懲罰了不確定的回答。”

其認(rèn)為，解決方法在于重新設(shè)計(jì)評(píng)估標(biāo)準(zhǔn)?！皢?wèn)題的根源是評(píng)估指標(biāo)沒(méi)有對(duì)齊，必須調(diào)整主要的評(píng)分方式，避免在模型不確定時(shí)因拒答而被扣分。”

OpenAI 在介紹論文的博文中進(jìn)一步解釋說(shuō)：“目前廣泛使用的基于準(zhǔn)確率的評(píng)估需要更新，打分方式應(yīng)當(dāng)抑制‘亂猜’行為。如果排行榜繼續(xù)獎(jiǎng)勵(lì)僥幸的回答，模型就會(huì)不斷被訓(xùn)練成靠猜測(cè)過(guò)關(guān)?！?/p>

{loop type="link" row=1 }{$vo.title}

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

OpenAI研究人員宣稱已破解模型“幻覺(jué)”：重新設(shè)計(jì)評(píng)估指標(biāo)即可