OpenAI研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励AI“瞎蒙”
作者:陪哥哥下山 來源:大同 瀏覽: 【大中小】 發(fā)布時間:2025-09-14評論數(shù):
据《商业内幕》今日报道,OpenAI研究人员宣称已经破解大语言模型性能最大的障碍之一——幻觉问题。
据介绍,所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。
OpenAI在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。
不过,不同模型的表现差别明显。OpenAI在上个月的博文中提到,Claude在面对不确定时往往更谨慎,常常避免给出错误回答。但OpenAI也提醒,Claude拒答率偏高,可能削弱了使用价值。
研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数?!?/p>
结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。
研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”
其认为,解决方法在于重新设计评估标准?!?#38382题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分?!?/p>
OpenAI在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”
- {loop type="catelog" row=10}{$vo.title}
成年人午夜免费视频|
日本妇乱大交XXXXX|
欧美激情无69|
AV少妇一区二区|
高清无码一区二区在线观看吞精|
午夜精品在线|
激情图片小说|
亚洲国产性AV毛片|
午夜在线视频|
操肥逼X一区|
狼友av永久网站免费观看|
国产无线乱码一区二三区|
亚洲AV永久无码天堂网一线|
丰满人妻被中出中文字幕|
久久精品中文字幕有码|
国产精品永久免费视频|
91丰满人妻奶子|
午夜阳光精品一区二区三区|
国产精品禁18久久久久久|
欧美色欧美亚洲高清在线观看|
成年女人黄小视频|
无码少妇一区二区浪潮av|
精品无码av一区二区三区|
国产精品久 国产熟女|
久久久久,妇女|
国产av亚洲精品ai换脸电影|
激情视频激情图片激情小说激情|
free性丰满video性中国|
双飞乌克兰亚洲综合|
日日爱天天干夜夜爽miru|
亚洲中文成人中文字幕|
麻豆╳╳╳乱女另类|
中文字幕久热精品视频免费|
日韩无码电影院|
大狠狠大臿蕉香蕉大视频|
自慰网站免费观看|
色噜噜狠狠色综合成人网-99久久无色|
bt天堂新版中文在线|
寂寞人妻丰满av无码久久不卡|
avtt天堂资源HEYZO|
国产精品中文字幕在线|