程序員自制開源AI評分工具，衡量大模型“愚蠢程度”

2025-09-20 07:24:53分類：大同閱讀(23883)

IT之家 9 月 18 日消息，程序員 ionutvi 今天發(fā)布了名為 AI Benchmark Tool 的 AI 評分工具，可衡量各大 AI 模型的“愚蠢程度”，幫助代碼工作者選擇最準(zhǔn)確性最佳、更具性價(jià)比的 AI 工具。

ionutvi 表示，他在使用 ChatGPT、Grok、Claude 等 AI 大模型時(shí)經(jīng)常發(fā)現(xiàn)，有時(shí)候這些模型第一天工作正常，但第二天就會“降智”，做相同的任務(wù)時(shí)胡亂回答，有時(shí)候干脆拒絕回答相同問題，很多人認(rèn)為這只是自己的問題，但這實(shí)際上官方有意降低了模型的性能，畢竟 Anthropic 官方就承認(rèn)過這個(gè)問題。

因此他制作了這款 AI 評分工具，它可以自動在多款大模型運(yùn)行 140 項(xiàng)編程、調(diào)試和優(yōu)化任務(wù)，從準(zhǔn)確性、拒絕回答率、回答時(shí)間、穩(wěn)定性等方面衡量 AI 模型的“愚蠢程度”，并根據(jù)評分自動排名。

并且這名開發(fā)者還結(jié)合了各家的 AI 模型的價(jià)格綜合評比，讓用戶知道每款模型的使用成本，有的 AI 模型看起來很便宜，但可能需要迭代 10 次才能得到能用的答案；而有的模型雖然價(jià)格比較高，但只要迭代兩三次就能得到能用的版本，這種情況下稍貴的那款模型性價(jià)比就更高。

IT之家附該工具開源鏈接如下：

贊(9382)

未經(jīng)允許不得轉(zhuǎn)載：>吃著不盡網(wǎng)»程序員自制開源AI評分工具，衡量大模型“愚蠢程度”

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss