IT之家 9 月 18 日消息,程序員 ionutvi 今天發(fā)布了名為 AI Benchmark Tool 的 AI 評分工具,可衡量各大 AI 模型的“愚蠢程度”,幫助代碼工作者選擇最準(zhǔn)確性最佳、更具性價(jià)比的 AI 工具。
ionutvi 表示,他在使用 ChatGPT、Grok、Claude 等 AI 大模型時(shí)經(jīng)常發(fā)現(xiàn),有時(shí)候這些模型第一天工作正常,但第二天就會“降智”,做相同的任務(wù)時(shí)胡亂回答,有時(shí)候干脆拒絕回答相同問題,很多人認(rèn)為這只是自己的問題,但這實(shí)際上官方有意降低了模型的性能,畢竟 Anthropic 官方就承認(rèn)過這個(gè)問題。
因此他制作了這款 AI 評分工具,它可以自動在多款大模型運(yùn)行 140 項(xiàng)編程、調(diào)試和優(yōu)化任務(wù),從準(zhǔn)確性、拒絕回答率、回答時(shí)間、穩(wěn)定性等方面衡量 AI 模型的“愚蠢程度”,并根據(jù)評分自動排名。
并且這名開發(fā)者還結(jié)合了各家的 AI 模型的價(jià)格綜合評比,讓用戶知道每款模型的使用成本,有的 AI 模型看起來很便宜,但可能需要迭代 10 次才能得到能用的答案;而有的模型雖然價(jià)格比較高,但只要迭代兩三次就能得到能用的版本,這種情況下稍貴的那款模型性價(jià)比就更高。
IT之家附該工具開源鏈接如下: