伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 吃著不盡網(wǎng)吃著不盡網(wǎng)

    程序員自制開源AI評分工具,衡量大模型“愚蠢程度”

    IT之家 9 月 18 日消息,程序員 ionutvi 今天發(fā)布了名為 AI Benchmark Tool 的 AI 評分工具,可衡量各大 AI 模型的“愚蠢程度”,幫助代碼工作者選擇最準(zhǔn)確性最佳、更具性價(jià)比的 AI 工具。

    ionutvi 表示,他在使用 ChatGPT、Grok、Claude 等 AI 大模型時(shí)經(jīng)常發(fā)現(xiàn),有時(shí)候這些模型第一天工作正常,但第二天就會“降智”,做相同的任務(wù)時(shí)胡亂回答,有時(shí)候干脆拒絕回答相同問題,很多人認(rèn)為這只是自己的問題,但這實(shí)際上官方有意降低了模型的性能,畢竟 Anthropic 官方就承認(rèn)過這個(gè)問題。

    因此他制作了這款 AI 評分工具,它可以自動在多款大模型運(yùn)行 140 項(xiàng)編程、調(diào)試和優(yōu)化任務(wù),從準(zhǔn)確性、拒絕回答率、回答時(shí)間、穩(wěn)定性等方面衡量 AI 模型的“愚蠢程度”,并根據(jù)評分自動排名。

    并且這名開發(fā)者還結(jié)合了各家的 AI 模型的價(jià)格綜合評比,讓用戶知道每款模型的使用成本,有的 AI 模型看起來很便宜,但可能需要迭代 10 次才能得到能用的答案;而有的模型雖然價(jià)格比較高,但只要迭代兩三次就能得到能用的版本,這種情況下稍貴的那款模型性價(jià)比就更高。

    IT之家附該工具開源鏈接如下

    贊(9382)
    未經(jīng)允許不得轉(zhuǎn)載:>吃著不盡網(wǎng)»程序員自制開源AI評分工具,衡量大模型“愚蠢程度”