這項由Atla公司Andrei Alexandru、Antonia Calvi、Henry Broomfield等研究人員主導(dǎo)的研究,于2025年1月發(fā)表在arXiv預(yù)印本平臺上(論文編號:arXiv:2501.17195v1),有興趣深入了解的讀者可以通過https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B訪問模型權(quán)重和相關(guān)資源。
當(dāng)我們想要評判一篇文章寫得好不好,或者比較兩個回答哪個更優(yōu)秀時,通常需要請專業(yè)人士來評分。但現(xiàn)在AI模型越來越多,人工評估既昂貴又耗時,就像請名廚來品嘗每一道菜一樣不現(xiàn)實(shí)。因此,科學(xué)家們開始讓AI來評判AI,這就像訓(xùn)練一個機(jī)器人美食評委,專門負(fù)責(zé)品嘗和評分各種AI"烹飪"出來的文本作品。
Atla公司的研究團(tuán)隊面臨的挑戰(zhàn)是:如何訓(xùn)練出一個既小巧又強(qiáng)大的AI評判員?現(xiàn)有的評估模型要么太大太笨重,要么評判標(biāo)準(zhǔn)不夠準(zhǔn)確,經(jīng)常出現(xiàn)偏見。就好比一個美食評委要么過于挑剔只喜歡長篇大論的回答,要么總是偏愛某種特定風(fēng)格,這顯然不是我們想要的公正裁判。
研究團(tuán)隊的突破在于開發(fā)出了Atla Selene Mini,一個僅有80億參數(shù)的小型語言模型評估器。雖然個頭不大,但它在11個不同的測試基準(zhǔn)上都表現(xiàn)出色,甚至超越了OpenAI的GPT-4o-mini模型。這就像一位經(jīng)驗豐富的年輕評委,雖然年紀(jì)不大,但眼光獨(dú)到,判斷準(zhǔn)確,而且工作效率極高。
一、數(shù)據(jù)準(zhǔn)備:精心挑選訓(xùn)練素材
要訓(xùn)練出一個優(yōu)秀的AI評判員,首先需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù),就像培養(yǎng)一個美食評委需要讓他品嘗各種優(yōu)質(zhì)菜品一樣。研究團(tuán)隊從16個公開數(shù)據(jù)集中收集了57.7萬個數(shù)據(jù)點(diǎn),涵蓋了三種不同的評判任務(wù)。
第一種任務(wù)是對比評判,類似于讓評委比較兩道菜哪個更好吃。系統(tǒng)會給出兩個不同的回答,然后判斷哪個更優(yōu)秀。這種任務(wù)最接近我們?nèi)粘5呐袛鄨鼍?,比如在兩個客服回復(fù)中選擇更合適的那個。
第二種任務(wù)是絕對評分,就像給一道菜打分一樣,不是相對比較,而是給出具體的分?jǐn)?shù),比如從1到5分或1到7分。這種方式能夠提供更細(xì)致的評判信息,告訴我們一個回答到底有多好或多差。
第三種任務(wù)是分類判斷,相當(dāng)于簡單的是非題,比如判斷一個回答是否準(zhǔn)確,或者是否包含有害內(nèi)容。這種黑白分明的判斷在很多實(shí)際應(yīng)用中都很重要。
研究團(tuán)隊特別注意只使用2023年之后發(fā)布的數(shù)據(jù)集,因為更早的數(shù)據(jù)往往質(zhì)量較低,就像用過期食材做菜一樣,難以培養(yǎng)出高水準(zhǔn)的評委。同時,他們還過濾掉了重復(fù)內(nèi)容、空值以及非拉丁字母的數(shù)據(jù),確保訓(xùn)練素材的純凈度。
二、創(chuàng)新的訓(xùn)練策略:讓AI學(xué)會既批評又贊揚(yáng)
傳統(tǒng)的訓(xùn)練方法往往只告訴AI什么是好的答案,但Selene Mini的訓(xùn)練更加巧妙。研究團(tuán)隊采用了一種叫做"對比學(xué)習(xí)"的方法,同時教會AI識別好答案和壞答案的區(qū)別,就像培養(yǎng)品酒師時不僅要讓他品嘗好酒,也要嘗試劣質(zhì)酒,這樣才能形成準(zhǔn)確的判斷標(biāo)準(zhǔn)。
具體來說,對于每個訓(xùn)練樣本,研究團(tuán)隊會同時生成兩種評價:一個是正確的、高質(zhì)量的評價(相當(dāng)于"獲選"的答案),另一個是錯誤的、低質(zhì)量的評價(相當(dāng)于"被拒"的答案)。通過對比這兩種評價,AI能夠更好地理解什么樣的判斷才是準(zhǔn)確的。
更有趣的是,研究團(tuán)隊還讓AI學(xué)會了給出詳細(xì)的評價理由,而不僅僅是簡單的分?jǐn)?shù)或選擇。就像一個專業(yè)的影評人不僅會給電影打分,還會詳細(xì)解釋為什么給出這個分?jǐn)?shù),包括劇情、表演、攝影等各個方面的分析。這種"鏈?zhǔn)剿伎?的訓(xùn)練方式讓Selene Mini能夠提供更有價值的反饋。
在訓(xùn)練數(shù)據(jù)的構(gòu)造上,團(tuán)隊采用了70%詳細(xì)評價加判斷、30%僅判斷的比例。這種搭配就像讓學(xué)生既要寫詳細(xì)的論述題,也要做簡單的選擇題,兩種形式相互補(bǔ)充,全面提升判斷能力。
三、質(zhì)量控制:嚴(yán)格篩選確保準(zhǔn)確性
為了確保訓(xùn)練數(shù)據(jù)的質(zhì)量,研究團(tuán)隊實(shí)施了多重篩選機(jī)制。首先,他們使用了ArmoRM這個專門的獎勵模型來為數(shù)據(jù)打分,就像請一位經(jīng)驗豐富的老師來預(yù)先篩選考試題目一樣。對于四個最大的數(shù)據(jù)集,他們設(shè)置了不同的質(zhì)量門檻,只有達(dá)到標(biāo)準(zhǔn)的數(shù)據(jù)才能進(jìn)入最終的訓(xùn)練集合。
在生成對比評價的過程中,研究團(tuán)隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:有時候AI生成的評價內(nèi)容和它給出的最終判斷并不一致,就像一個人嘴上說著"這道菜很好吃",但實(shí)際給出的評分卻很低。為了解決這個問題,他們開發(fā)了一個一致性檢查器,專門篩選出那些評價內(nèi)容和最終判斷相匹配的樣本。
這種嚴(yán)格的質(zhì)量控制確保了最終訓(xùn)練出來的模型具有很高的一致性。在實(shí)際測試中,Selene Mini的評價內(nèi)容和判斷結(jié)果的不一致率僅為0.1%,這意味著它幾乎總是能給出邏輯自洽的評價。
四、訓(xùn)練過程:巧妙的損失函數(shù)設(shè)計
在實(shí)際訓(xùn)練過程中,研究團(tuán)隊使用了一種改進(jìn)的優(yōu)化方法,結(jié)合了兩種不同的學(xué)習(xí)目標(biāo)。第一種目標(biāo)是讓模型更好地區(qū)分好答案和壞答案,增大它們之間的判斷差距。第二種目標(biāo)是提高對好答案的識別準(zhǔn)確度,確保模型能夠準(zhǔn)確識別出高質(zhì)量的內(nèi)容。
這種雙重優(yōu)化策略就像同時訓(xùn)練一個學(xué)生的判斷力和記憶力。判斷力幫助他區(qū)分對錯,記憶力幫助他記住什么是標(biāo)準(zhǔn)答案。兩者相結(jié)合,造就了Selene Mini出色的評估能力。
訓(xùn)練過程使用了8塊NVIDIA H100顯卡,耗時16小時。雖然聽起來時間不長,但考慮到處理的數(shù)據(jù)量和模型的復(fù)雜度,這個效率已經(jīng)相當(dāng)不錯了。研究團(tuán)隊通過精心調(diào)節(jié)學(xué)習(xí)率、權(quán)重衰減等參數(shù),確保模型能夠穩(wěn)定收斂到最佳狀態(tài)。
五、性能表現(xiàn):全面超越現(xiàn)有模型
在11個不同的評估基準(zhǔn)上,Selene Mini展現(xiàn)出了令人印象深刻的性能。這些基準(zhǔn)涵蓋了從學(xué)術(shù)寫作評估到代碼質(zhì)量判斷的各個方面,就像讓一個評委去評判不同類型的比賽,從烹飪大賽到音樂演出都要涉及。
在整體性能上,Selene Mini以75.6%的平均得分位居榜首,超過了之前最好的小型評估模型SFR-LlaMA-3.1-8B-Judge的74.9%,也超過了OpenAI的GPT-4o-mini的74.3%。更令人驚訝的是,在某些特定任務(wù)上,比如RewardBench這個專門測試獎勵模型的基準(zhǔn)測試中,Selene Mini甚至超過了體型更大的GPT-4o模型。
在絕對評分任務(wù)上,Selene Mini表現(xiàn)特別出色,平均得分達(dá)到64.8%,略高于GPT-4o-mini的64.0%。這種任務(wù)在實(shí)際應(yīng)用中非常重要,因為它能提供具體的質(zhì)量分?jǐn)?shù),而不僅僅是相對比較的結(jié)果。研究團(tuán)隊通過用戶調(diào)研發(fā)現(xiàn),在實(shí)際商業(yè)應(yīng)用中,絕對評分比相對比較更受歡迎,因為它能夠提供更細(xì)致的質(zhì)量信息。
六、實(shí)際應(yīng)用驗證:真實(shí)場景下的表現(xiàn)
為了驗證Selene Mini在實(shí)際應(yīng)用中的表現(xiàn),研究團(tuán)隊特意選擇了兩個專業(yè)領(lǐng)域的數(shù)據(jù)集進(jìn)行測試:醫(yī)療和金融。這就像讓一個通用評委去判斷專業(yè)領(lǐng)域的內(nèi)容,看看他是否具備跨領(lǐng)域的判斷能力。
在醫(yī)療領(lǐng)域,研究團(tuán)隊使用了CRAFT-MD數(shù)據(jù)集,這是一個專門評估醫(yī)療AI對話質(zhì)量的基準(zhǔn)。該數(shù)據(jù)集包含了臨床AI與患者AI之間的對話,由醫(yī)療專家進(jìn)行標(biāo)注。測試內(nèi)容包括三個方面:是否能夠得出最可能的診斷、是否涵蓋了相關(guān)的病史信息、以及患者是否使用了醫(yī)療術(shù)語。
結(jié)果顯示,Selene Mini在這些醫(yī)療評估任務(wù)上比基礎(chǔ)模型Llama 3.1 8B Instruct有顯著提升。特別是在醫(yī)療術(shù)語使用判斷上,準(zhǔn)確率從79%提升到92%,在診斷可能性評估上從51%提升到62%。這種提升表明,經(jīng)過專門訓(xùn)練的評估模型確實(shí)能夠更好地理解和判斷專業(yè)領(lǐng)域的內(nèi)容。
在金融領(lǐng)域,研究團(tuán)隊使用了FinanceBench數(shù)據(jù)集,該數(shù)據(jù)集包含了關(guān)于上市公司的問題及相應(yīng)答案,并標(biāo)注了答案是否包含虛假信息。Selene Mini在這個任務(wù)上的準(zhǔn)確率達(dá)到71.7%,明顯高于基礎(chǔ)模型的66.4%。這種改進(jìn)對于金融信息的準(zhǔn)確性評估具有重要意義,因為金融領(lǐng)域的錯誤信息可能導(dǎo)致嚴(yán)重的經(jīng)濟(jì)損失。
七、穩(wěn)定性測試:不同提示格式下的表現(xiàn)
一個優(yōu)秀的評估模型應(yīng)該能夠適應(yīng)各種不同的提示格式,而不是只對特定格式的輸入敏感。為了測試這種穩(wěn)定性,研究團(tuán)隊設(shè)計了六種不同的提示格式:原始格式、Markdown格式、JSON格式、PrePair格式、簡化說明格式等。
這種測試就像讓一個評委適應(yīng)不同的比賽規(guī)則和評分表格,看他是否能夠在各種情況下都保持一致的判斷標(biāo)準(zhǔn)。結(jié)果表明,Selene Mini在所有格式下都保持了穩(wěn)定的性能表現(xiàn),性能波動很小。這種穩(wěn)定性對于實(shí)際應(yīng)用來說非常重要,因為不同的用戶可能會使用不同的提示方式。
相比之下,基礎(chǔ)模型在不同格式下的性能差異較大,這表明專門的訓(xùn)練確實(shí)提高了模型的格式適應(yīng)能力。這種改進(jìn)使得Selene Mini能夠更好地服務(wù)于各種實(shí)際應(yīng)用場景,不需要用戶嚴(yán)格按照特定格式編寫提示。
八、社區(qū)競技場:群眾智慧的驗證
研究團(tuán)隊還開發(fā)了一個叫做Judge Arena的社區(qū)平臺,讓普通用戶可以對不同的評估模型進(jìn)行頭對頭比較。這個平臺的工作原理就像網(wǎng)上的投票系統(tǒng),用戶可以看到兩個不同模型給出的評價,然后選擇他們認(rèn)為更好的那個。
在這個平臺上,Selene Mini展現(xiàn)出了令人驚喜的表現(xiàn)。截至2025年1月22日的數(shù)據(jù)顯示,Selene Mini在與25個其他評估模型的比較中排名第一,甚至超過了Claude 3.5 Sonnet、Prometheus 7B v2和Llama 3.1 405B Instruct等知名模型。
這種社區(qū)驗證具有特殊的意義,因為它反映了真實(shí)用戶的偏好和判斷。不同于實(shí)驗室環(huán)境中的基準(zhǔn)測試,這種眾包評估更接近模型在實(shí)際使用中會遇到的情況。用戶的選擇往往基于直覺和實(shí)用性,這為模型性能提供了另一個維度的驗證。
九、開源策略:推動社區(qū)發(fā)展
研究團(tuán)隊決定將Selene Mini的完整權(quán)重開源,通過HuggingFace和Ollama兩個平臺提供下載。這種開源策略體現(xiàn)了研究團(tuán)隊推動AI評估技術(shù)普及的愿望,就像將一個優(yōu)秀的工具免費(fèi)分享給所有需要的人。
開源不僅降低了使用門檻,也為研究社區(qū)提供了進(jìn)一步改進(jìn)和優(yōu)化的基礎(chǔ)。其他研究者可以基于Selene Mini進(jìn)行二次開發(fā),或者將其技術(shù)應(yīng)用到特定的領(lǐng)域中。這種開放合作的模式有助于整個AI評估領(lǐng)域的快速發(fā)展。
同時,開源也意味著透明性。研究團(tuán)隊公開了模型的訓(xùn)練方法、數(shù)據(jù)處理流程和性能表現(xiàn),這使得其他研究者可以驗證和復(fù)現(xiàn)這些結(jié)果,促進(jìn)了科學(xué)研究的可信度和可重復(fù)性。
十、技術(shù)創(chuàng)新點(diǎn):數(shù)據(jù)質(zhì)量的重要性
這項研究的一個重要發(fā)現(xiàn)是,對于評估模型來說,數(shù)據(jù)質(zhì)量比模型規(guī)模更為重要。Selene Mini雖然只有80億參數(shù),規(guī)模相對較小,但通過精心策劃的數(shù)據(jù)和訓(xùn)練策略,它能夠在性能上超越許多更大的模型。
這種發(fā)現(xiàn)挑戰(zhàn)了"越大越好"的傳統(tǒng)觀念,表明在AI模型開發(fā)中,聰明的方法往往比蠻力更有效。就像一個技藝精湛的小餐廳可能比豪華大酒店做出更美味的菜品一樣,關(guān)鍵在于對細(xì)節(jié)的關(guān)注和對質(zhì)量的把控。
研究團(tuán)隊在數(shù)據(jù)篩選上投入了大量精力,從原始數(shù)據(jù)的質(zhì)量篩選到合成數(shù)據(jù)的一致性檢查,每一個環(huán)節(jié)都經(jīng)過精心設(shè)計。這種對數(shù)據(jù)質(zhì)量的重視為整個AI評估領(lǐng)域提供了重要的參考和啟示。
十一、未來展望:應(yīng)對新挑戰(zhàn)
研究團(tuán)隊在論文中指出,AI評估領(lǐng)域面臨著兩個重要的發(fā)展趨勢。首先是基于智能體的系統(tǒng)越來越普及,這些系統(tǒng)不僅能生成文本,還能調(diào)用各種工具和API,創(chuàng)造出更復(fù)雜、更實(shí)用的AI應(yīng)用。其次是推理時計算的興起,即模型在生成回答時會進(jìn)行額外的推理步驟,以提供更高質(zhì)量的輸出。
這兩個趨勢為評估帶來了新的挑戰(zhàn)。傳統(tǒng)的評估方法主要關(guān)注最終輸出的質(zhì)量,但對于這些新型系統(tǒng),可能需要評估整個推理過程、工具使用的合理性以及多步驟操作的邏輯性。這就像從評判一道菜的味道擴(kuò)展到評判整個烹飪過程,包括食材選擇、烹飪技巧和擺盤藝術(shù)。
未來的評估模型需要具備更全面的判斷能力,不僅要能評估語言輸出,還要能理解和評價復(fù)雜的推理鏈條和工具使用策略。Selene Mini作為一個強(qiáng)大而高效的基礎(chǔ)模型,為這些未來發(fā)展提供了良好的起點(diǎn)。
說到底,Atla公司的這項研究證明了一個重要觀點(diǎn):在AI評估這個日益重要的領(lǐng)域,創(chuàng)新的方法和對質(zhì)量的關(guān)注比單純的規(guī)模擴(kuò)大更有價值。Selene Mini以其出色的性能、高效的運(yùn)行和開源的理念,為整個AI社區(qū)提供了一個強(qiáng)大而實(shí)用的工具。
對于普通用戶而言,這意味著他們很快就能享受到更準(zhǔn)確、更一致的AI評估服務(wù),無論是在工作中需要評判文檔質(zhì)量,還是在學(xué)習(xí)中需要獲得作業(yè)反饋。對于開發(fā)者來說,Selene Mini提供了一個可靠的基礎(chǔ),可以在其基礎(chǔ)上構(gòu)建更專業(yè)的評估系統(tǒng)。
隨著AI技術(shù)的不斷發(fā)展,準(zhǔn)確而高效的評估將變得越來越重要。Selene Mini的成功不僅是技術(shù)上的突破,更代表了一種以質(zhì)量為導(dǎo)向、以開放合作為理念的研究方式。這種方式或許會成為未來AI研發(fā)的重要參考,推動整個行業(yè)向更高質(zhì)量、更負(fù)責(zé)任的方向發(fā)展。
Q&A
Q1:Atla Selene Mini和GPT-4o-mini相比有什么優(yōu)勢?
A:Selene Mini在整體性能上超過GPT-4o-mini,平均得分75.6%對74.3%,特別是在絕對評分任務(wù)上表現(xiàn)更出色。更重要的是,Selene Mini是完全開源的,用戶可以免費(fèi)使用并根據(jù)需要進(jìn)行定制,而且模型更小,運(yùn)行效率更高。
Q2:普通用戶如何使用Selene Mini來評估文本質(zhì)量?
A:用戶可以通過HuggingFace(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B)或Ollama平臺下載使用Selene Mini。它能夠?qū)ξ谋具M(jìn)行打分評估,比較不同回答的質(zhì)量,并提供詳細(xì)的評價理由,適合用于文檔質(zhì)量檢查、作業(yè)評估、客服回復(fù)優(yōu)化等場景。
Q3:Selene Mini在專業(yè)領(lǐng)域比如醫(yī)療和金融方面的評估準(zhǔn)確嗎?
A:測試顯示Selene Mini在專業(yè)領(lǐng)域表現(xiàn)出色。在醫(yī)療領(lǐng)域的CRAFT-MD數(shù)據(jù)集上,醫(yī)療術(shù)語使用判斷準(zhǔn)確率達(dá)到92%,診斷可能性評估準(zhǔn)確率62%;在金融領(lǐng)域的FinanceBench數(shù)據(jù)集上準(zhǔn)確率達(dá)到71.7%,都明顯超過基礎(chǔ)模型的表現(xiàn)。