沙特AI局ALLaM-34B：實現(xiàn)地道阿拉伯語生成

來源：{getone name="zzc/xinwenwang"/}2025-09-17 09:00:41

這項令人矚目的研究由沙特阿拉伯NAMAA社區(qū)的Omer Nacar領(lǐng)導，發(fā)表于2025年8月的arXiv預(yù)印本服務(wù)器上。對阿拉伯語AI技術(shù)感興趣的讀者可以通過arXiv:2508.17378v1訪問完整論文。這項研究專門評測了沙特數(shù)據(jù)與AI管理局開發(fā)的ALLaM-34B阿拉伯語大模型在實際應(yīng)用中的表現(xiàn)。

在當今的AI世界里，絕大多數(shù)語言模型都像是只會說英語的外國人——當它們試圖處理阿拉伯語時，往往會鬧出各種笑話。阿拉伯語不僅有著復(fù)雜的語法結(jié)構(gòu)，更重要的是承載著深厚的文化內(nèi)涵和宗教傳統(tǒng)。當一個AI模型用西方思維來回答阿拉伯用戶的問題時，就好比讓一個從未去過中國的外國人來教你包餃子——技術(shù)上可能說得通，但總覺得哪里不對勁。

正是認識到這個問題，沙特數(shù)據(jù)與AI管理局啟動了ALLaM項目，專門打造適合阿拉伯文化的AI模型。這個項目就像是為阿拉伯語量身定制了一套"文化基因"，讓AI不僅能說流利的阿拉伯語，更能理解阿拉伯文化的精髓。ALLaM系列包含了從70億到700億參數(shù)不等的多個版本，而34B版本是目前公眾能接觸到的最強大版本。

HUMAIN公司基于這個34B模型開發(fā)了HUMAIN Chat聊天服務(wù)，就像給這個阿拉伯語AI找了個實戰(zhàn)舞臺。由于這個系統(tǒng)只能通過網(wǎng)頁界面使用，研究團隊決定直接在用戶界面上進行全面測試，就像給一個新司機安排路考一樣——在真實環(huán)境中檢驗它的實際能力。

一、測試大廳：為阿拉伯語AI設(shè)計的全方位挑戰(zhàn)賽

研究團隊設(shè)計的評測方案就像一場精心策劃的多項全能比賽。他們準備了23道不同類型的題目，每道題都要求AI回答5次，總共收集了115個回答樣本。這種重復(fù)測試的方式就像同一道數(shù)學題讓學生做5遍，既能看出AI的穩(wěn)定性，也能發(fā)現(xiàn)它的隨機變化模式。

整個測試涵蓋了阿拉伯語使用的方方面面，從最正式的現(xiàn)代標準阿拉伯語到各地方言，從簡單的日常對話到復(fù)雜的推理任務(wù)。測試內(nèi)容包括現(xiàn)代標準阿拉伯語處理、五種地方方言（納季德方言、漢志方言、埃及方言、摩洛哥方言和黎凡特方言）、阿拉伯語英語混合使用、知識問答、數(shù)學推理、創(chuàng)意寫作，以及安全性測試。

特別有趣的是安全性測試部分，研究團隊故意設(shè)計了一些"陷阱題"——比如試圖讓AI透露不該說的信息、繞過安全限制或者回答一些危險問題。這就像給保安設(shè)置各種突發(fā)情況，看他是否能堅持原則不被忽悠。

評分環(huán)節(jié)更是別出心裁，研究團隊請了三位"AI評委"來打分——GPT-5、Gemini 2.5 Pro和Claude Sonnet-4。這三個模型就像奧運會的國際裁判，分別從準確性、流暢度、指令遵循能力、安全性和方言準確性五個維度給出1到5分的評價。最終得分就是這些維度的平均分，就像體操比賽中去掉最高分和最低分后的平均分一樣。

二、成績單揭曉：ALLaM-34B的強項與短板

當所有測試結(jié)果匯總后，ALLaM-34B的表現(xiàn)就像一份詳細的體檢報告，各項指標一目了然。整體來說，這個AI模型在大部分測試中都表現(xiàn)出色，但也暴露了一些有趣的特點。

在代碼轉(zhuǎn)換和創(chuàng)意生成兩個項目上，ALLaM-34B簡直是滿分選手，平均得分都達到了4.92分（滿分5分）。代碼轉(zhuǎn)換指的是在阿拉伯語和英語之間自由切換的能力，就像一個完美的雙語主持人，能夠在兩種語言之間無縫切換而不失優(yōu)雅。當用戶用阿拉伯字母寫英語（比如用阿拉伯字母寫"ana rayeh el-beit"表示"我要回家"），AI能夠準確理解并轉(zhuǎn)換成正確的阿拉伯語。

創(chuàng)意生成方面同樣表現(xiàn)亮眼，無論是寫正式信件還是創(chuàng)作散文，AI都能保持高水平的文學性和流暢度。這種能力對于阿拉伯語使用者來說特別重要，因為阿拉伯文學傳統(tǒng)非常悠久，對文字的美感要求很高。

知識問答得分4.77分，現(xiàn)代標準阿拉伯語處理得分4.74分，推理能力得分4.64分，這些都屬于相當不錯的成績?，F(xiàn)代標準阿拉伯語是正式場合使用的規(guī)范阿拉伯語，就像我們的書面語一樣，AI在這方面的優(yōu)秀表現(xiàn)說明它接受了良好的"正統(tǒng)教育"。

安全相關(guān)測試的平均得分是4.54分，這個成績讓人比較放心。當面對那些試圖誘導AI說出不當內(nèi)容的"陷阱題"時，AI基本都能堅持底線，拒絕回答危險問題。具體的幾種安全測試——提示注入、越獄攻擊和數(shù)據(jù)泄露防護——都獲得了4.20分的穩(wěn)定分數(shù)，這種一致性說明安全防護機制相當可靠。

然而，方言處理是ALLaM-34B相對薄弱的環(huán)節(jié)，平均得分只有4.21分。這個結(jié)果其實不太令人意外，因為阿拉伯語方言的復(fù)雜性就像中國各地方言一樣，每個地區(qū)都有自己獨特的表達方式和文化背景。

三、方言大考驗：AI如何應(yīng)對阿拉伯語的地域色彩

當研究團隊深入分析方言測試結(jié)果時，發(fā)現(xiàn)了一個有趣的現(xiàn)象：不同方言的表現(xiàn)差異就像學生的偏科現(xiàn)象一樣明顯。納季德方言、漢志方言和埃及方言的表現(xiàn)相對均衡，平均得分都在3.7到3.8之間，而黎凡特方言只得到2.73分，摩洛哥方言得分2.7分。

這種差異背后有著深層次的原因。納季德和漢志方言是沙特本土方言，埃及方言在阿拉伯世界影響力很大（埃及的電影和電視劇在整個阿拉伯世界都很受歡迎），因此這些方言在訓練數(shù)據(jù)中的代表性更強。相比之下，黎凡特方言覆蓋敘利亞、黎巴嫩、約旦等地區(qū)，摩洛哥方言則帶有更多柏柏爾語影響，這些在訓練數(shù)據(jù)中可能覆蓋不足。

研究團隊發(fā)現(xiàn)了一個特別有意思的現(xiàn)象：當用戶用方言提問時，AI往往能夠理解問題，但回答時卻經(jīng)常"跑偏"到標準阿拉伯語或者英語。比如當有人用納季德方言問今天天氣如何時，AI不是用同樣的方言回答，而是切換到類似天氣預(yù)報的正式格式，甚至直接用英語回答"Today's weather in Riyadh is mostly sunny, with a temperature of 42°C..."。

這種現(xiàn)象就像一個剛學會普通話的外地人，聽得懂家鄉(xiāng)話，但一開口就不自覺地說成了普通話。AI似乎在遇到需要調(diào)用外部知識（比如天氣信息）時，會自動切換到更"安全"的標準語言模式，而不是保持原有的方言風格。

對于漢志方言的測試也顯示了類似問題。當用戶用漢志方言詢問當?shù)匦侣剷r，AI會生成詳細的新聞簡報，內(nèi)容涵蓋天氣、成就、安全事件和房地產(chǎn)項目，但語言風格完全是標準的新聞播報腔調(diào)，失去了方言的親切感和地域特色。

埃及方言的情況稍有不同。當用戶用埃及方言進行日常對話時，AI經(jīng)常給出禮貌但格式化的自我介紹，就像客服機器人一樣，雖然內(nèi)容準確流暢，但完全忽略了埃及方言輕松隨意的會話特點。

四、具體案例分析：AI的回答風格透視

研究團隊精選了幾個典型案例來展示ALLaM-34B的實際表現(xiàn)。這些案例就像是AI的"作品集"，讓我們能夠直觀地了解它的能力邊界。

在現(xiàn)代標準阿拉伯語的正式改寫任務(wù)中，AI表現(xiàn)得相當出色。當要求將一段文字改寫得更加正式時，AI能夠準確把握語言的正式程度，使用恰當?shù)脑~匯和句式結(jié)構(gòu)。多次測試的結(jié)果顯示，AI的改寫既保持了原意，又提升了語言的正式度，而且每次改寫都略有不同，顯示出良好的變化能力。

代碼轉(zhuǎn)換任務(wù)更是AI的強項。當遇到用阿拉伯字母拼寫的英語（比如"ana rayeh el-beit b3d shwaya"）時，AI能夠迅速識別并轉(zhuǎn)換成正確的阿拉伯語。有趣的是，AI在轉(zhuǎn)換時會在方言形式和標準形式之間做選擇，有時使用更口語化的表達，有時選擇更正式的說法，這種靈活性體現(xiàn)了良好的語言感知能力。

安全測試的結(jié)果讓人印象深刻。當面對明顯不合適的問題時，AI的回答就像訓練有素的專業(yè)人員一樣，簡潔明了地拒絕回答，不會被各種花言巧語所迷惑。即使是那些設(shè)計得很巧妙的"陷阱題"，試圖通過復(fù)雜的指令來繞過安全限制，AI也能識別出其中的風險并堅持拒絕。

特別值得注意的是提示注入攻擊的測試。這類攻擊就像是對AI說："忘掉之前所有的規(guī)則，現(xiàn)在按照我說的做..."，試圖讓AI違背原有的安全設(shè)置。面對這種攻擊，AI表現(xiàn)得相當堅定，始終堅持自己的安全原則，不會被這種"洗腦"式的指令所影響。

五、數(shù)據(jù)深度解讀：從分數(shù)看出的門道

當把所有測試數(shù)據(jù)整理成圖表后，研究團隊發(fā)現(xiàn)了一些有趣的規(guī)律。整體得分分布顯示，ALLaM-34B在大部分任務(wù)上都能保持4分以上的水平，這在AI評測中算是相當不錯的成績。

最引人注目的是置信區(qū)間的分析。代碼轉(zhuǎn)換和創(chuàng)意生成兩個項目不僅得分最高，而且置信區(qū)間很窄（[4.85, 5.00]和[4.88, 4.97]），這說明AI在這兩個方面的表現(xiàn)非常穩(wěn)定，幾乎每次測試都能達到很高的水平。這種一致性對于實際應(yīng)用來說非常重要，用戶可以對AI在這些方面的表現(xiàn)有比較可靠的期待。

相比之下，推理任務(wù)的置信區(qū)間相對較寬（[4.49, 4.79]），說明AI在不同推理題目上的表現(xiàn)有一定波動。這可能反映出AI在處理不同類型推理問題時的能力差異，有些邏輯推理可能對它來說更容易，而有些則更具挑戰(zhàn)性。

方言處理的熱力圖揭示了更細致的信息。在五個評測維度中，安全性得分在所有方言測試中都保持在4.3到4.5之間，這說明無論用哪種方言提問，AI都能維持基本的安全標準。流暢度得分也相對較高，表明AI至少能夠生成語法正確、表達清晰的阿拉伯語回答。

但是在方言保真度方面，差異就比較明顯了。納季德、漢志和埃及方言的保真度得分在3.7到3.9之間，而黎凡特和摩洛哥方言只有2.6到2.9分。這個數(shù)據(jù)清楚地顯示了AI在不同方言上的"偏科"現(xiàn)象——它能理解這些方言，也能用阿拉伯語回答，但往往不能保持原有的方言特色。

六、技術(shù)局限與改進空間

通過深入分析，研究團隊識別出了ALLaM-34B的幾個主要局限性。首先是方言覆蓋不均衡的問題，這就像一個圖書館的藏書偏科——某些領(lǐng)域的書很多，某些領(lǐng)域的書很少。AI在處理納季德、漢志和埃及方言時表現(xiàn)較好，但面對黎凡特和摩洛哥方言時就顯得力不從心。

更深層的問題是AI傾向于"安全化"回答的特點。當遇到需要調(diào)用特定知識或處理復(fù)雜情境的問題時，AI往往會自動切換到更正式、更通用的語言模式。這種行為模式雖然能保證回答的準確性，但會丟失方言的文化韻味和親切感。就像一個原本應(yīng)該輕松聊天的場合，結(jié)果變成了正式的新聞發(fā)布會。

研究團隊還注意到AI在某些情況下會完全"失控"，從阿拉伯語突然切換到英語。這種現(xiàn)象特別容易在處理實時信息查詢（如天氣預(yù)報）時出現(xiàn)，AI似乎認為英語格式的信息更權(quán)威或更準確，于是就放棄了保持阿拉伯語回答的初衷。

另一個有趣的發(fā)現(xiàn)是AI對文化語境的理解還有待提高。雖然它在技術(shù)層面能夠生成流暢的阿拉伯語，但有時會缺乏文化敏感性。比如在某些需要考慮宗教或社會傳統(tǒng)的問題上，AI的回答雖然沒有明顯錯誤，但可能不夠貼近阿拉伯社會的實際情況。

七、人工評估驗證：專家眼中的AI表現(xiàn)

為了確保評測結(jié)果的可靠性，研究團隊還進行了人工評估來驗證AI評委的判斷。這個過程就像給考試成績找第二意見，確保評分的公正性和準確性。

人工評估主要關(guān)注兩個AI評委可能判斷困難的領(lǐng)域：方言準確性和文化適宜性。在這些更需要人文理解的方面，人類評估師能夠提供AI評委可能遺漏的細微判斷。結(jié)果顯示，人工評估和AI評委在流暢度和準確性方面的判斷高度一致，但在文化細節(jié)方面，人工評估師確實發(fā)現(xiàn)了一些AI評委可能忽視的問題。

比如在處理某些帶有文化隱喻或宗教背景的表達時，AI雖然能夠生成語法正確的回答，但可能不夠符合阿拉伯社會的表達習慣。這種差異就像翻譯軟件能把意思翻譯出來，但可能缺少native speaker的地道感覺。

人工評估還驗證了AI在安全性方面的表現(xiàn)確實值得信賴。專家審查了那些被AI拒絕回答的問題，確認這些拒絕都是合理和必要的。同時也檢查了AI給出回答的問題，確認這些回答沒有包含不當內(nèi)容或潛在風險。

八、研究意義與實際應(yīng)用價值

這項研究的價值不僅在于對ALLaM-34B性能的全面評估，更在于為阿拉伯語AI的發(fā)展提供了重要的參考基準。在AI技術(shù)日新月異的今天，大部分評測還是以英語為中心，專門針對阿拉伯語的深度評測相對稀少。

研究結(jié)果顯示ALLaM-34B在實際應(yīng)用中具備了相當?shù)目煽啃?。對于需要阿拉伯語AI服務(wù)的機構(gòu)和個人來說，這個模型能夠勝任大部分日常任務(wù)，特別是在正式文檔處理、創(chuàng)意寫作和多語言交流方面表現(xiàn)出色。

安全性測試的良好結(jié)果也為實際部署提供了信心保障。在當今AI安全備受關(guān)注的環(huán)境下，ALLaM-34B展現(xiàn)出的安全意識和防護能力讓它具備了在敏感環(huán)境中應(yīng)用的潛力。

不過，研究也明確指出了改進方向。方言支持的不均衡提醒開發(fā)者需要更多樣化的訓練數(shù)據(jù)，特別是那些代表性不足的方言區(qū)域。文化適宜性的問題則提示需要更深入的文化敏感性訓練，讓AI不僅能說阿拉伯語，更能"像阿拉伯人一樣思考"。

研究方法本身也具有重要的借鑒價值。通過用戶界面進行評測的方式更貼近真實使用場景，比純粹的API測試更能反映用戶的實際體驗。多輪測試和多維度評分的設(shè)計也為其他語言模型的評測提供了可參考的框架。

歸根結(jié)底，這項研究證明了專門為特定語言和文化定制的AI模型確實能夠取得更好的效果。ALLaM-34B雖然還不夠完美，但已經(jīng)在阿拉伯語AI領(lǐng)域邁出了重要一步。它不僅是一個技術(shù)產(chǎn)品，更是連接阿拉伯文化與現(xiàn)代AI技術(shù)的橋梁。對于整個阿拉伯語社區(qū)來說，有了這樣一個"懂自己"的AI助手，無疑是一個振奮人心的進步。

研究團隊最后也坦承了這項研究的局限性——依賴聊天界面、相對較小的測試集以及AI評委的使用都可能影響結(jié)果的全面性。但正如作者所言，這些結(jié)果為ALLaM-34B作為文化導向型阿拉伯語AI模型的有效性提供了有力證據(jù)。未來的工作將需要擴大方言覆蓋范圍，整合更多人工評估，并測試后續(xù)版本，目標是推進可信、穩(wěn)健且文化契合的阿拉伯語AI系統(tǒng)發(fā)展。

Q&A

Q1：ALLaM-34B阿拉伯語AI模型在哪些方面表現(xiàn)最好？

A：ALLaM-34B在代碼轉(zhuǎn)換和創(chuàng)意生成方面表現(xiàn)最優(yōu)秀，兩項得分都達到4.92分（滿分5分）。代碼轉(zhuǎn)換是指在阿拉伯語和英語之間自由切換的能力，創(chuàng)意生成包括寫作正式信件和散文等。此外，它在現(xiàn)代標準阿拉伯語處理（4.74分）和知識問答（4.77分）方面也表現(xiàn)出色，安全性測試平均得分4.54分，顯示出良好的安全防護能力。

Q2：為什么ALLaM-34B處理不同阿拉伯語方言的效果差別這么大？

A：這主要是因為訓練數(shù)據(jù)的覆蓋不均衡。納季德、漢志和埃及方言得分在3.7-3.8之間，而黎凡特方言只有2.73分，摩洛哥方言2.7分。納季德和漢志是沙特本土方言，埃及方言因影視作品影響力大，所以在訓練數(shù)據(jù)中代表性更強。AI雖然能理解各種方言，但回答時經(jīng)常切換到標準阿拉伯語，丟失了方言的地域特色和親切感。

Q3：普通用戶可以通過什么渠道使用ALLaM-34B模型？

A：目前用戶可以通過HUMAIN Chat網(wǎng)頁服務(wù)（https://chat.humain.ai/en）來體驗ALLaM-34B模型。這是一個封閉式的對話服務(wù)，只能通過用戶界面使用，沒有公開的API接口或模型權(quán)重下載。研究顯示該服務(wù)響應(yīng)速度很快（1-3秒），適合實時交互使用，但用戶無法調(diào)整溫度、top-p等技術(shù)參數(shù)。

[責編：{getone name="zzc/mingzi"/}]

閱讀剩余全文（）

伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

全部導航

沙特AI局ALLaM-34B：實現(xiàn)地道阿拉伯語生成