智東西作者 程茜編輯 云鵬
智東西9月5日消息,剛剛,大模型獨角獸月之暗面發(fā)布Kimi K2-0905,目前,Kimi應(yīng)用和網(wǎng)頁版中的K2模型已全量升級到Kimi K2-0905。
該模型的核心升級點為Agentic Coding能力增強、支持256K上下文、API支持高達60-100Token/s的輸出速度、支持Claude Code。
為了測試Kimi K2-0905的性能,智東西對比了其與Kimi K2-0711在生成個人網(wǎng)站上的表現(xiàn)。
提示詞:開發(fā)一個美觀的個人網(wǎng)站,使用Bootstrap作為前端框架,直接輸出相關(guān)代碼。
下圖左上是Kimi K2-0711生成的結(jié)果、左下是Kimi K1.5的生成結(jié)果,右側(cè)均為Kimi K2-0905的結(jié)果。
可以看出,網(wǎng)站整體的美觀度以及整體風(fēng)格的一致性相比前代模型都有了一定提升,且包含的信息更加完善。
▲左上為Kimi K2-0711生成、左下Kimi K1.5生成、中和右為Kimi K2-0905生成
在考察真實軟件工程任務(wù)的基準(zhǔn)測試中,Kimi K2-0905多項表現(xiàn)超過Claude Sonnet 4,其中在用于評估大模型在軟件開發(fā)任務(wù)上能力的SWE-benchVerified、評估模型在實際軟件開發(fā)工程中綜合能力的SWE-Dev表現(xiàn)略遜色于Claude Sonnet 4。
Kimi K2首次發(fā)布是在7月11日,該模型總參數(shù)10000億,激活參數(shù)320億。2天前,月之暗面就公開了Kimi K2-0905的一些細節(jié),其基于基礎(chǔ)模型構(gòu)建,增強了編程能力,仍不具備思考或視覺,但保留了頗受歡迎的Kimi K2-0711模型的個性和風(fēng)格。
目前,Kimi開放平臺已上架kimi-k2-0905-preview模型API,且定價與上一代一致,計費方案為每百萬輸入tokens/4元,每百萬輸出tokens/16元。
月之暗面的官宣文章中提到,目前,AI編程工具Cursor、Windsurf、Trae、Cline、RooCode、Kilo Code等已內(nèi)置或接入了Kimi K2模型,國內(nèi)外云服務(wù)廠商均部署了Kimi K2模型。
論文地址:https://arxiv.org/abs/2507.20534
Hugging Face地址:https://huggingface.co/moonshotai/Kimi-K2-Instruct-0905
GitHub地址:https://github.com/moonshotai/kimi-K2
一、真實軟件工程任務(wù)能力升級,多項測試超Claude
Kimi K2-0905具體能力提升主要有以下四點:
Agentic Coding能力提升,在公開基準(zhǔn)測試和真實的編程任務(wù)中均展現(xiàn)出更好的性能;
前端編程體驗升級:提升了前端代碼的美觀度和實用性;
擴展上下文長度:從128K升級到256K,為復(fù)雜長線任務(wù)提供更好的支持;
提供高速版API:支持高達60-100Token/s的輸出速度。
在側(cè)重考察真實軟件工程任務(wù)的SWE-bench Verified等基準(zhǔn)測試,新版Kimi K2模型的表現(xiàn)如下:
Kimi開放平臺已上架kimi-k2-0905-preview模型API:
上下文升級到256K;Token Enforcer保證toolcall 100%格式正確;完全兼容Anthropic API、支持WebSearch Tool,提供更好的K2+Claude Code使用體驗;支持全自動Context Caching,有助于節(jié)省Input Token;定價與之前的0711版相同;速度達60-100 Token/s的高速版API(kimi-k2-turbo-preview)已同步升級新模型。
二、拆解需求、規(guī)劃步驟、實戰(zhàn)演練都能應(yīng)對
智東西還考察了Kimi K2-0905拆解需求、規(guī)劃步驟、代碼落地的能力。
提示詞:寫一個工具,輸入一段英文文本(可能包含標(biāo)點、大小寫、空格),輸出以下統(tǒng)計結(jié)果:①總單詞數(shù)(忽略標(biāo)點,大小寫視為同一單詞,如Hello和hello算一個);②出現(xiàn)頻率最高的3個單詞及頻次(若頻次相同,按字母序排序);③文本中最長的句子(以. ! ?為句末標(biāo)志,若多個最長句,輸出第一個)。
這一工具拆分了統(tǒng)計總單詞數(shù)、頻率最高3個單詞、最長句子的需求。
第二個是在具體的圖書館場景中,智東西要求其開發(fā)一個簡易的圖書館借閱管理系統(tǒng)。
提示詞為:設(shè)計一個圖書館借閱系統(tǒng)的核心功能,需支持:①書籍入庫(記錄書籍ID、書名、作者、庫存數(shù)量);②讀者借閱(記錄讀者ID、借閱書籍ID、借閱日期,需判斷書籍是否有庫存);③讀者還書(記錄還書日期,需判斷是否超期,假設(shè)借閱期限為30天,超期按1元/天計算罰款);④查詢功能(按書名查詢書籍庫存,按讀者ID查詢未還書籍及是否超期)。
Kimi K2-0905生成的系統(tǒng)界面中,明確包含了書籍入庫、讀者借閱、讀者還書、查詢庫存、查詢未還書籍的模塊。
值得注意的是,智能文本統(tǒng)計工具和圖書館借閱系統(tǒng)生成整體風(fēng)格相似,均為藍白配色。
結(jié)語:AI編程或應(yīng)對復(fù)雜編程挑戰(zhàn)
當(dāng)下,越來越多的開發(fā)者使用AI工具更高效便捷編寫代碼,具體用例包括自動補全代碼行、修復(fù)代碼錯誤和測試代碼等。
Kimi K2在Agentic Coding能力方面的提升,意味著其模型在面對復(fù)雜編程任務(wù)時,能夠更高效、自主地理解需求、規(guī)劃步驟并生成高質(zhì)量代碼,以應(yīng)對更多真實編程場景中。