當(dāng)前位置：當(dāng)前位置：首頁>平頂山>剛剛！阿里發(fā)新模型，幻覺率爆降70%正文

剛剛！阿里發(fā)新模型，幻覺率爆降70%

作者:youzhiboban　來源:平頂山　瀏覽:　【大 中 小】　發(fā)布時間:2025-09-16評論數(shù):

智東西作者陳駿達(dá)編輯李水青

智東西9月15日報道，今天，阿里巴巴通義實驗室推出了FunAudio-ASR端到端語音識別大模型。這款模型通過創(chuàng)新的Context模塊，針對性優(yōu)化了“幻覺”、“串語種”等關(guān)鍵問題，在高噪聲的場景下，幻覺率從78.5%下降至10.7%，下降幅度接近70%。

FunAudio-ASR使用了數(shù)千萬小時的音頻數(shù)據(jù)，融合了大語言模型的語義理解能力，從而提升語音識別的上下文一致性與跨語言切換能力。

通義實驗室打造了5大類測試集，重點關(guān)注語音識別在遠(yuǎn)場、嘈雜背景等挑戰(zhàn)性場景下的表現(xiàn)，并結(jié)合開源測試集評估了模型的性能。FunAudio-ASR實現(xiàn)了超越Seed-ASR、KimiAudio-8B等業(yè)內(nèi)知名模型的表現(xiàn)。

同時，F(xiàn)unAudio-ASR在實際落地方面也進(jìn)行了全面優(yōu)化，支持低延遲流式識別、跨中英文自然切換以及用戶可自定義的熱詞識別，能夠覆蓋視頻會議、實時字幕、智能終端等多樣化應(yīng)用場景。

FunAudio-ASR提供兩個版本，滿血版由0.7B參數(shù)量的編碼器和7B參數(shù)量的大語言模型組成，追求最高精度；輕量的nano版本由0.2B參數(shù)量的編碼器和0.6B參數(shù)量的大語言模型，平衡效率與精度。目前，F(xiàn)unAudio-ASR已在釘釘?shù)摹癆I聽記”、視頻會議、DingTalk A1硬件等多個場景中應(yīng)用。

FunAudio-ASR已上線阿里云百煉平臺，API定價為0.00022元/秒，轉(zhuǎn)錄一段一小時的音頻大約需要8毛錢。這款模型的技術(shù)報告已經(jīng)發(fā)布，開發(fā)者也可在魔搭社區(qū)體驗其效果。

魔搭社區(qū)體驗：

https://modelscope.cn/studios/iic/FunAudio-ASR

阿里云百煉平臺：

https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1

技術(shù)報告：

https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf

一、幻覺、串語種問題獲針對性優(yōu)化，一手體驗高噪聲環(huán)境識別效果

相比于文本大模型，語音大模型的“幻覺”問題尤為突出。這是因為聲學(xué)特征與文本特征在向量空間上天然存在差異，導(dǎo)致模型在“聽”完音頻后，容易“腦補”出大量不存在的內(nèi)容。

盡管通過訓(xùn)練，可以將將聲學(xué)特征對齊到文本特征空間，但聲學(xué)特征Embedding與真實的文本Embedding仍然存在這一定的差距，這會導(dǎo)致大語言模型在生成文本時發(fā)生幻覺的現(xiàn)象。

▲聲學(xué)特征Embedding與真實的文本Embedding分布差異（圖片來源：https://arxiv.org/pdf/2410.18908）

通義實驗室發(fā)現(xiàn)，給語音大模提供必要的上下文，可以減少文本生產(chǎn)時候的幻覺現(xiàn)象。為此，他們設(shè)計了Context增強模塊：該模塊通過CTC解碼器快速生成第一遍解碼文本，并將該結(jié)果作為上下文信息輸入大語言模型，輔助其理解音頻內(nèi)容。

由于CTC結(jié)構(gòu)輕量且為非自回歸模型，幾乎不增加額外推理耗時。

例如，對于這段由AI生成、模仿海盜說話風(fēng)格的音頻，F(xiàn)unAudio-ASR做到了一字不差的識別。

（待插入）

此外，通義實驗室還觀察到幻覺問題在高噪聲場景中更易發(fā)生，因此在訓(xùn)練數(shù)據(jù)中加入了大量仿真數(shù)據(jù)。

為評估模型在高噪聲情況下的表現(xiàn)，他們構(gòu)建了一個包含28條易觸發(fā)幻覺音頻的測試集，經(jīng)優(yōu)化后，幻覺率從78.5%下降至10.7%。

智東西在實測中體驗了FunAudio-ASR在嘈雜場景的識別能力。這段音頻是在嘈雜的展會現(xiàn)場錄制的?？梢月牭?，模型基本準(zhǔn)確識別了片段中男性說話者的聲音，但在聲音音量驟降后識別錯誤了。

（待插入）

同時，這段音頻中有兩位說話者，F(xiàn)unAudio-ASR在識別兩人同時說話的部分時，遺漏了一些信息。

與OpenAI Whisper Large V3的識別結(jié)果對比，F(xiàn)unAudio-ASR識別出了更多正確的信息。

“串語種”是語音大模型落地中的另一類典型問題，例如，輸入音頻內(nèi)容為英文，模型輸出卻為中文文本。

這是因為文本大模型本身具備翻譯能力，在聲學(xué)特征映射不夠精確時，模型可能在推理過程中“自動啟動”翻譯功能，從而影響語音識別的準(zhǔn)確性。

在FunAudio-ASR的Context增強模塊中，CTC解碼器經(jīng)過高質(zhì)量數(shù)據(jù)訓(xùn)練，本身發(fā)生串語種的概率極低。通過將CTC的第一遍解碼結(jié)果作為提示詞輸入給大語言模型，可有效引導(dǎo)模型聚焦于語音識別任務(wù)，緩解“翻譯”行為的發(fā)生。

二、支持術(shù)語定制化識別，召回率提升明顯

在企業(yè)運用語音識別模型時，個性化定制是必不可少的技術(shù)。所謂定制化，是指在識別過程中對特定詞/短語（如人名、地名、品牌、專業(yè)術(shù)語等）施加額外概率偏好，從而顯著提高它們的識別召回率，同時盡量不損傷通用識別準(zhǔn)確率。

當(dāng)前行業(yè)的主流做法是將用戶提供的領(lǐng)域詞，直接作為提示詞輸入大語言模型。該方法雖簡單有效，但隨著詞量增加，干擾也隨之上升，導(dǎo)致召回率下降——即“定制化能力衰減”。

為緩解這一問題，通義實驗室在Context增強結(jié)構(gòu)中引入RAG（檢索增強生成）機制，這一機制的運作方式如下：

（1）構(gòu)建知識庫：將用戶配置的定制詞構(gòu)建成專屬RAG庫；

（2）動態(tài)檢索：依據(jù)CTC第一遍解碼結(jié)果，從RAG庫中抽取相關(guān)詞匯；

（3）精準(zhǔn)注入：僅將相關(guān)詞匯注入大語言模型的提示詞中，避免無關(guān)信息干擾。

該方案在不增加推理復(fù)雜度的前提下，將定制化上文數(shù)量擴(kuò)充到上千個以上，并且保持較高的定制化識別效果。

為驗證模型的定制化效果，通義實驗室在微積分學(xué)、有機化學(xué)、物理學(xué)、哲學(xué)、人名等5個領(lǐng)域，選取了1000個專業(yè)詞匯進(jìn)行測試。FunAudio-ASR在關(guān)鍵詞準(zhǔn)確率上表現(xiàn)超越了支持同類功能的語音識別模型。

例如，采用FunAudio-ASR模型的釘釘“AI聽記”，擁有對互聯(lián)網(wǎng)、科技、家裝、畜牧、汽車等10+領(lǐng)域、200+細(xì)分行業(yè)術(shù)語的識別能力，并支持在企業(yè)授權(quán)前提下，結(jié)合通訊錄、日程等上下文信息進(jìn)行推理優(yōu)化，進(jìn)一步提升結(jié)果可靠性。

三、預(yù)訓(xùn)練使用數(shù)千萬小時數(shù)據(jù)，僅用8張A100完成強化學(xué)習(xí)

技術(shù)報告中，通義實驗室闡述了FunAudio-ASR的技術(shù)細(xì)節(jié)。這一模型包含四個核心組件：

（1）音頻編碼器（Audio Encoder）：提取語音特征，使用多層Transformer Encoder。

（2）音頻適配器（Audio Adaptor）：連接編碼器和LLM，使用兩層Transformer Encoder。

（3）CTC解碼器：用于初步識別假設(shè)，支持熱詞定制。

（4）基于大語言模型的解碼器：結(jié)合音頻特征和CTC預(yù)測生成最終輸出。

▲FunAudio-ASR模型架構(gòu)

預(yù)訓(xùn)練階段，F(xiàn)unAudio-ASR使用了數(shù)千萬小時的音頻數(shù)據(jù)，包括無標(biāo)注音頻和有標(biāo)注的音頻-文本數(shù)據(jù)，數(shù)據(jù)涵蓋AI、生物、電商、教育等多個領(lǐng)域。

預(yù)訓(xùn)練分為自監(jiān)督預(yù)訓(xùn)練和有監(jiān)督預(yù)訓(xùn)練。在自監(jiān)督階段，F(xiàn)unAudio-ASR創(chuàng)新地使用Qwen3的權(quán)重初始化編碼器，加速收斂并提升表示質(zhì)量。

有監(jiān)督預(yù)訓(xùn)練則在編碼器-解碼器架構(gòu)（AED）下進(jìn)行，使編碼器能夠從大規(guī)模標(biāo)注數(shù)據(jù)中學(xué)習(xí)更豐富的聲學(xué)-語言特征，為后續(xù)與大語言模型的整合奠定基礎(chǔ)。

▲FunAudio-ASR預(yù)訓(xùn)練管線

在此基礎(chǔ)上，F(xiàn)unAudio-ASR進(jìn)入有監(jiān)督微調(diào)（SFT）階段，該階段進(jìn)一步分為五個子階段，逐步優(yōu)化不同模塊：

（1）訓(xùn)練適配器以對齊音頻表示與大語言模型的語義空間；

（2）優(yōu)化編碼器和適配器；

（3）使用LoRA微調(diào)大語言模型以防止災(zāi)難性遺忘；

（4）全參數(shù)微調(diào)階段；

（5）引入CTC解碼器用于后續(xù)的熱詞檢索與增強生成（RAG）。

整個SFT過程使用了數(shù)百萬小時的多源數(shù)據(jù)，包括人工標(biāo)注語料、偽標(biāo)注數(shù)據(jù)、合成語音和噪聲增強數(shù)據(jù)等，確保了模型在多樣化場景下的泛化能力。

為了進(jìn)一步提升模型對長音頻和上下文信息的理解能力，團(tuán)隊還構(gòu)建了超過5萬小時的上下文增強訓(xùn)練數(shù)據(jù)。

通過提取關(guān)鍵詞、合成相關(guān)上下文并混合無關(guān)語境，模型學(xué)會了在保持高識別精度的同時，有效利用對話歷史信息，顯著提升了在復(fù)雜語境下的表現(xiàn)。

在強化學(xué)習(xí)（RL）階段，團(tuán)隊提出了專為音頻-語言模型設(shè)計的FunRL框架，支持多模塊高效協(xié)同訓(xùn)練。

▲FunRL框架

該框架采用GRPO算法，并設(shè)計了多目標(biāo)獎勵函數(shù)，綜合優(yōu)化識別準(zhǔn)確率、關(guān)鍵詞召回、幻覺抑制和語言一致性。模型僅使用8張A100顯卡，在一天內(nèi)完成RL訓(xùn)練。

RL訓(xùn)練數(shù)據(jù)涵蓋硬樣本、長音頻、幻覺樣本、關(guān)鍵詞樣本和常規(guī)ASR數(shù)據(jù)，顯著提升了模型在困難場景下的魯棒性和用戶體驗。

最后，F(xiàn)unAudio-ASR還針對實際應(yīng)用需求進(jìn)行了全面優(yōu)化，包括流式識別支持、噪聲魯棒性增強、中英代碼切換處理、熱詞定制和幻覺抑制等。

結(jié)語：生成式AI賦能新一代ASR系統(tǒng)，或成智能交互重要入口

基于生成式AI的新一代語音識別模型，正在從“能聽清”走向“能理解”，并在幻覺抑制、跨語種識別、上下文一致性等關(guān)鍵問題上展現(xiàn)出進(jìn)展。

與傳統(tǒng)以聲學(xué)建模與統(tǒng)計學(xué)習(xí)為主的語音識別系統(tǒng)相比，這類模型不僅具備更強的語義理解與任務(wù)適配能力，還能在復(fù)雜噪聲、多說話人、跨領(lǐng)域等場景中保持更高的魯棒性和可控性?？梢灶A(yù)見，未來語音識別有望告別單純的“輸入工具”，成為終端智能交互的重要入口。