伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 點擊右上角微信好友

    朋友圈

    請使用瀏覽器分享功能進行分享

    正在閱讀:新開源文本轉(zhuǎn)語音模型IndexTTS-2.0標志零樣本TTS進入雙維度時代
    首頁>時政頻道>要聞>正文

    新開源文本轉(zhuǎn)語音模型IndexTTS-2.0標志零樣本TTS進入雙維度時代

    來源:{getone name="zzc/xinwenwang"/}2025-09-19 02:01:18

    最近在 B 站上,你是否也刷到過一些 “魔性” 又神奇的 AI 視頻?比如英文版《甄嬛傳》、坦克飛天、曹操大戰(zhàn)孫悟空…… 這些作品不僅完美復(fù)現(xiàn)了原角色的音色,連情感和韻律都做到了高度還原!更讓人驚訝的是,它們居然全都是靠 AI 生成的!

    據(jù)悉,這些視頻都是運用了嗶哩嗶哩 Index 團隊最新開源的文本轉(zhuǎn)語音模型 IndexTTS-2.0, 這一模型從 demo 發(fā)布起,就在海內(nèi)外社區(qū)引發(fā)了不少的關(guān)注。目前該工作在 Github 已超過 10k stars 。

    論文標題:IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech論文鏈接:https://arxiv.org/abs/2506.21619github 鏈接:https://github.com/index-tts/index-tts魔搭體驗頁:https://modelscope.cn/studios/IndexTeam/IndexTTS-2-DemoHuggingFace 體驗頁:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo官宣視頻:https://www.bilibili.com/video/BV136a9zqEk5/

    近年來,大規(guī)模文本轉(zhuǎn)語音(Text-to-Speech, TTS)模型在自然度和表現(xiàn)力上取得了顯著進展,但如何讓語音「在韻律自然的同時,又能嚴格對齊時長」仍是懸而未決的難題。傳統(tǒng)自回歸(Autoregressive, AR)模型雖然在韻律自然性和風(fēng)格遷移上占優(yōu),卻難以做到精準時長控制;而非自回歸(Non-Autoregressive, NAR)方法雖能輕松操縱時長,卻往往犧牲了語音的自然感和情緒表現(xiàn)力。如何在保留 AR 模型優(yōu)勢的同時,突破其核心限制,成為了前沿挑戰(zhàn)。

    來自嗶哩嗶哩的 IndexTTS 團隊創(chuàng)新性地提出了一種通用于 AR 系統(tǒng)的 “時間編碼” 機制,首次解決了傳統(tǒng) AR 模型難以精確控制語音時長的問題。這一新穎的架構(gòu)設(shè)計不僅解決了時長控制問題,更引入了音色與情感的解耦建模,實現(xiàn)了前所未有的情感表現(xiàn)力和靈活控制,在多個指標上全面超越現(xiàn)有 SOTA 系統(tǒng)。

    研究方法

    IndexTTS2 由三個核心模塊組成:Text-to-Semantic(T2S) 、Semantic-to-Mel(S2M) 以及 BigVGANv2 聲碼器。首先,T2S 模塊基于輸入的源文本、風(fēng)格提示、音色提示以及一個可選的目標語音 token 數(shù),生成對應(yīng)的語義 token 序列。然后,S2M 模塊以語義 token 和音色提示作為輸入,進一步預(yù)測出梅爾頻譜圖。最后,BigVGANv2 聲碼器將梅爾頻譜圖轉(zhuǎn)換為高質(zhì)量的語音波形,完成端到端的語音合成過程。

    IndexTTS2 可以在零樣本條件下生成自然流暢的多情感、跨語言語音。它還支持在自回歸框架下精確控制語音時長,讓合成既可控又不失自然。同時具備工業(yè)級性能,既適合研究探索,也能直接應(yīng)用到實際場景中。

    1、基于 AR 架構(gòu)的時長控制

    在 IndexTTS2 中,針對自回歸 (AR) TTS 難以精確控制語音時長的問題,提出了基于 token 數(shù)量約束 的解決方案。核心思路是:在生成時可以指定所需的語義 token 數(shù),模型通過一個專門的時長 embedding 將這個信息注入到 Text-to-Semantic 模塊,通過對合成 token 的數(shù)量強約束來實現(xiàn)生成語音時長控制。訓(xùn)練階段隨機引入不同比例的信號層時長縮放 (如 0.75×、1.25×) 任務(wù),使模型可以學(xué)會在各種長度要求下仍然保持語義連貫和情感自然。

    實驗表明,這種方法在不同語言(中 / 英)上的 token-number error rate 非常低,即模型幾乎能嚴格按照指定的 token 數(shù)量生成語音,同時在合成質(zhì)量、情感保真度和自然度上保持較好表現(xiàn)。換句話說,IndexTTS2 實現(xiàn)了在 AR 模型中罕見的高精度時長控制,使其既能保持逐幀生成帶來的細膩表達,又能滿足視頻配音、音畫同步等對時長嚴格敏感的場景需求。

    2、多模態(tài)的情緒控制

    IndexTTS2 對情感表達和說話人身份進行了有效解耦。模型不僅支持從單一參考音頻中復(fù)刻音色與情感,還支持分別指定獨立的音色參考和情感參考。這意味著用戶可以用一個人的音色,說出另一個人的情感,極大地提升了控制的靈活性。

    為了降低使用門檻,模型集成了兩種情感控制方式。除了通過音頻參考進行情感遷移,還引入了基于自然語言描述的情感軟指令機制。通過微調(diào)大型語言模型(LLM),用戶可以使用文本(如自然語言描述、場景描述)來精確引導(dǎo)生成語音的情緒色彩。

    3、S2M 模塊

    為了提升在高強度情感(如哭腔、怒吼)下的語音清晰度,模型引入了 GPT 式潛在表征,并采用基于流匹配(Flow Matching)的 S2M 模塊,顯著增強了語音生成的魯棒性和梅爾頻譜圖的重建質(zhì)量。

    研究結(jié)果

    1、時長控制的準確性

    IndexTTS2 在時長控制方面展現(xiàn)了極高的精確度。在對原始語音時長進行 0.75 倍至 1.25 倍的變速測試中,生成語音的 Token 數(shù)量誤差率幾乎不超過 0.03%,在多數(shù)情況下低于 0.02%,證明其時長控制能力精準可靠。

    Table 1:不同設(shè)置下對持續(xù)時長控制的 token 數(shù)錯誤率

    2、情感表現(xiàn)力

    在情感表現(xiàn)力測試中,IndexTTS2 顯著優(yōu)于其他 SOTA 模型。其情感相似度(ES)高達 0.887,情感 MOS(EMOS)評分達到 4.22,合成的語音情緒飽滿、渲染自然,同時保持了極低的詞錯誤率(WER, 1.883%),實現(xiàn)了表現(xiàn)力與清晰度的完美結(jié)合。

    Table 2:在情感測試集上的結(jié)果

    3、零樣本語音合成能力

    在多個公開基準測試集(如 LibriSpeech, SeedTTS)上,IndexTTS2 在客觀指標(詞錯誤率 WER、說話人相似度 SS)和主觀 MOS 評分(音色、韻律、質(zhì)量)上均達到或超越了當前最先進的開源模型,包括 MaskGCT, F5-TTS, CosyVoice2 等,展現(xiàn)了其強大的基礎(chǔ)合成能力和魯棒性。

    Table 3:在公開測試集上的結(jié)果

    4、消融實驗驗證

    實驗證明,模型中的 GPT 潛在特征對于保證語音清晰度和發(fā)音準確性至關(guān)重要;而基于流匹配的 S2M 模塊相比于傳統(tǒng)的離散聲學(xué) Token 方案,極大地提升了合成語音的保真度和自然度。

    生成效果

    語速控制:支持自定義輸入合成時長,精準控制語速

    音色克?。和瑫r參考音色和情緒韻律,實現(xiàn)語音特征的高度還原

    合成文本:你就需要我這種專業(yè)人士的幫助,就像手無縛雞之力的人進入雪山狩獵,一定需要最老練的獵人指導(dǎo)

    多元化的情緒輸入:提供獨立的情感參考音頻、情感向量或文本描述等多種方式,顯著提升生成語音的表現(xiàn)力與適用性

    獨立參考音頻控制:

    合成文本:你看看你,對我還有沒有一點父子之間的信任了。

    情緒向量控制:提供高興、生氣、悲傷、恐懼、討厭、低落、驚喜、平靜 8 種情緒向量,支持自由調(diào)整情緒權(quán)重,并提供隨機采樣

    情緒向量 - 驚喜 0.45

    合成文本:哇塞!這個爆率也太高了!歐皇附體了!

    描述文本控制:還支持通過自然語言描述來判斷情緒

    情緒文本 - You scared me to death! What are you, a ghost?

    文本:快躲起來!是他要來了!他要來抓我們了!

    跨語種:支持中英文雙語

    合成文本:Translate for me,what is a surprise!

    該模型憑借高質(zhì)量的情感還原與精準的時長控制,廣泛提升了 AI 配音、視頻翻譯、有聲讀物、動態(tài)漫畫、語音對話等系列下游場景的可用性,尤其值得關(guān)注的是,IndexTTS-2.0 為 B 站優(yōu)質(zhì)內(nèi)容的出海提供了關(guān)鍵技術(shù)支持,在充分保留原聲風(fēng)格與情感特質(zhì)的基礎(chǔ)上,讓海外用戶享受更加自然、沉浸的聽覺感受。這一技術(shù)突破不僅極大降低了高質(zhì)量內(nèi)容跨語言傳播的門檻,也為 AIGC 技術(shù)在全球范圍內(nèi)的實際應(yīng)用奠定了堅實基礎(chǔ),堪稱零樣本 TTS 技術(shù)邁向?qū)嵱没A段的重要里程碑。

    總結(jié)

    IndexTTS2 的提出標志著零樣本 TTS 進入「情感可控 + 時長精確」的雙維度時代。它不僅大幅提升了 AI 配音、視頻翻譯等多種下游場景的可用性,同時,也為未來語音合成技術(shù)的發(fā)展指明了重要方向:如何在 AR 框架下實現(xiàn)對情感、語調(diào)等更復(fù)雜語音特征的細粒度控制,并持續(xù)優(yōu)化模型性能,為更廣泛的交互式應(yīng)用提供支持。

    研究團隊現(xiàn)已開放模型權(quán)重與代碼,這意味著更多開發(fā)者和研究人員能夠基于 IndexTTS2 構(gòu)建個性化、沉浸式的語音交互應(yīng)用。

    作者介紹:

    本論文主要作者來自嗶哩嗶哩Index 語音團隊(Bilibili IndexTTS),Index語音團隊是一支專注于音頻技術(shù)創(chuàng)新的研究團隊,致力于音頻生成、語音合成與音樂技術(shù)的前沿探索,重點研究高保真、自然真實、可控性強的語音生成模型。團隊推出的全新一代 zero-shot TTS 自回歸大模型 IndexTTS2,具備出色的情感表現(xiàn)力,支持音色與情感的自由組合,并創(chuàng)新性地設(shè)計了“時長編碼”,實現(xiàn)了模型層面的精準時長控制。團隊通過深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷突破,持續(xù)為學(xué)術(shù)界與工業(yè)界提供高質(zhì)量的語音合成技術(shù)支持與創(chuàng)新方案,助力創(chuàng)作者用聲音打破表達邊界。

    [責(zé)編:{getone name="zzc/mingzi"/}]
    閱讀剩余全文(

    国产色无码专区在线观看| 国产在沙发上午睡被强| 又粗又硬又黄的视频| 综合五月激情二区视频| 日韩最新AV| 国产亚洲欧美精品一区| 日本猛少妇XXXXX猛叫爽| 国产亚洲综合欧美视频| 无码中文字幕人妻干操视频| av毛片无码不卡| 亚洲激情视频| 激情亚洲AV无码日韩| 高潮77777777| 色综合色婷婷| 性高湖久久久久久久久| 亚洲三级网站| 欧美精品亚洲精品日韩精品| 天美传奇mv在线| 日本亚洲欧美| 人人干人人操网| 成人精品免费视频 | 欧洲国产在线精品三区| 无码人妻白浆精品88AV| 国产无遮挡色视频免费观看性色| 人妻交换一区二区三区| 精品一区无马| 久久久久免费看黄A片APP| 亚洲国产精品成人网址| 亚洲av无码国产一区二区三区| 国产一区二区三区九九视频| 新婚人妻不戴套国产精品| 性夜久久一区国产9人妻| 又大又骚www视频| 制服丝袜美腿一区二区| 琪琪视频在线观看| 无码少妇一区二区三区| 人人操人人摸的电影| 成人无码专区免费播放三区| 国产精品久久久久久久久果冻传媒| 国产成人午夜精品影院| 亚洲gay无套网站|