今天,上海通用人工智能企業(yè)MiniMax發(fā)布的一段視頻引起眾多網(wǎng)民關(guān)注,這段視頻的畫(huà)面均由“海螺”視頻大模型生成,音樂(lè)均由Music 1.5大模型生成。黑人歌手的動(dòng)情吟唱、薩克斯管的悠揚(yáng)樂(lè)音、架子鼓的激情敲打……Music 1.5生成的音樂(lè)頗有感染力,且時(shí)長(zhǎng)達(dá)到4分鐘,較上一代音樂(lè)生成大模型有了長(zhǎng)足進(jìn)步。
MiniMax研發(fā)團(tuán)隊(duì)介紹,新一代音樂(lè)生成大模型實(shí)現(xiàn)了四個(gè)方面的突破。首先是歌曲控制力的提升。Music 1.5支持長(zhǎng)達(dá)4分鐘的音樂(lè)創(chuàng)作,出品即成品,不再僅是demo小樣。在簡(jiǎn)單模式下,用戶只需輸入幾個(gè)關(guān)鍵詞或一句自然語(yǔ)言描述,它就能生成完成度很高的歌曲作品。在高級(jí)模式下,用戶可通過(guò)“16種風(fēng)格×11種情緒×10個(gè)場(chǎng)景”自定義音樂(lè)特征,對(duì)歌曲的前奏、主歌、副歌等不同段落進(jìn)行歌詞編排,豐富用戶的創(chuàng)作體驗(yàn)。
例如,用戶輸入“溫柔女聲嘻哈唱首流行歌曲”這樣的簡(jiǎn)單描述,一首大模型填詞、作曲的女聲作品《甜甜圈》很快問(wèn)世。輸入一首創(chuàng)作好的完整歌詞,選中“爵士、浪漫、深夜酒吧”等關(guān)鍵詞,一首動(dòng)聽(tīng)的爵士樂(lè)《回眸》就創(chuàng)作完成了。
新一代音樂(lè)生成大模型的第二個(gè)突破是人聲自然飽滿。它能對(duì)人聲唱腔和發(fā)音技巧進(jìn)行深度建模,生成不同聲線、唱腔的音色。與同類(lèi)產(chǎn)品相比,Music 1.5生成的聲音更具通透感和真實(shí)感,轉(zhuǎn)音順暢無(wú)斷層,讓歌曲的情感表現(xiàn)力更為豐富。這一技術(shù)突破,解決了過(guò)去人工智能生成音樂(lè)中人聲機(jī)械化、缺乏情感表達(dá)的問(wèn)題。
Music 1.5大模型的界面
第三個(gè)突破是樂(lè)器層次豐富的編曲能力。模型對(duì)樂(lè)器進(jìn)行細(xì)粒度建模,使樂(lè)器層次清晰、演奏技巧富于變化。值得一提的是,Music 1.5還支持中國(guó)民族樂(lè)器的生成,這為傳統(tǒng)文化與人工智能技術(shù)的結(jié)合提供了新的可能性。
第四個(gè)突破是歌曲結(jié)構(gòu)的完整性。好的結(jié)構(gòu)能讓一首歌的情感表達(dá)層層遞進(jìn),而過(guò)去音樂(lè)模型生成的作品,段落與段落之間的界限往往并不明顯。Music 1.5真正實(shí)現(xiàn)了前奏、主歌、副歌之間的明顯區(qū)別,副歌爆點(diǎn)明顯,尾奏收束自然,能帶來(lái)”敘事級(jí)”聽(tīng)覺(jué)體驗(yàn)。
研發(fā)團(tuán)隊(duì)介紹,這些突破源于公司在文本、語(yǔ)音、視覺(jué)等多模態(tài)領(lǐng)域的技術(shù)積累。今年6月,MiniMax發(fā)布的視頻生成模型Hailuo 02獲得廣泛關(guān)注,它采用NCR(噪聲感知計(jì)算重分配)架構(gòu),實(shí)現(xiàn)了1080p原生生成能力。這家企業(yè)研發(fā)的語(yǔ)音生成大模型Speech 2.5也刷新了語(yǔ)音大模型的性能上限。借助文本大模型的能力,Music 1.5對(duì)文本描述有很強(qiáng)的理解力和控制力,不僅可以對(duì)歌曲風(fēng)格、情感色彩和適用場(chǎng)景進(jìn)行整體控制,還能對(duì)人聲特征進(jìn)行細(xì)粒度控制,生成不同聲線特質(zhì)的人聲音色。
隨著Music 1.5的發(fā)布,“一人即樂(lè)隊(duì)”已成為現(xiàn)實(shí)。在專(zhuān)業(yè)音樂(lè)創(chuàng)作領(lǐng)域,它可以通過(guò)人工智能輔助激發(fā)音樂(lè)人的創(chuàng)作靈感;在影視、游戲、短視頻等內(nèi)容產(chǎn)業(yè),它可以快速定制背景音樂(lè);在數(shù)字娛樂(lè)產(chǎn)業(yè),它能為用戶量身打造單曲和MV(音樂(lè)視頻);在企業(yè)營(yíng)銷(xiāo)領(lǐng)域,它能為品牌生成專(zhuān)屬音頻內(nèi)容。
新一代音樂(lè)生成大模型將大幅降低音樂(lè)創(chuàng)作的門(mén)檻,非專(zhuān)業(yè)人士可以“只是為此刻的心情寫(xiě)一首歌”,從而激發(fā)更多人的音樂(lè)創(chuàng)作熱情。
這款大模型不僅面向個(gè)人用戶,還為全球開(kāi)發(fā)者提供API接口,讓更多開(kāi)發(fā)者通過(guò)API接入構(gòu)建新的音樂(lè)應(yīng)用、工具或創(chuàng)作工作流。
欄目主編:黃海華
來(lái)源:作者:解放日?qǐng)?bào) 俞陶然