發(fā)布時間:2025-09-18 來源:焦金爍石網(wǎng)作者:吧友_85VEWJT9C
音樂創(chuàng)作,也需要新的 AI 生產(chǎn)力。
作者|甘德
編輯|鄭玄
網(wǎng)易云音樂上,一支叫 The Velvet Sundown 的樂隊,沒有頭像,沒有介紹,關(guān)注人數(shù)不到 100 人,但這支樂隊的一首《dust on the wind》卻有著很高的討論度:有聽眾在說這首歌的旋律走向有點過時,更挑剔的耳朵覺得這首歌的人聲和混音一眼難盡,但也有人覺得聽感相當不錯。最熱的一條評論像是這番熱鬧場景的一個注腳——
「前排圍觀 Spotify 最火的 AI 樂隊?!?/p>
單曲《dust on the Wind》播放量迅速突破百萬,成績亮眼。但 The Velvet Sundown 樂隊的歌曲產(chǎn)量、甚至專輯封面、社交媒體都給人一種不真實的感覺,專業(yè)音頻檢測工具 Ircam Amplify 對其歌曲進行分析,結(jié)果顯示 13 首音軌中有 10 首被判定為「100% AI 生成」,并鎖定其背后制作工具為 Suno V4。著名的音樂網(wǎng)站 Deezer 直接在專輯頁標注「AI 生成」警示。
樂隊最終扛不住壓力,悄然更新 Spotify 簡介,承認其為「人類創(chuàng)意引導(dǎo)、AI 技術(shù)支持作曲與視覺的合成項目」,并自稱為「介于人類與機器之間的存在」。
實錘一出,輿論嘩然。爭議之中,也有人看到了事情的另一面。
「當聽眾分不清AI和人類作品卻仍然為之著迷時,AI 音樂的拐點就到了。」電音制作人 David Guetta 曾經(jīng)的觀點在這場風波中頻頻得到回響。
The Velvet Sundown 在 Spotify 上的爆火和被質(zhì)疑,是今年生成式 AI 與音樂領(lǐng)域產(chǎn)生交集的一個標志性事件。
大模型在這兩年里的迅速發(fā)展,似乎也把音樂行業(yè)推向了一個生產(chǎn)力變革的關(guān)鍵階段,中文 AI 音樂當然也在等待著一個關(guān)鍵玩家。
在 The Velvet Sundown 的網(wǎng)易云評論里,也有聽眾留言「相當不錯,中文歌也需要這樣的 AI」。
——并非沒有。比如聽聽這首。
如果這首音樂作品放在你的每日歌單里,它并不會顯得很特別。因為這聽起來就是一首配器、編曲和人聲都還算不錯,融合了爵士和放克元素的普通流行歌。但就是因為它太像一首由音樂人創(chuàng)作出的流行樂,當?shù)弥@首歌是 100% 由 AI 制作的(The Velvet Sundown 一直強調(diào)的也只是 AI「參與」),作為一個自我感覺算是挑剔的普通聽眾,我肅然起敬。
或許我們正處在這個拐點附近了。這首《回眸》背后的原創(chuàng)歌手、演奏團隊、混音師,是 MiniMax 自研的音樂模型 MiniMax Music 1.5。
01
強大的 MiniMax Music 1.5
MiniMax Music 1.5 最突出的特點是,它能支持一首 4 分鐘時長的完整歌曲生成。
與此前多數(shù) AI 音樂生成產(chǎn)品,生成的音樂時長往往局限在 90 秒以內(nèi),MiniMax Music 1.5 將生成歌曲的長度拉長到了 4 分鐘。這意味著 MiniMax Music 1.5 能夠獨立完成具備「引入-主歌-副歌-橋-結(jié)尾」完整結(jié)構(gòu)的音樂作品,而這一點,MiniMax Music 1.5 在輸入框中寫成了 guideline。
基于模型強大的語義理解能力,MiniMax Music 1.5 展現(xiàn)出了出色的曲風宏觀控制、人聲建模以及樂器拓展能力,來幫助創(chuàng)作者刻畫自己的音樂表現(xiàn)方式。
歌曲風格的宏觀控制在音樂特征面板中分成「風格」、「情緒」和「場景」三個維度來進行刻畫。
風格(style)中提供了 16 種曲風選擇,分別是:流行, 民謠, R&B, 嘻哈, 都市, 搖滾, 爵士, 電子, 古典, 迪斯科, 雷鬼, 布魯斯, 鄉(xiāng)村, 實驗, 世界, 民族
情緒(Mood)中包含 11 個選項,可精準定義歌曲情感,如放松、浪漫或是充滿激情,甚至更細膩的渴望、受啟發(fā)等微妙的情緒。
場景(Scenario)是一個頗具創(chuàng)意的功能,用戶可選擇音樂適用的具體場景,如「雨夜」、「海邊落日」、「深夜酒吧」或「孤獨漫步」。系統(tǒng)會據(jù)此調(diào)整混響、節(jié)奏和樂器編排,營造沉浸式氛圍感。一共提供了 10 種場景。
這意味著在音樂特征中一共有 1760(16*11*10)種組合方式,比如我嘗試了一下「布魯斯」、「放松」和「獨自漫步」的搭配??梢愿杏X的出 MiniMax Music 1.5 將三個維度的音樂特征融合的非常自然,整首歌不同部分的過渡也顯得一氣呵成。
在人聲方面,MiniMax Music 1.5 產(chǎn)品的官方介紹中表示,MiniMax Music 1.5 對人聲唱腔發(fā)音技巧進行了建模,幾乎每一次生成的音樂都帶著不同的音色和唱腔。在我多次的音樂生成體驗中,隨著歌詞和音樂風格的變化,人聲也會適時的變化來與音樂風格適配,比如下面這首《Gravity》中流行爵士的男聲:
或者這首偏向民謠男嗓的《長街》:
除此之外,此次 MiniMax Music 1.5 極大地豐富了可生成的樂器音色,甚至可以加入很多中國小眾樂器的聲音元素。
在音樂生成的控制力提升之外,MiniMax Music 1.5 在音樂性上也有了大幅度提升。這主要體現(xiàn)在三個方面:
人聲自然度
編曲層次感
結(jié)構(gòu)動態(tài)化
它十分了解一首入耳的好音樂是在追求什么,比如在人聲自然度上的打磨。
生成不同聲線、唱腔的基礎(chǔ)上,MiniMax Music 1.5 的人聲生成已經(jīng)接近真實的自然度。下面這首《星光 all night》中和聲和主人聲都清晰動人。模型顯然對人聲唱腔、發(fā)音技巧進行了深度建模,生成的 vocal 不僅有清晰準確的咬字,還帶有真實的氣聲、顫音等細節(jié),遠勝此前 AI 生成歌曲中常見的「機械電聲」。
編曲的層次感上,MiniMax Music 1.5 對樂器建模的的細粒度,形成了清晰的樂器層次,豐富的演奏技巧能夠被詮釋出來。也包括歌曲進程中動態(tài)變化的表現(xiàn),歌曲在不同段落(如 Verse 和 Chorus)之間有明顯編排差異,樂器的入場與退出有序,而非簡單循環(huán)。
結(jié)構(gòu)的動態(tài)則是音樂動人的靈魂。一首歌曲的框架通常由前奏(Intro)、主歌(Verse)、副歌(Chorus)、橋段(Bridge)和尾奏(Outro)等部分構(gòu)成。出色的結(jié)構(gòu)設(shè)計能夠使情緒張力層層推進,令人沉浸其中。以往的自動生成音樂中,不同段落之間往往缺乏清晰過渡,聽感連貫卻缺少變化。而 MiniMax Music 1.5 實現(xiàn)了真正意義上的段落區(qū)分:Intro 與 Verse 分明,Chorus 爆發(fā)力強,Outro 收尾流暢自然,最終營造出如敘事般豐富而有層次的聽覺體驗。
比如下面這首,豐富的結(jié)構(gòu)編排讓整首歌非常有畫面感。
在功能設(shè)置上,MiniMax Music 1.5 設(shè)置了簡單模式(Simple)和高級模式(Advanced)兩種模式,簡單模式通過自然語言實現(xiàn)「一句話生全曲」,高級模式可通過插入歌詞段落編輯來豐富全曲結(jié)構(gòu),讓生成更加細膩精巧。
在高級模式的輸入框中,MiniMax Music 1.5 在淺色的 guideline 中標出了引入、主歌、副歌、橋、結(jié)尾這五個結(jié)構(gòu),你可以按照提示把自己的歌詞分成五個部分填寫進去。歌詞的上下文長度達到了 3000 個 tokens,也就是 1500 個漢字。一首《洛神賦》才不到一千字,這個上下文長度的長限遠遠超過了平均一首歌的字數(shù),哪怕你想寫一首林子祥的《十分十二寸》。
整個音樂的創(chuàng)作過程,只需要一篇結(jié)構(gòu)合適的歌詞和一些很輕盈的點擊操作,這實在是非常輕松有趣的過程,特別是對于我這種從未接觸過音樂創(chuàng)作的人來說,簡直愛不釋手。
02
一個更好用的「庫樂隊」
創(chuàng)作出好音樂一定并不輕松,但音樂創(chuàng)作應(yīng)該也可以從一個輕松的事情開始。
近日,AI 音樂生成公司 Suno AI 的首席執(zhí)行官米奇·舒爾曼在一次播客訪談中提出,多數(shù)人并不享受創(chuàng)作音樂的過程,反而認為這是一項耗時且繁瑣的任務(wù)。他指出,音樂創(chuàng)作需要大量時間和練習,掌握樂器或軟件的門檻讓許多人感到沮喪。
米奇·舒爾曼的言論顯然因為有他自己的動機,也自然收獲罵聲一片。一位 X 平臺用戶罵得挺狠:「技術(shù)公司在藝術(shù)領(lǐng)域似乎總是陷入自己的敘事中?!惯€有人說舒爾曼根本不了解音樂創(chuàng)作,同時缺乏足夠的反思精神。
但某種程度,米奇·舒爾曼講的確實不無道理。我——一個只聽歌但不懂樂理知識的人——聽到的第一反應(yīng),是一些很痛苦的經(jīng)歷,關(guān)于手機里那個無用卻又不甘心刪掉的庫樂隊。
我對庫樂隊的感情如此復(fù)雜。
我?guī)缀觞c過了所有的樂器,每一個都動一榔頭西一棒槌的試過,就說吉他吧,六根琴弦倒是清晰可見,但我根本不知道手指該虛擬地「按」在何處。胡亂拖動那些看上去很專業(yè)的和弦圖表,結(jié)果只是一連串沉悶的「噗噗」聲,像在撥弄一根根濕漉漉的橡皮筋。我甚至找到了弦樂選項,試圖制造點恢弘氣氛,手指在屏幕上胡亂揉動,結(jié)果制造出的是一種介于鋸木頭和蚊子哭訴之間的詭異聲響。
更不要說那些效果器旋鈕?!富祉憽?、「延遲」、「失真」……每個詞我都認識,但旋轉(zhuǎn)它們時發(fā)生的變化卻神秘如煉金術(shù)。
最終它沒有降低音樂制作的門檻,只是本就擅長器樂的音樂人有了一個隨時可以簡單錄制 demo 的工具。
所以當我聽到 Suno AI 的 CEO 這樣的狂妄言論,甚至覺得有幾分道理。而當我進一步試了試 Music 1.5,我發(fā)現(xiàn)它天馬行空的創(chuàng)作能力和音樂質(zhì)量,甚至已經(jīng)可以對標 Suno 4。
我摘了幾句讓子彈飛的臺詞輸入 MiniMax Music 1.5,但是生成的時候忘記選擇風格選了自動。臺詞是這樣的:
「我就是想站著,把錢掙了?!?「我來鵝城只辦三件事:公平!公平!還是他媽的公平!」 「其實你和錢對于我都不重要,重要的是『沒有你』對我很重要?!?「如果你活著,早晚都會死;如果你死了,你就永遠活著?!?「一個土匪的名字叫牧之,人們更愿意相信他叫麻子,人們特別愿意相信,他的臉上應(yīng)該長著麻子。」
這臺詞野性十足,神奇的是,MiniMax Music 1.5 自動選擇了非常硬核的說唱曲風。并且由于我提供的臺詞非常短,模型在后半段生成了一段略微失真風格的 loop 來持續(xù)整首歌氛圍感的塑造。這種對歌詞的理解和情緒遞進的把握已經(jīng)處理得非常微妙。
于是我有了一個更得寸進尺的想法,給它一段《羅密歐與朱麗葉》里陽臺上的一段劇本。
這個片段以極致的詩意與熾熱的傾慕,描繪了羅密歐對朱麗葉的瞬間癡迷與靈魂悸動。羅密歐在夜色中窺見朱麗葉,將她比作奪目的「太陽」與「最燦爛的星」,甚至愿化作她手上的手套親近她。他既渴望得到回應(yīng),又怯于唐突驚擾,展現(xiàn)了他內(nèi)心的熱烈與克制。
沒想到,MiniMax Music 1.5 真的體會到了這個片段背后那種近乎神圣的崇拜與青春的純粹激情,和一些內(nèi)心糾結(jié)和猶豫混合的底色,然后選擇了「r&b」、「浪漫」和「私人感」三個特征來表現(xiàn)這種情緒。
David Guetta 的那句話不斷在腦中回響,也許 AI 音樂的拐點真的到了。
03
或許 AI 音樂的拐點真的到了
再遲鈍的聽眾,也會感覺到從去年開始,AI 生成技術(shù)正在越來越頻繁的出現(xiàn)在主流音樂的視野里。
今年 4 月音樂平臺 Deezer 新增上傳內(nèi)容中,AI 生成的音樂占比已高達 18%,爭議和抨擊當然是首先出現(xiàn)的。但另一種逐漸共存的姿態(tài)也出現(xiàn)了。
幾天前瑞典音樂版權(quán)組織 STIM 推出了一項新許可證。該許可證允許人工智能公司合法使用受版權(quán)保護的歌曲來訓(xùn)練其模型。同時,該機制確保詞曲作者和作曲家能夠因此獲得報酬。此舉旨在應(yīng)對生成式 AI 在創(chuàng)意產(chǎn)業(yè)中的廣泛應(yīng)用,及其引發(fā)的版權(quán)訴訟。
就在 STIM 的這項新許可證推出前一個星期,來自英國的音樂創(chuàng)作者 imoliver 與獨立唱片公司 Hallwood Media 簽下合約,成為業(yè)界首位與唱片公司簽約的「AI 音樂人」。imoliver 本職是一名視覺設(shè)計師,完全沒有任何音樂背景,他甚至不太會唱歌。
這讓人想到此前非常出圈的「AI 孫燕姿」。
兩年前「AI 孫燕姿」背后的創(chuàng)作者嘗試把人聲這個音樂呈現(xiàn)中最獨特的環(huán)節(jié)交給 AI,但這其中仍然有非常高的技術(shù)甚至模型部署門檻。兩年后,隨著各個維度的門檻降低,整個音樂創(chuàng)作過程都開始走向 AI 化了。
音樂產(chǎn)業(yè)中的各個細分領(lǐng)域正在出現(xiàn)越來越多 AI 的生產(chǎn)工具甚至音樂人,而在一個把音樂作為要素的更廣泛的市場上,MiniMax Music 1.5 的出現(xiàn)意味著一個完全沒有版權(quán)風險的音樂素材庫。
值得一提的是,MiniMax Music 1.5 有了 Suno 所不具備的 API 能力,這意味著它的創(chuàng)作能力有更多的靈活性往其他音樂生產(chǎn)和消費的場景流通。
為影視、游戲、短視頻快速生成主題曲或 BGM;
為企業(yè)品牌生成專屬音頻內(nèi)容;
為家人、朋友慶祝時定制專屬歌曲;
而且我沒想到用 MiniMax Music 1.5 生成音樂可以這么便宜。
Suno v3.5 的單價大概是 0.3 元,Suno v4.5 的價格則是它上一代產(chǎn)品的兩倍。而效果媲美 Suno 的 MiniMax Music 1.5 單價僅為 Suno 的一半不到。這意味著 MiniMax Music 1.5 在保證高質(zhì)量音樂產(chǎn)出的同時,進一步降低了其作為一種工具的使用門檻,也讓音樂創(chuàng)作過程有了更多的調(diào)整和試錯空間。
AI 能力融入音樂創(chuàng)作過程,并不意味著創(chuàng)作者交出了對于音樂的主導(dǎo)權(quán)。這一點,音樂創(chuàng)作和 coding 反而有些相似之處。
代碼也可以被看作是一個非常高門檻的創(chuàng)作語言,但 coding 正在經(jīng)歷一個從曾經(jīng)代碼全部手寫,到現(xiàn)在不再成為實現(xiàn)業(yè)務(wù)所必須跨越的一種技術(shù)門檻。任何人在理清了業(yè)務(wù)邏輯之后,都完全可以把 coding 部分讓給 AI 來完成。與理性的代碼語言相比,音樂無疑是一種更感性的表達媒介。用 prompt 語言來進行音樂創(chuàng)作之后,也同樣是一種門檻降低,讓更多人可以跨過樂器和樂理的障礙。兩者實際上正沿著相似的軌跡演進。
回想幾十年前合成器的誕生,隨后電子琴和庫樂隊以及各種采樣工具的出現(xiàn),再到近年來算法與芯片取代琴弦、被嵌入吉他箱體——音樂創(chuàng)作的歷史,本來就是一部對于音樂創(chuàng)作本身的解構(gòu)史。
AI 生成音樂與當下音樂生產(chǎn)工業(yè)之間的摩擦和靈感在很長一段時間內(nèi)都會持續(xù)發(fā)生。但可以確定的是,音樂創(chuàng)作怎樣用好 AI 生成能力,是未來所有音樂創(chuàng)作者的命題,不是困境。
而現(xiàn)在目前市面上最好的音樂 AI 工具,已經(jīng)擺在眼前了。
*頭圖來源:視覺中國
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待 MiniMax Music 1.5?
馬斯克:利用 Neuralink 未來可達全身機械化。
點贊關(guān)注極客公園視頻號,p>