前谷歌X團隊靠AI電影鎖定戛納!創(chuàng)立AI原生版皮克斯
允中 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
全球首家AI原生影視工作室橫空出世,項目收入竟已高達1.1億美元
名叫Utopai Studios
當(dāng)前AI熱度如日中天,以AI切入電影行業(yè)的力量主要分為兩派:
一派是以Runway、Pika為代表的“工具派”,聚焦AI的工具屬性,核心發(fā)力點在于提升影視制作環(huán)節(jié)的效率。
另一派則是“內(nèi)容+AI”公司,其主要在內(nèi)容的敘事創(chuàng)新與產(chǎn)業(yè)化層面推動AI的應(yīng)用和發(fā)行,相當(dāng)于是把手伸進了影視業(yè)最肥沃的利潤區(qū)“內(nèi)容生產(chǎn)+產(chǎn)業(yè)落地”。
這兩類公司的定位,決定了其不同的天花板。
前者更偏向于工具層的效率提升,其特點是,技術(shù)門檻高,能不斷迭代生成模型的能力,但商業(yè)模式也往往會受限于工具類SaaS的邏輯(即訂閱費、API調(diào)用費、B端授權(quán)費),最后很可能會成為影視業(yè)的“基礎(chǔ)設(shè)施型公司”,或容易被后續(xù)更強大的通用模型所取代。
后者定位于創(chuàng)造新敘事形式和發(fā)行,這讓其有機會直接切入到包括IP、版權(quán)、分發(fā)渠道,形成“內(nèi)容+渠道+AI技術(shù)”三位一體的護城河。如若能夠成功突破,天花板將遠遠高于純工具派,因為其有機會改變整個影視業(yè)的產(chǎn)業(yè)鏈模式,而不僅僅是進行局部的效率提升。
有意思的是,Utopai Studios正是第二類公司
在Utopai入場之前,該領(lǐng)域幾乎是一片空白,幾乎沒有公司嘗試把AI技術(shù)范式與影視內(nèi)容和產(chǎn)業(yè)運作相結(jié)合。
而Utopai不僅率先切入了,甚至已經(jīng)在市場驗證方面跑通了模式,其即將推出的兩個電影項目已經(jīng)帶來了1.1億美元的收入。
所以,這樣一家公司,到底是什么來頭?
說它“橫空出世”,其實并不完全準(zhǔn)確。該公司實際上創(chuàng)立于2022年,前身為3D生成AI公司Cybever,早前在硅谷憑借“用AI生成高精度3D虛擬環(huán)境”技術(shù)就有了一定名氣。
而恰恰是從AI+3D這一起點出發(fā),讓他們看清了更大的愿景:不再只滿足于做技術(shù)供應(yīng)商,而是要轉(zhuǎn)身直面內(nèi)容,用AI為傳統(tǒng)影視行業(yè)探索新的可能。
轉(zhuǎn)型
Utopai由兩位谷歌系的華裔創(chuàng)始人創(chuàng)立:
聯(lián)合創(chuàng)始人兼首席執(zhí)行官Cecilia Shen,是標(biāo)準(zhǔn)的00后,孩提時就沉迷于機器人實驗,少年就讀于加拿大滑鐵盧大學(xué),主修數(shù)學(xué)。大學(xué)二年級,進入了谷歌最神秘部門Google X實驗室,參與Moonshot項目。在這里,他遇到了Cybever的另一位聯(lián)合創(chuàng)始人Jie Yang。
聯(lián)合創(chuàng)始人兼首席技術(shù)官Jie Yang,曾任Google Research科學(xué)家,后加入Alphabet旗下公司任Head of Research。在AI圖像建模與生成技術(shù)領(lǐng)域有深厚的積累,他也是Cybever早期3D引擎架構(gòu)的主要推動者。
當(dāng)2022年Cybever剛起步時,團隊的愿景是解決專業(yè)3D中長期存在的效率瓶頸問題,而由于3D行業(yè)大部分客戶來自影視游戲行業(yè),Cybever主要專注高精度3D虛擬環(huán)境的生成,為游戲和影視行業(yè)提供場景“地基”。
但是很快,Cecilia就意識到了“視覺特效”類公司的局限性——利潤非常非常低,Cecilia意識到公司必須往產(chǎn)業(yè)鏈的上游走,這樣才能擁有定價權(quán)和高利潤的商業(yè)模式
換句話說,Cecilia試圖跳過Runway、Luma等AI工具公司的常規(guī)路徑,而選擇直接投身于影視娛樂內(nèi)容的生產(chǎn)和全球發(fā)行,成為AI時代的內(nèi)容所有者。
接下來發(fā)生的故事,與多數(shù)速生速死的AI項目不同,Utopai走出了一條極為罕見的、系統(tǒng)性的進化路徑——在從2022-2025年的三年間,兩位創(chuàng)始人用四個階段構(gòu)建起了AI驅(qū)動內(nèi)容生產(chǎn)的結(jié)構(gòu)性語法,將自己精準(zhǔn)卡位在了AI與內(nèi)容的價值交叉點:
其階段1是:從空間語法邁進“內(nèi)容永動機”。
由于Cybever在創(chuàng)立初的架構(gòu)選擇方面就走了一條不同于同期熱門模型公司如NeRF、3DGS的路,而是選擇了以程序化內(nèi)容(Procedural Content Generation,PCG)的生成方式,這一策略性的選擇,最終為Utopai奠定了關(guān)鍵的基礎(chǔ),成為了Utopai穩(wěn)固的底層資產(chǎn)生成能力。
因為PCG的優(yōu)勢不在于生成力,而在于質(zhì)量控制、拓?fù)渫暾院凸I(yè)兼容性。目前,Utopai的系統(tǒng)已經(jīng)可以自動生成成千上萬個高精度3D資產(chǎn),并匹配不同光照(晨曦、黃昏、陰影)、相機參數(shù)(廣角、長焦)和天氣條件(晴天、雨夜、霧霾);每個組合都具備了“絕對真值”,將幾何信息與2D視覺數(shù)據(jù)緊密綁定,為后續(xù)AI理解與生成提供了標(biāo)準(zhǔn)化的輸入空間。
而階段2是指:將“空間智能”編碼為“語法規(guī)則”。
由于PCG模式擅長物體的隨機擺放,但弱點是:當(dāng)生成對象變成如城市街區(qū)或室內(nèi)空間這樣來自于功能邏輯與空間秩序的空間時,會發(fā)生問題。
這讓Cecilia意識到,必須讓AI模型構(gòu)建起一種“結(jié)構(gòu)性”的能力,也就是“空間語法”。在這個階段,通過持續(xù)的訓(xùn)練與場景建模,其AI模型開始理解空間中的隱性規(guī)則,因為AI不僅能生成,還能思考,這使其不僅能夠還原真實世界的視覺邏輯,更能模擬人類在空間中的行為預(yù)期。而該能力,也讓Utopai在生成內(nèi)容方面具備了前所未有的結(jié)構(gòu)美感和功能的合理性。
而到了階段3,AI Agent上場了。在這個階段,Utopai進一步開發(fā)了AI Agent系統(tǒng)。
這是一位具備設(shè)計直覺的AI創(chuàng)意總監(jiān),可以說,該Agent系統(tǒng)不再僅僅響應(yīng)關(guān)鍵詞命令,而是能夠理解模糊、抽象、充滿情緒色彩的創(chuàng)作指令。
例如,當(dāng)創(chuàng)作者輸入“我想要一條雨夜中的東方小巷,帶點賽博朋克風(fēng),像偵探電影那種孤獨感”時,Agent不會停留在風(fēng)格濾鏡的理解上,而是能生成一個“具備意圖的世界”。如:墻上的剝落中文海報、水洼中倒映的霓虹、繚繞在空氣中的濕氣——而這些,都是從未被直接要求的細節(jié)。
而更加重要的是,由該Agent這一過程輸出的并非是靈感草圖,而是完整的3D預(yù)覽資產(chǎn)(Pre-viz),這為影視制作直接節(jié)省了數(shù)十小時乃至數(shù)萬元的人力與渲染成本。
而到了階段4,也就是今年上半年,就是Utopai從工具型公司到商業(yè)閉環(huán)的關(guān)鍵一躍了。
在這個階段,Utopai完成了Previz-to-Video的工業(yè)閉環(huán)。
簡單講,Utopai將以上四階段的能力,全部匯聚成了一個完整的視頻制作工作流——“Previz-to-VideoPipeline”,并最終破解了當(dāng)下AI生成視頻方面最大的三大難題:一致性、可控性與敘事延續(xù)性。
也就是說,以后導(dǎo)演們就不再需要等待數(shù)日,而只需幾分鐘就可以預(yù)覽接近成片質(zhì)量的鏡頭,甚至可以實現(xiàn)“即興拍攝式”創(chuàng)作迭代。這絕不僅僅是一次效率革命,更是內(nèi)容實驗?zāi)芰Φ馁|(zhì)變。
夢想和底氣
那么,到底Utopai是如何破解目前AI視頻生成領(lǐng)域的“一致性”、“可控性”和”敘事延續(xù)性”這三大技術(shù)難題的呢?
這個問題很重要,是因為目前AI視頻生成雖已能做出驚艷的畫面,但要真正進入電影、電視劇等工業(yè)化場景,提供這三大難題的解決方案繞不過去。
首先,在近期的采訪中,Cecilia就一針見血地指出了目前AI通用模型的最大問題。她指出:
現(xiàn)階段,通用視頻模型都是為服務(wù)大眾,核心目標(biāo)之一是優(yōu)化效率,讓大眾用戶能以最快速度獲得“足夠好”的結(jié)果,這不僅限于影視。但這往往是以犧牲畫面質(zhì)量為代價
而也正因為這個原因,Utopai在模型這一關(guān)鍵問題上,Cecilia是這么回答的:
簡單講,Utopai的模型只是為了那些對質(zhì)量有極致追求的專業(yè)影視創(chuàng)作者服務(wù),這個群體愿意為更好的效果等待更長的時間。而由于有這種明確定位,也讓Utopai擺脫了效率上的束縛,可以在訓(xùn)練模型時減少壓縮比例,增加特定方向的訓(xùn)練數(shù)據(jù),采用更多更強的注意力編碼機制,訓(xùn)練出更大、更好、更專注的模型,將所有算力資源都投入到了對影像質(zhì)量的打磨上,確保每一幀都經(jīng)得起大銀幕的考驗。
其次,困擾AI視頻生成領(lǐng)域的所謂“一致性”問題是指:生成視頻難以保證人物外貌、動作和場景元素在不同的鏡頭中保持一致,會導(dǎo)致角色與環(huán)境出現(xiàn)“漂移”的情況。
例如Veo3、Runway等在逐幀生成時易出現(xiàn)人臉、服裝、光線甚至環(huán)境細節(jié)的“漂移”,比方說主角第一秒時還戴著眼鏡,下一秒眼鏡就沒了。
“這在復(fù)雜場景中是目前所有模型的噩夢”Cecilia說。例如當(dāng)多個角色同時運動和互動、且鏡頭也在不停運動時,現(xiàn)有的模型普遍無法處理好,時常會出現(xiàn)角色互粘、合并,或是動作違背物理規(guī)律的幻覺。
Cecilia指出:“我們認(rèn)為這兩個問題的根源,其實都在于模型對于三維世界的理解是缺失的。由于視頻的本質(zhì)是2D的,這就導(dǎo)致多數(shù)的模型只是在2D平面上對像素進行模仿和壓縮?!?/p>
而這也正是出身于高精尖3D的Utopai模型的特殊之處——由于Utopai在其模型的訓(xùn)練過程中,會將帶有物理規(guī)律的3D數(shù)據(jù)注入,讓模型不再是學(xué)習(xí)2D畫面的表象,這從根本上提升了模型對空間、遮擋、碰撞的認(rèn)知,避免了產(chǎn)生與物理世界不一致的幻覺問題?!耙驗槲覀冏隽撕芫玫腁I生成高精3D環(huán)境,所以這一塊其實是我們的DNA”Cecilia說。
就是所謂的“可控性”。這一難題是指:用戶能否像導(dǎo)演一樣,精確地控制生成結(jié)果,如角色的表情、動作路徑、鏡頭角度、節(jié)奏等。
由于目前AI視頻生成大多依賴于“Prompt+隨機采樣”,所以具有一定的隨機性。這方面,用戶可以輸入“大方向”,但要控制微觀細節(jié)(如讓角色轉(zhuǎn)頭45度、走到某個位置)非常難。而缺乏可控性,就意味著創(chuàng)作者很難把AI視頻當(dāng)作是“可預(yù)測的生產(chǎn)工具”,只能作為“靈感生成器”。
Cecilia指出了這個問題與工作流的相關(guān)性,“目前,行業(yè)普遍的創(chuàng)作流程都依賴大量的‘抽卡’,即反復(fù)生成海量內(nèi)容,然后從中選出少數(shù)接近創(chuàng)意的結(jié)果。但這在專業(yè)制作中是不可接受的,因為導(dǎo)演對每個畫面都有像素級的精確要求,從廣場布局到水杯的位置,從光線強弱到角色眼神的角度。而在“抽卡”的模式下,往往是鏡頭里這個元素符合了,另一個又偏離了,創(chuàng)作過程充滿了隨機性和挫敗感”。
針對于此,Utopai的解法是:用確定地執(zhí)行導(dǎo)演的意圖,來取代隨機生成加挑選
據(jù)Cecilia介紹,Utopai工作流允許導(dǎo)演先通過故事板、3DPreviz等方式來快速準(zhǔn)確地描繪出一個清晰的草稿。這一草稿不僅是視覺參考,更包含了導(dǎo)演核心意圖的結(jié)構(gòu)化指令。隨后,Utopai的模型與工作流會準(zhǔn)確地理解該意圖,并結(jié)合影片整體的藝術(shù)風(fēng)格,自動、有方向性地朝著最終目標(biāo)進行嘗試和調(diào)整。這恰恰是強化學(xué)習(xí)和智能Agent等技術(shù)擅長的地方。
這或許也正是Utopai與其他許多“技術(shù)顛覆論”者最根本的區(qū)別,因為其系統(tǒng)設(shè)計的核心不是要取代導(dǎo)演和藝術(shù)家。恰恰相反,其系統(tǒng)的核心是要將導(dǎo)演和藝術(shù)家們從工業(yè)的枷鎖中解放出來,讓他們回歸到創(chuàng)意王座。
而這也代表了Cecilia很強的審美傾向。Cecilia表示,AI可以生成無窮選項,但定義品味的永遠是會講故事和有藝術(shù)審美的人。Utopai更深遠的意義在于,其系統(tǒng)設(shè)計追求的是人與AI之間形成一種共生進化的關(guān)系。
為此,Cecilia設(shè)定了Utopai的北極星,那就是:要做一個個性化的、端到端的影視制作AI架構(gòu)。通過其高度整合的AI模型與自動化工作流,將電影和內(nèi)容的制作成本大幅降低,從而將成千上萬的電影人從“預(yù)算”的枷鎖中解放,讓他們能夠以前所未有的速度和極低成本,將劇本中的故事變?yōu)楦哔|(zhì)量的影像作品。并且,這一切都不以犧牲質(zhì)量為代價。
而從公司內(nèi)部而言,那就是,構(gòu)建起一個數(shù)據(jù)、模型與工作流的“軟硬一體”的架構(gòu)。
Cecilia指出,現(xiàn)在AI影視的一個普遍問題是,模型與工作流被視為兩個獨立環(huán)節(jié),彼此割裂。一方面,模型公司負(fù)責(zé)提升算法,另一方面,制作公司只關(guān)注流程優(yōu)化,兩者缺乏深度的協(xié)同進化。
與此同時,Cecilia還強調(diào)了內(nèi)容質(zhì)量的重要意義。她認(rèn)為,質(zhì)量一定是優(yōu)先的。
觀眾的眼睛就是尺子。有時,人們低估了細節(jié)帶來的影響。其實我們發(fā)現(xiàn),每一個藝術(shù)家或創(chuàng)造者都像孩子一樣,他們并不是抵觸技術(shù)。一個例子是:1995年上映的《玩具總動員》,這是世界上首部數(shù)字制作的動畫長片,無論在創(chuàng)意還是技術(shù)上,都是一次影響深遠的躍進,并且在全球斬獲了近4億美元的票房收入。那么,所謂的AI被抵觸是否是因為我們用AI的方式錯了?而這就又回到了細節(jié)和質(zhì)量的問題,科技為打造更高質(zhì)量的產(chǎn)品創(chuàng)造條件,而消費者,并不會因為AI就愿意降低對質(zhì)量和故事的追求。優(yōu)勢
最后一個問題是:那么,到底Utopai要實現(xiàn)這一北極星有什么優(yōu)勢呢?
首先,Utopai已經(jīng)創(chuàng)收1.1億美元,就是其具有優(yōu)勢的一個明證,因為這在公司戰(zhàn)略上說明了Utopai已經(jīng)打通好萊塢的內(nèi)容與生態(tài)鏈。
為做到這一點,首先,Utopai甩出了是兩張影視界王牌:
一張是被好萊塢稱為“史上最難拍史詩巨作”、素來是好萊塢呼聲最高、但一直排名未拍攝電影前10的《科爾特斯》(Cortés)。這部電影之所以難拍,是因為它用傳統(tǒng)電影制作的方式成本太高太高,但手握技術(shù)并不懼怕的Utopai為其邀請來了奧斯卡提名編劇Nicholas Kazan執(zhí)筆,并邀請了好萊塢名列49的概念設(shè)計師Kirk Petruccelli來執(zhí)導(dǎo)。
另一張王牌,則是被普遍形容為是“當(dāng)《壯志凌云》遇見《世界大戰(zhàn)》 ”的八集科幻劇集《太空計劃》(Project Space)。這同樣是大手筆,Utopai為其邀請來了著名編劇Vanessa Coifman和Martin Weisz執(zhí)筆、并請了Martin Weisz來執(zhí)導(dǎo)。該劇目前已經(jīng)成功預(yù)售歐洲市場。
“在好萊塢要做AI原生影視,起點就一定要高,手段一定要新”Cecilia說。
此外,為了發(fā)行該項目,Utopai還與《與狼共舞》及《地平線:美國傳奇》的銷售公司K5 International成立了一家合資公司。后者將于今年秋季在MIPCOM和AFM上代理所有Utopai的項目。Utopai還與以《權(quán)力的游戲》和《美國隊長》聞名的可視化公司OPSIS合作,將其流程整合到電影制作人友好的工作流程中
需要注意的是,這兩部劇為Utopai在全球創(chuàng)造了約1.1億美元的收入。而這一數(shù)字是其他AI工作室無法比擬的,并且也讓Utopai一炮而紅,在其首部電影上映前,Utopai已躋身于好萊塢一線大制作的行列。
此外,所有的GenAI公司都覬覦于好萊塢人脈,但至今沒有公司宣布類似計劃。如Aesteria(現(xiàn)已被Moonvalley AI收購)最近宣布將制作《恐怖谷》,或Runway和Luma也都大力宣傳其好萊塢人脈,但在電影內(nèi)容AI領(lǐng)域,尚無公司宣布類似計劃。
殊不知早在今年4月底,Utopai的故事就被搬上了著名雜志《福布斯》。而剛《福布斯》在今年8月又獨家報道了他們的故事,并稱其道:“Utopai的故事,標(biāo)志著AI公司在媒體領(lǐng)域定位的轉(zhuǎn)變。他們并不打算向工作室系統(tǒng)出售模型或API,而認(rèn)為真正的價值在創(chuàng)造和擁有知識產(chǎn)權(quán)。這種模式,與皮克斯曾經(jīng)將其圖形工具轉(zhuǎn)變?yōu)閿⑹乱娴淖龇ㄈ绯鲆晦H。
當(dāng)然,Utopai的優(yōu)勢還包括:其自研的底層模型以及數(shù)據(jù)。但關(guān)于這兩個問題,Cecilia目前并不愿多說。
Utopai正在做的,就是拆掉想象力的柵欄,將電影從“預(yù)算的暴政”中解救出來。這不僅僅是技術(shù)的升級,更是一場關(guān)于創(chuàng)作自由的革命。而這一切才剛剛開始,就讓子彈再飛一會兒吧。