新智元報(bào)道
編輯:編輯部
【新智元導(dǎo)讀】谷歌「香蕉」P圖爆火全網(wǎng),發(fā)布不過(guò)10天,終極平替就來(lái)了。今天,Vidu Q1全球上線「參考生圖」功能,一次7張圖,人物、背景、道具隨意組合,逼真還原還能腦洞大開(kāi),效果完勝Flux Kontext,直逼Nano Banana。
谷歌Nano Banana掀起的狂歡海嘯,完全不亞于ChatGPT橫空出世。
它,號(hào)稱是PS的終結(jié)者。
以往,Photoshop耗費(fèi)數(shù)個(gè)小時(shí)完成的修圖,Nano Banana僅用一句話,最多30秒神速完成。
意想不到的是,谷歌發(fā)布不到10天后,國(guó)產(chǎn)版「Nano Banana」誕生了!
今天,Vidu Q1全球同步上線「參考生圖」功能,一舉擊碎國(guó)內(nèi)參考天花板,讓圖片生成進(jìn)入「生產(chǎn)級(jí)」時(shí)代。
一次扔進(jìn)7張圖,Vidu Q1參考生圖穩(wěn)拿捏,逼真還原的同時(shí),還能隨心所欲創(chuàng)作。
在一致性、美學(xué)、真實(shí)性、清晰度、語(yǔ)義理解綜合評(píng)分上,Vidu Q1參考生圖完全碾壓Flux Kontext,與Nano Banana相媲美。
Vidu Q1參考生圖的易用性,簡(jiǎn)直就是創(chuàng)作者的「生圖利器」,萬(wàn)物皆可合成、萬(wàn)物皆可替。
外國(guó)網(wǎng)友激動(dòng)地表示,「這簡(jiǎn)直是,目前最佳的AI參考生圖的工具。每次輸出的效果絕了」!
還有人盛贊Vidu Q1參考生圖一致性,并稱,Vidu這種低調(diào)的實(shí)力派,真正推動(dòng)了AI領(lǐng)域的創(chuàng)新。
下面就來(lái)扒一扒Vidu Q1參考生圖的「合成大法」,保你看完腦洞大開(kāi)。
國(guó)產(chǎn)「Nano Banana」出世
Vidu Q1「參考生圖」的核心——只要參考?jí)蚨?,就能還原夠真。
一次7張圖,打破國(guó)內(nèi)天花板
Vidu Q1支持單次最多7張參考圖,這一能力不僅在國(guó)內(nèi)處于領(lǐng)先地位,更是行業(yè)頂尖水平。
相較之下,市面上的競(jìng)品AI工具,通常僅支持1-3張參考圖。
在處理多元素場(chǎng)景時(shí),比如同時(shí)參考多個(gè)人物形象,很多工具的生成結(jié)果往往支離破碎,不僅模糊,且經(jīng)常出現(xiàn)相似但不像的情況。
Vidu Q1參考生圖則突破了這些限制,可自由組合多張圖片,實(shí)現(xiàn)無(wú)縫融合。
舉個(gè)栗子,同時(shí)輸入如下五張圖,一張主體,一張背景,還有三張道具圖,并提示小熊做出拋球的動(dòng)作。
prompt:[@圖1]的人物和[@圖2]的車一起出現(xiàn)在[@圖3]的場(chǎng)景里,[@圖1]兩腳分開(kāi)站在[@圖2]車前,[@圖1]兩手張開(kāi)用[@圖4]和[@圖5]的球做著小丑拋球的動(dòng)作,[@圖1]和[@圖2]在畫面中小一些
如下的輸出圖中,Vidu Q1參考生圖可以做到高效整合,生成出流暢、自然的結(jié)果,毫無(wú)違和感。
接下來(lái),上一個(gè)難度的,不僅要為主體換衣,還要融合字體、馬這些要素。
prompt:[@圖1]穿著[@圖2]服裝,[@圖1]頭戴[@圖3]帽子,騎著[@圖5]馬,背景是[@圖4],右上角印有[@圖6]logo
Vidu Q1參考生圖還能同時(shí)做到「AI參考+AI生成」,將所有的參考放在一張圖中,并給出一個(gè)完整的提示。
prompt:[@圖1]一個(gè)明亮的北歐風(fēng)房間,木質(zhì)書桌上放著粉色筆記本和玻璃杯,旁邊花瓶里有一枝粉色花朵,桌角有小多肉植物。地上有毛絨坐墊和白色帆布包。一位戴玫瑰金圓框眼鏡、穿米白色針織背心和白裙的溫柔女生站在房間里,安靜地看著書桌,整體氛圍清新治愈。
可以看到,不論是圖中有的,還是指令要求的,Vidu Q1參考生圖都能做到完整還原。
其實(shí)上述案例是一次參考了10個(gè)物品,這意味著只需把多個(gè)物體放在一張圖中,其實(shí)Vidu Q1參考生圖可以參考的物體數(shù)量遠(yuǎn)不止7張,而是無(wú)上限的,簡(jiǎn)直是生圖領(lǐng)域的大殺器。
主體一致性,全面超越
更令人驚嘆的是,Vidu Q1參考生圖在一致性上的表現(xiàn)堪稱驚艷,全面超越了Flux Kontext等同類產(chǎn)品,甚至也超過(guò)了Nano Banana。
無(wú)論是多人互動(dòng)、多場(chǎng)景切換,還是多次生成,它都能保證人物的面貌、特征高度穩(wěn)定。
諸如多角色混淆、人物走樣、服飾或細(xì)節(jié)丟失等常見(jiàn)問(wèn)題,在Vidu Q1參考生圖中幾乎不存在。
這種卓越的主體一致性,正是Vidu Q1參考生圖邁向「生產(chǎn)級(jí)應(yīng)用」的核心優(yōu)勢(shì)。
相較于Nano Banana,Vidu Q1參考生圖真實(shí)表現(xiàn)又如何?
prompt:圖1人物拿著圖2展示
就來(lái)一張簡(jiǎn)單的,圖1拿著圖2展示,Vidu Q1參考生圖非常自然地呈現(xiàn),而Nano Banana米飯擺放有些不合理。
左:Vidu;右:Nano Banana
再來(lái)看一個(gè)案例,不同模型的表現(xiàn)又如何?
prompt:圖1人物拿著圖3吃圖2
可以看到,Vidu Q1和Nano Banana保持了原圖的高度一致性。
而Flux.1 Kontext在衣服、人臉一致性上表現(xiàn)欠佳,且蛋糕比例失調(diào),沒(méi)有體現(xiàn)勺子這個(gè)元素。
從左至右:Vidu Q1、Nano Banana、Flux.1 Kontext
假設(shè)讓Vidu Q1和Nano Banana,補(bǔ)全如下這張彩虹圖,誰(shuí)做的更好?
prompt:把彩虹的右半邊補(bǔ)全,形成半圓彩虹
實(shí)測(cè)可以發(fā)現(xiàn),Nano Banana未能準(zhǔn)確理解提示詞中,彩虹補(bǔ)全要求,僅生成了另外一半彩虹。
而Vidu Q1參考原圖,成功補(bǔ)出未出現(xiàn)在圖片中的另一半彩虹,展現(xiàn)了極強(qiáng)的畫面理解力和一致性。
左:Vidu Q1;右:Nano Banana
高還原度,所見(jiàn)即所得
Vidu Q1參考生圖不僅支持多張參考圖輸入、主體一致性出色,還在還原度上實(shí)現(xiàn)了質(zhì)的突破。
它在保持參考圖特征的同時(shí),能生成高度貼近原始輸入內(nèi)容,真正做到「所見(jiàn)即所得」。
業(yè)內(nèi)常見(jiàn)的參考模糊、相似卻失真的問(wèn)題,在Vidu Q1參考生圖面前迎刃而解。
接下來(lái),要PK就來(lái)一個(gè)復(fù)雜的,一次上傳五張圖,具體如下:
prompt:側(cè)面視角,[@圖1]站在[@圖3]灶臺(tái)邊[@圖2]鍋前手中拿著大勺[@圖5]攪拌,鍋里裝著[@圖2],背景[@圖3][@圖4],動(dòng)漫風(fēng)格,2D,動(dòng)畫風(fēng)格,
顯然,Nano Banana在主體一致性上表現(xiàn)欠佳,核心元素如衣袖、領(lǐng)口花紋細(xì)節(jié),與原圖差異明顯。
而Vidu Q1展現(xiàn)了驚艷的實(shí)力,不僅完美還原動(dòng)漫主體,連手套、衣服等細(xì)節(jié)都實(shí)現(xiàn)了1:1精準(zhǔn)復(fù)刻。
左:Vidu;右:Nano Banana
再比如,參考圖中男子,將其背景P為教室。
prompt:參考圖中人物,修改背景為人物在班里座位上認(rèn)真聽(tīng)課
以下四大模型,在背景生成上各有特點(diǎn)。
但在人物臉部特征、服飾細(xì)節(jié)上,Vidu Q1參考生圖都做到了最逼真還原。
Nano Banana生成的人物雙眼皮消失,發(fā)型與服裝均出現(xiàn)變化;Midjourney給人物戴上眼鏡,無(wú)中生有;Flux.1 Kontext生成的人物雙眼皮模糊,臉上還多了許多斑點(diǎn)。
從左至右:Vidu Q1、Nano Banana、Midjourney、Flux.1 Kontext
創(chuàng)意玩法上天,只有想不到的
一款A(yù)I工具,僅做到一致性還遠(yuǎn)遠(yuǎn)不夠,還需擁有強(qiáng)大的創(chuàng)作自由度,滿足多樣化的創(chuàng)意需求。
最近,Nano Banana被全網(wǎng)整出各種花活兒,讓人直呼上頭。
比如,3D人偶手辦、老照片修復(fù)/上色、多角度視圖生成、真人Cosplay、名人合影等等。
一個(gè)比較火的玩法,修復(fù)老照片,讓無(wú)數(shù)人淚目。
Vidu Q1參考生圖創(chuàng)作自由度,同樣令人驚嘆!
僅需「一張圖+一句話」,它就能輕松實(shí)現(xiàn)換裝、換背景、換角色、換道具。
甚至,Vidu Q1參考生圖也能一鍵直出人物手辦。
輸入線稿圖后,Vidu Q1魔法棒一揮,瞬間就能變成桌面上的3D立體擺件。
prompt :[@圖1]變成三維立體建筑擺在桌子上,涂上顏色
順便......還能幫你上色。
prompt:[@圖1]變成三維立體建筑擺在桌子上,建筑物替換成木頭材質(zhì),草木替換成綠色,最下面的水系替換成藍(lán)色
假設(shè)手里有一張北京著名標(biāo)志建筑圖,它能變成由金屬質(zhì)感的立體冰箱貼。
[@圖1]變成金屬質(zhì)感的冰箱貼
萬(wàn)物皆可合成
簡(jiǎn)單的兩張圖合成,一鍵實(shí)現(xiàn)換裝、換背景、換風(fēng)格。
馬斯克一秒換裝:
現(xiàn)實(shí)中,馬斯克沒(méi)嘗試過(guò)這樣的穿衣風(fēng)格!
同理,演員一秒換上戲服,馬上知道古裝戲上裝效果:
Vidu Q1參考生圖不僅能實(shí)現(xiàn)一鍵換裝,更精細(xì)的面具,也能一鍵搞定。
比如,llya戴上三星堆黃金面具,Vidu Q1參考生圖還原度高,保留了Ilya標(biāo)志性的「短發(fā)」。
最近,一款帽子「讓人頭禿」,Ilya驚呼「革命性突破」:
發(fā)際線本已稀疏的Ilya,Vidu Q1參考生圖生成的戴上帽子的效果是這樣的:
不過(guò)要讓小扎戴上這頂帽子,只能靠AI了。Vidu Q1參考生圖嘗試一把,效果逼真,AI看了都得直呼離譜:只有碳基智能才能想到的!
不止是真人照片,肖像畫中的人物在Vidu Q1參考生圖中也可以復(fù)活。比如,十一國(guó)慶快來(lái)了,可以讓名畫+名建筑,古往今來(lái),五湖四海,任由AI打卡。
比如,蒙娜麗莎打卡北京地標(biāo)祈年殿:
光影、建筑細(xì)節(jié)、背景人物,真實(shí)感拉滿。
類似的例子,可以換其他背景。比如,讓汽車登火星:
還可以反向操作,讓古代名人體驗(yàn)現(xiàn)代生活,代言各種現(xiàn)代產(chǎn)品。
比如,北宋文豪蘇軾如果會(huì)彈吉他,大江東去該多豪邁?丙辰中秋,他又該如何表達(dá)對(duì)弟弟子由的思念?
蘇軾彈吉他
甚至古代的仕女都能免費(fèi)給你打廣告。
貴妃醉酒:茅臺(tái)版
在Vidu Q1參考生圖中,還可以讓圖片中的人物,擺出各種Pose。
比如,現(xiàn)實(shí)中鬧掰了的Ilya和奧特曼,利用Vidu Q1的參考生圖,完全可以在「賽博世界」中重歸于好,一起比心。
讓魯迅和馬斯克跨越時(shí)空,拍一張合影。
prompt:圖1與圖2合影
Vidu可以解放創(chuàng)意,讓人放飛想象:主體一致不跑偏,風(fēng)格融合更自然。
而且合成2張圖只是Vidu Q1參考生圖的基礎(chǔ)操作。
Vidu Q1支持多圖參考,這就能滿足復(fù)雜劇情、合影、多角色電商等場(chǎng)景。
Vidu Q1參考生圖在還原高度一致基礎(chǔ)上,還支持產(chǎn)品、道具、場(chǎng)景、光線等任意切換,真實(shí)性極強(qiáng)。
萬(wàn)物皆可替
AI一鍵換裝
它能一鍵生成著裝效果,宛如24小時(shí)在線的專屬搭配顧問(wèn)。
前段時(shí)間,男友Travis Kelce向霉霉求婚,配文「你的英語(yǔ)老師和體育老師要結(jié)婚了」掀爆全網(wǎng)。
說(shuō)不定,許多歌迷們迫不及待地想看到,霉霉提前穿上婚紗的樣子。
上傳一張霉霉、一張婚紗圖,還有一張現(xiàn)場(chǎng)圖,Vidu Q1幫你如愿。
最終輸出的圖,讓人眼前一亮,穿上婚紗后的霉霉簡(jiǎn)直美若天仙。
不僅是大明星,每個(gè)人都可以輕松實(shí)現(xiàn)一鍵換裝。
網(wǎng)購(gòu)一件衣服不知款式合不合身,上傳一張個(gè)人照片,有了Vidu Q1,即可在線秒換春夏秋冬的衣服。
分別輸入不同季節(jié)服飾后,換裝瞬間完成了,不論哪一款穿著都好看。
又或是,把小紅書的OOTD全部試一遍。
從著裝到配飾,簡(jiǎn)直一絕。
如果你是一名設(shè)計(jì)師,想看看手辦的格子紋理效果,輸入相關(guān)物料圖片,Vidu Q1參考生圖瞬間實(shí)現(xiàn)。
或是一款已打好版的衣服,想要嘗試不同花紋,Q1也可以玩兒出不同花樣。
甚至,你還可以替換圖中特定的對(duì)象。
比如,現(xiàn)代版「貍貓換太子」:女人手里的小孩換成寵物或者卡通人物。
或者換成史迪奇
即便替換的對(duì)象,在圖中比較小,也沒(méi)關(guān)系,比如把小女孩手中的牛奶替換為橘子汁。
Vidu Q1還能讓你「云游」世界,天天曬出不一樣的朋友圈,十一假期可以利用AI拍出完美大片了。
從相冊(cè)中,上傳一張自拍照,以及一張布達(dá)拉宮圖,P圖瞬間完成,人物和背景超自然融合,可以發(fā)圈了。
世界名畫,整出花活
再以馬格利特一幅世界名畫《人類之子》為模板,玩一場(chǎng)「綠色蘋果」大替換。
一句話換成南瓜,位置也是非常精準(zhǔn),而且人物衣服、顏色保持著高度一致性。
將南瓜放大、再放大,就得到了如下的樣子。
換個(gè)道具,一只粉色的拖鞋。
這次,再換個(gè)人物主體——黃仁勛,老黃的皮衣、眼鏡,完美還原。
兩幅世界名畫,又能碰撞出怎樣的火花?
梵高的《星夜》和馬格利特《人類之子》完美融合,堪稱孤品。
花樣玩法
《大話西游之大圣娶親》中,孫悟空戴上金箍雖獲得了無(wú)邊的法力,卻沒(méi)能保護(hù)好心愛(ài)的紫霞仙子。
不如,就讓Vidu Q1挽回這份「遺憾」。
老照片糊到看不清,讓Vidu Q1增強(qiáng)清晰度并換個(gè)背景,只能說(shuō)太驚艷了。
和霉霉同框,自然到根本看不出來(lái)是P的。
狂「卷」一致性
解鎖AI生產(chǎn)級(jí)應(yīng)用
從「參考生視頻」,再到「參考生圖」,Vidu的每一次進(jìn)化是其在「一致性」賽道上又一次發(fā)力。
為什么他們?nèi)绱藞?zhí)著于「一致性」?
回想AI視頻發(fā)展歷程,從Sora驚艷亮相,再到Runway Gen-4、Luma Ray 2、Midjourney V1等模型不斷迭代,最初讓人驚嘆「AI終于能生成視頻了」。
但很快,問(wèn)題就暴露了:AI生成視頻往往風(fēng)格跳躍、人物面目全非,細(xì)節(jié)更是隨時(shí)崩壞。
想象拍一部廣告,主角的臉從開(kāi)場(chǎng)到結(jié)尾最后一幀變換三次,結(jié)果可想而知。
在國(guó)內(nèi),生數(shù)科技很早就洞察到這一痛點(diǎn)。
去年7月,Vidu 全球首推「參考生視頻」功能,以參考圖為「錨點(diǎn)」,確保生成過(guò)程不偏航。
這恰恰提升了AI視頻一致性,人物不會(huì)變形,風(fēng)格也不會(huì)跳脫。
比如上傳一個(gè)女孩、帕臺(tái)農(nóng)神廟、一束花,Vidu絲滑地將其呈現(xiàn)在一個(gè)場(chǎng)景中。
從這里開(kāi)始,生數(shù)就把一致性從視頻層面,擴(kuò)展到了多模態(tài)可控。
今年4月,Vidu Q1進(jìn)一步升級(jí),升級(jí)了首尾幀運(yùn)鏡,加入了文生音效等功能,讓一致性覆蓋了視覺(jué)、音頻。
VBench評(píng)測(cè)中,Q1勇奪文生視頻雙榜第一,力壓Sora、Gen-3。
如今,焦點(diǎn)來(lái)到了最新的Vidu Q1「參考生圖」功能,同時(shí)7張圖,將一致性推向高峰。
做到了多人、多場(chǎng)景下高一致性,還具備了創(chuàng)作自由度,讓萬(wàn)物皆可合成、皆可替、皆可變。
圖是基礎(chǔ),視頻是延伸——先從「參考生圖」生成素材,再無(wú)縫轉(zhuǎn)為動(dòng)態(tài)視頻。
整個(gè)過(guò)程,一致性貫穿始終,實(shí)現(xiàn)了「精細(xì)化可控」的閉環(huán)。
不難看出,一致性開(kāi)啟了AI視頻「生產(chǎn)級(jí)應(yīng)用」的新紀(jì)元。這意味著,它不再是人們手里的娛樂(lè)玩具,而是規(guī)模化落地的生產(chǎn)力引擎。
電商廣告,多場(chǎng)景拿捏
通過(guò)靈活的主體變換和場(chǎng)景切換,Vidu Q1參考生圖能完美適配廣告、電商、媒體、消費(fèi)品等多個(gè)行業(yè)。
電商、廣告公司可以用它生成無(wú)限創(chuàng)意的鏡頭、海報(bào),讓人力制作成本大幅下降;動(dòng)畫師可以快速制作原型,進(jìn)而專注于IP背后故事的創(chuàng)造......
比如,上傳五張不同的圖,讓Vidu Q1參考生圖去合成。
[@圖2]背景改為[@圖5],[@圖5]背景標(biāo)注[@圖1]VOGUE logo,[@圖2]人物腳下擺著一款[@圖3]包,[@圖2]人物戴著[@圖4]帽子,[@圖2]背景不變,構(gòu)圖不變,主體不變
時(shí)尚雜志大片,瞬間拿捏,每張圖細(xì)節(jié)全部呈現(xiàn)。
馬上中秋節(jié)了,電商想要宣傳自家月餅,不用攝影大師,Vidu Q1參考生圖直接拍出宣傳大片。
一般來(lái)說(shuō),傳統(tǒng)素材制作需1周,拍攝耗時(shí)2天,而Q1僅需一天即可完成全流程創(chuàng)作,效率提升90%。
話不多說(shuō),直接上演示。
一款抹茶冰皮月餅,想要為其配上一張「花好月圓」的背景圖,再扔給Vidu。
[@圖1]背景替換為[@圖2]的背景,嚴(yán)格遵循[@圖1]的擺放位置,擺放整齊
下圖中,Vidu Q1輸出效果令人驚艷,可以直接拿來(lái)制作宣傳圖了。
再比如,商家還有一款普通的抹茶月餅,想要不同的效果。
可以看到,Vidu Q1「參考生圖」功能助力電商促銷生成,只需一鍵合成,即可適配不同場(chǎng)景與節(jié)日主題。
再舉個(gè)栗子,輸入一張汽車渲染圖,就可以得到不同顏色、不同場(chǎng)景的圖片。
圖中的汽車變成黃/紅/黑色,行駛在海灘、街道、高速公路、雪地上
然后,將以上四張圖片分別作為Vidu Q1首尾幀的輸入和輸出,一鍵直出高級(jí)感廣告大片。
AI視頻的下半場(chǎng),比拼的是誰(shuí)能讓它「真正可用」。
只有高一致性,AI才能真正落地到電商、媒體、影視等高價(jià)值場(chǎng)景,創(chuàng)造規(guī)?;膬r(jià)值。
如今,生數(shù)用行動(dòng)證明,一致性是通往「生產(chǎn)級(jí)」的鑰匙。