伊人成人在线,超薄丝袜足交,无码无套少妇18p在线直播,亚洲 sss

  • 清遠(yuǎn)

    Nano Banana爆火背后,深聊谷歌多模態(tài)五大主線布局

    時(shí)間:2025-09-14 23:37:21  作者:junschen   來(lái)源:清遠(yuǎn)  查看:  評(píng)論:0
    內(nèi)容摘要:9月12日,華為數(shù)據(jù)存儲(chǔ)公眾號(hào)宣布,在2025全球數(shù)據(jù)存儲(chǔ)教

    文 | 硅谷101

    幾周前,這個(gè)頂著神秘“香蕉”代號(hào)的模型在評(píng)測(cè)平臺(tái)上悄然登場(chǎng),沒(méi)有任何公告、沒(méi)有官方文檔,但卻憑借著驚人的圖像質(zhì)量和角色一致性,憑實(shí)力吊打了一票老牌模型,在AI社區(qū)里引發(fā)轟動(dòng)。

    當(dāng)時(shí),有人猜它是OpenAI的秘密實(shí)驗(yàn)品,也有人認(rèn)為可能是獨(dú)立研究團(tuán)隊(duì)的“黑馬之作”。而8月底,謎底終于揭曉,Google親自下場(chǎng)認(rèn)領(lǐng):Nano Banana,就是Google最新發(fā)布的文生圖模型——Gemini 2.5 Flash Image。

    作為Gemini 2.0 Flash的升級(jí)版,Nano Banana是一個(gè)更加貼近真實(shí)工作流的AI編輯器。它不僅能在多次編輯中保持角色和畫面的高度一致,還讓用戶只需用自然語(yǔ)言就能完成精細(xì)的局部修改和多圖合成。

    相比過(guò)去大部分模型“生成一張好圖”的目標(biāo),Nano Banana則更像是一個(gè)隨時(shí)待命的設(shè)計(jì)助手,能夠幫你不斷去迭代、調(diào)整、優(yōu)化、創(chuàng)造。

    大量網(wǎng)友們?cè)跍y(cè)試完后之后都表示,這可能是Photoshop時(shí)代的終結(jié)。

    那么,在已經(jīng)嚴(yán)重內(nèi)卷的文生圖模型賽道,Nano Banana憑什么能再次掀起一陣狂潮? 相比OpenAI、Flux這些強(qiáng)勁對(duì)手,它有什么特別之處,真實(shí)的效果到底如何?Google的多模態(tài)能力如今又究竟發(fā)展到什么程度了呢?

    01 “橫空出世”的Nano Banana

    在Nano?Banana還沒(méi)被Google正式認(rèn)領(lǐng)之前,它匿名登場(chǎng)于目前全球最火、最權(quán)威的大模型測(cè)評(píng)平臺(tái)LMArena。這是一個(gè)以社區(qū)投票為主導(dǎo)的AI模型競(jìng)技場(chǎng),主要形式就是讓兩個(gè)模型匿名對(duì)戰(zhàn),用戶“盲選”出自己更滿意的結(jié)果,網(wǎng)站再根據(jù)社區(qū)用戶的投票基于一系列算法來(lái)對(duì)各家模型進(jìn)行排名。

    大約在8月中旬左右,大家開(kāi)始注意到,在LMArena的文生圖和圖片編輯榜單上突然出現(xiàn)了一個(gè)陌生而神秘的模型代號(hào)——Nano Banana,并且在之后幾天內(nèi)憑借著超極穩(wěn)定和驚艷的輸出在排行榜上迅速躥升,最后穩(wěn)坐榜首。

    一時(shí)間,Nano?Banana的名字迅速傳開(kāi),并引發(fā)了大量的關(guān)注與討論。大家都在猜測(cè),這個(gè)神秘的模型,究竟是誰(shuí)的手筆?

    就在關(guān)于Nano Banana的討論進(jìn)入白熱化的時(shí)候,8月25日前后,包括DeepMind CEO Demis Hassabis等在內(nèi)的谷歌工程高管開(kāi)始在社交平臺(tái)上“暗戳戳”地發(fā)帶有香蕉元素的帖子,讓懸念逐漸落地。

    而就在Gemini 2.5 Flash Image被正式官宣發(fā)布前,谷歌CEO Pichai更是連發(fā)了3根香蕉宣誓了對(duì)Nano Banana的“主權(quán)”。

    上一次文生圖模型如此熱鬧的場(chǎng)面,還要追溯到幾個(gè)月前GPT-4o的吉卜力熱潮,這次的Nano Banana究竟好在哪里?

    我們問(wèn)了一些開(kāi)發(fā)者,大家都首先表示,Nano Banana此次最大的一個(gè)突破就是它的“一致性”能力。

    張宋揚(yáng) 亞馬遜AGI部門Applied Scientist: 我覺(jué)得最驚艷的就是它在角色的一致性上做得效果非常好,相比之前的模型,這應(yīng)該是做得最好的一個(gè)。

    Nathan Wang 硅谷101特邀研究員 Agent資深開(kāi)發(fā)者: 我覺(jué)得Nano Banana讓我覺(jué)得比較震撼的地方,就是它的一次生成成功,保持這種一致性,包括它的可編輯性是讓我很驚訝的地方。

    過(guò)去,很多模型在對(duì)圖片進(jìn)行反復(fù)修改時(shí),最常見(jiàn)的問(wèn)題就是“換了衣服,人也變了臉”。比如你想把照片里的外套換個(gè)顏色,結(jié)果系統(tǒng)順手把五官也拉歪了。這種“不夠像”的小偏差,讓人很難把AI當(dāng)作可靠的創(chuàng)作工具。

    而Nano Banana的改進(jìn)之處就在于,它能在多輪編輯中牢牢鎖住人物或物體的核心特征,不論是調(diào)整姿勢(shì)、換服裝,還是把狗狗放進(jìn)新的背景里,主體能夠始終保持不變。

    第二個(gè)大的突破在于多圖融合。過(guò)去把兩張完全不同的照片合成在一起,常見(jiàn)問(wèn)題包括不同圖像間的不協(xié)調(diào)、空間扭曲、細(xì)節(jié)丟失或變形等等,人在場(chǎng)景里往往看起來(lái)都像是被“貼上去的”。而Nano Banana能夠在多圖合成時(shí)自動(dòng)處理風(fēng)格和邏輯一致性,讓畫面看上去渾然一體。

    第三個(gè)亮點(diǎn)是自然語(yǔ)言驅(qū)動(dòng)的精準(zhǔn)修改。以前想要改動(dòng)一張照片,往往要自己畫蒙版、或者用專業(yè)工具反復(fù)擦拭?,F(xiàn)在,你只需要簡(jiǎn)單的描述:“換一個(gè)背景”、“從照片中移除整個(gè)人物”、“改變?nèi)宋锏淖藙?shì)”……Nano Banana 就能在其他部分保持不變的前提下,精準(zhǔn)執(zhí)行用戶的要求,將圖片編輯的操作門檻幾乎降到零。甚至,你都可以不使用語(yǔ)言跟它交流,隨手畫個(gè)簡(jiǎn)筆畫都可以。

    此外,它還加入了多輪對(duì)話式編輯和風(fēng)格混配。你可以先讓它把房間刷成薄荷綠,再補(bǔ)上書架、換個(gè)地毯,模型會(huì)一步步記住上下文,不會(huì)把之前的成果推翻。甚至,你還可以要求它把花瓣的紋理應(yīng)用到鞋子上,蝴蝶翅膀的圖案變成一條裙子,生成一種全新的創(chuàng)意風(fēng)格。

    當(dāng)然,安全性也被擺在了前面。Google給所有Nano Banana生成的圖片加上了可見(jiàn)水印,同時(shí)還有肉眼不可見(jiàn)的數(shù)字水印SynthID,以保證未來(lái)能識(shí)別和追溯AI作品。

    在Nano Banana正式發(fā)布之后,背后的DeepMind團(tuán)隊(duì)也首次走到臺(tái)前,講述了這款模型背后的研發(fā)故事。

    團(tuán)隊(duì)介紹說(shuō),Nano Banana最核心的突破,是使用了一種叫做“交替生成” 的圖像生成的新范式。它會(huì)把用戶的復(fù)雜指令拆分成多個(gè)步驟,每一步只做一個(gè)小調(diào)整,比如先換衣服,再改背景,然后再加寵物。

    這樣的方式,可以讓AI編輯不再“失憶“性的一次性亂改,而是帶著每一輪修改的”記憶“,從而保持主體的一致性。

    研發(fā)人員還透露,Nano Banana之所以能在創(chuàng)意場(chǎng)景里表現(xiàn)得更自然,是因?yàn)樗浞掷昧薌emini的世界知識(shí)。此次,Gemini團(tuán)隊(duì)和Imagen強(qiáng)強(qiáng)聯(lián)合,Gemini團(tuán)隊(duì)帶來(lái)了語(yǔ)言理解和世界知識(shí)的能力,讓模型能聽(tīng)懂復(fù)雜的指令;而Imagen團(tuán)隊(duì)則提供了高質(zhì)量圖像生成和風(fēng)格控制的經(jīng)驗(yàn)。

    兩者結(jié)合,讓Nano Banana不僅能畫,還能理解邏輯和語(yǔ)義,讓模型在“理解—?jiǎng)?chuàng)造—理解”的循環(huán)中表現(xiàn)全面。

    對(duì)于Nano Banana未來(lái)發(fā)展方向,DeepMind的研究員表示,他們希望Nano Banana并不只是一個(gè)“生成圖片”的模型,而是能夠成為一個(gè)可靠的、能夠陪伴用戶進(jìn)行思考和創(chuàng)作的智能體。

    根據(jù)LMArena的匿名測(cè)評(píng)結(jié)果以及谷歌公布的測(cè)試數(shù)據(jù)來(lái)看,此次的Gemini 2.5 Flash Image基本上全方位碾壓了ChatGPT 4o、FLUX Kontext、QWEN Image Edit等競(jìng)爭(zhēng)對(duì)手。而且其生成成本更是讓人驚掉下巴,單張圖像的生成成本僅需0.039美元,也就是不到3毛人民幣。

    Nano Banana的真實(shí)效果真的有這么好嗎?

    02 Nano Banana的實(shí)力與反饋

    目前,普通用戶都可以在Google Gemini應(yīng)用程序、Google AI Studio中直接調(diào)用Nano Banana,也可以使用Gemini API和Vertex AI平臺(tái),而Adobe、Lovart等平臺(tái)也陸續(xù)宣布已經(jīng)將其集成進(jìn)創(chuàng)意工具中。

    這些渠道的開(kāi)放,使得普通用戶、專業(yè)設(shè)計(jì)人士和開(kāi)發(fā)者都能輕松訪問(wèn)。

    尤其值得注意的是,用戶不僅可以免費(fèi)用,跟之前很多模型的龜速出圖不同,這次Nano Banana的生成速度也非常得快,輸入指令后,大約幾秒鐘就能完成出圖或者修改。也因?yàn)檫@樣便捷、高效的操作,網(wǎng)友們可以說(shuō)是已經(jīng)“玩瘋了”。

    首先,大家?guī)缀醵紝?duì)Nano Banana的“人物一致性效果”感到驚艷。給一張普通的游客照換個(gè)背景、換個(gè)衣服,假裝自己在球賽現(xiàn)場(chǎng),動(dòng)動(dòng)手指,幾秒搞定。影棚里的側(cè)面照變成正臉證件照,發(fā)型、造型換一換,更是輕輕松松就能完成。

    以前品牌方需要花大量經(jīng)費(fèi)的棚拍、置景、造型,現(xiàn)在也就只需打幾行字,0成本就能出片。

    此外,還能用一張卡通人物的圖片生成各式各樣的人物表情和動(dòng)作。自家的寵物也能隨意地?fù)Q個(gè)毛色或品種。

    看到網(wǎng)友們發(fā)的效果這么好,我自己當(dāng)然也忍不住上手試了一下。先把我們家的薩摩耶小D換個(gè)顏色,薩摩耶秒變藏獒;再換個(gè)品種試試,哈士奇也不錯(cuò)。

    再來(lái)玩玩我家兒子Benjamin,我上傳了一張我在后院抱著寶寶的照片。首先讓Nano Banana把我們瞬移去馬爾代夫、去巴黎、去北京故宮,看起來(lái)周游世界毫無(wú)難度。

    接著,我讓它把我懷里的寶寶變成一只猩猩寶寶。大家可以看到,效果也非常自然,在我完全能夠保持不變的情況下,猩猩寶寶的墨鏡、表情、動(dòng)作都保留了原片。

    我決定再給它加點(diǎn)難度。首先讓它把我的表情從微笑變成驚訝,接著把我的姿態(tài)從看向鏡頭轉(zhuǎn)為驚訝地看向?qū)殞?。人物的一致性依然保持得非常好?/p>

    而且大家注意看,我側(cè)頭之后,我的墨鏡中的反光竟然變成了沙灘的鏡像,整個(gè)邏輯和細(xì)節(jié)真的太贊了。

    雖然目前谷歌還沒(méi)有發(fā)布Nano Banana相關(guān)的技術(shù)報(bào)告, 但亞馬遜AGI部門Applied Scientis張宋揚(yáng)猜測(cè),這次Nano Bnanan的一致性控制能力之所以得到了很大提升,可能是在數(shù)據(jù)上花了很多功夫。

    張宋揚(yáng) 亞馬遜AGI部門Applied Scientist: 他們有一些自己的用戶數(shù)據(jù),也需要做一些數(shù)據(jù)的清洗。因?yàn)椴⒉皇撬械臄?shù)據(jù),直接拿過(guò)來(lái)用就能做到想要的效果。比如說(shuō)有些數(shù)據(jù)你需要進(jìn)行一些篩選,把一些高質(zhì)量數(shù)據(jù),包括一些我覺(jué)得比較重要,比如像人臉這種比較難做的(數(shù)據(jù)),這種你需要增加它的比例。數(shù)據(jù)的清理是一個(gè)很大的工作要做。一個(gè)是數(shù)據(jù)來(lái)源,一個(gè)是數(shù)據(jù)清理,主要是這兩點(diǎn)。

    除了超穩(wěn)定的人物一致性之外,它的“多圖融合”功能看起來(lái)也已經(jīng)到了出神入化的程度。

    想讓人物跨時(shí)空會(huì)面?它生成的照片幾乎能到以假亂真的程度,從人物表情到光線對(duì)焦都毫無(wú)違和感。甚至上傳幾個(gè)食材,就能幫你“做”出一道色香味俱全的菜。

    首先,讓我給“老冤家”馬斯克和Altman來(lái)攢個(gè)局。

    感覺(jué)大家聊得還不錯(cuò)。接著讓我們都穿上一個(gè)香蕉服裝試試。

    挺可愛(ài)的,再加點(diǎn)難度,讓它把“路人”Pichai和扎克伯克來(lái)跟我們合影:可是馬斯克怎么變成小扎了?還有,Pichai去哪了?

    再次對(duì)話調(diào)整后,人是回來(lái)了,不過(guò)不是馬斯克,好像也不是Pichai?

    跟它確認(rèn)一下,最右這位是Pichai嗎?它居然斬釘截鐵的告訴我他是!自家老板都不認(rèn)識(shí),這可是要扣工資的呀。我決定再幫它一把,把Pichai的照片給它,看看它能不能糾正過(guò)來(lái),結(jié)果還是不行,看來(lái)只能扣工資了。

    大家可以看出來(lái),Nano Banana還是有很多bug的地方,這個(gè)我們稍后來(lái)說(shuō),但一般的合影需求,其實(shí)做得還是非常絲滑,非常出神入化。

    比起娛樂(lè)、玩梗,其實(shí)更重要的是,多圖融合能力現(xiàn)在已經(jīng)顯現(xiàn)出一種專業(yè)化替代的能力。

    比如,有網(wǎng)友一次性輸入了包括模特照片、產(chǎn)品、布景元素在內(nèi)的十幾張圖片,讓Nano Banana進(jìn)行融合設(shè)計(jì)。最后的效果令人驚艷,幾乎可以媲美、甚至超越廣告設(shè)計(jì)公司。

    而對(duì)于服裝品牌們來(lái)說(shuō),Nano Banana幾乎可以幫忙省去他們以后找模特拍產(chǎn)品圖的工作。比如讓Tylor Swift換身西裝,只需上傳一張衣服的平面照片就能搞定。

    甚至還可以調(diào)整各種姿勢(shì)、光影,連續(xù)生成各種角度、各種姿勢(shì)的模特上身效果。

    此外,擁有了“世界知識(shí)”的Nano Banana對(duì)抽象指令的理解能力也迎來(lái)了大幅躍升。

    比如網(wǎng)友們隨手畫的一個(gè)簡(jiǎn)筆畫,它就能準(zhǔn)確地結(jié)合上傳的人物圖片進(jìn)行姿勢(shì)改變與創(chuàng)意設(shè)計(jì)。讓奧特曼給你表演鞍馬,一張圖就能搞定。

    再比如,在平面地圖上隨便畫一根線,它就能給你展示從這根線的視角能看到什么樣的實(shí)際風(fēng)景。

    此外,官方介紹中的多輪對(duì)話式編輯和風(fēng)格混配能力也并沒(méi)有夸大其詞。

    比如把它用于室內(nèi)設(shè)計(jì)和繪圖渲染,或者讓它用不同的花朵紋理給我設(shè)計(jì)一個(gè)新衣服等等。

    針對(duì)目前Nano Banana所展現(xiàn)出來(lái)的能力,Nathan表示,在某種程度上來(lái)說(shuō)我們對(duì)圖片的編輯能力已經(jīng)開(kāi)始達(dá)到了文字的類似水平。

    Nathan Wang 硅谷101特邀研究員 Agent資深開(kāi)發(fā)者: 它現(xiàn)在實(shí)現(xiàn)的功能相當(dāng)我們?cè)谖淖值倪@個(gè)階段,你把其中一段話劃出來(lái),說(shuō)你幫我改一下,或者這段話的語(yǔ)義不對(duì),你幫我重新描述一下?,F(xiàn)在它能夠在圖片上做到和文字編輯一樣的效果,比如說(shuō)把某個(gè)窗簾的顏色換成紅色、換成藍(lán)色,或者把物件給去掉,從一個(gè)圖片中加這個(gè)物件,就很像我們?cè)诰庉嬑淖质降?,去在很?xì)微、細(xì)枝末節(jié)的地方進(jìn)行一定程度的優(yōu)化和改變。 我覺(jué)得它是真正地在多模態(tài)的模型中做到了單一的語(yǔ)言模型可以達(dá)到的效果,這一點(diǎn)是很大的一個(gè)突破。

    但其實(shí),我們以上展示都還只是Nano Banana能力的冰山一角。自發(fā)布這幾天來(lái),網(wǎng)友們還正在不斷挖出Nano Banana的各種玩法。

    比如已經(jīng)火爆全網(wǎng)的”手辦模型”,我也忍不住上手制作了一個(gè),效果真的是非??蓯?ài)。

    除了“手辦”等靜態(tài)操作之外,另外一個(gè)爆火的趨勢(shì)是將Nano Banana的能力跟其他平臺(tái)結(jié)合,創(chuàng)作出效果驚艷的視頻。

    比如有人把Nano Banana和Seedance、 Kling結(jié)合使用,實(shí)現(xiàn)了讓梵高、蒙娜麗莎從油畫里走出來(lái)變成真人坐在中央公園聊天,有人使用Nano Banana和Seedance僅用不到兩小時(shí)就做出一個(gè)動(dòng)畫短片,有人使用Nano Banana跟Weavy制作出細(xì)節(jié)滿滿的3D產(chǎn)品介紹等等。

    那么,跟其他模型相比,Nano Banana的能力是不是真的要強(qiáng)大很多呢?我們自己也進(jìn)行了幾個(gè)簡(jiǎn)單的測(cè)試。

    同樣改變照片背景的指令。這是GPT-5的,人物幾乎變了樣。

    這是FLUX的。人物倒是摳出來(lái)了,但是頭發(fā)少了一塊,人像是被貼上去的。

    而到了讓照片融合進(jìn)行合影的指令,GPT不僅不能一次性理解并完成我的指令,生成出來(lái)的照片也完全不可用。不僅像貼上去的,甚至我這個(gè)人都變樣了。

    同樣的Prompt在GPT上試了一下創(chuàng)建手辦,人物比例、五官、背景等細(xì)節(jié)也都出現(xiàn)了不同程度的瑕疵。

    對(duì)比使用下來(lái)最大的感受是,目前在生成速度上其他模型不僅比Nano Banana慢了幾倍,效果和輸出穩(wěn)定性方面也遜色不少。

    當(dāng)然,Nano Banana目前也并非沒(méi)有翻車的時(shí)候。首先,在中文能力方面,Nano Banana依然沒(méi)有出現(xiàn)質(zhì)的突破。生成的圖片依然存在文字亂碼、亂讀的現(xiàn)象。

    對(duì)編輯指令的理解和執(zhí)行也會(huì)出現(xiàn)偏差,比如我在要求對(duì)這個(gè)“手辦”加上一雙腿時(shí)它直接加到了盒子上,順帶著背景里的圖片也不翼而飛。

    還在多輪對(duì)話編輯中,它在面對(duì)復(fù)雜指令時(shí)可能突然就凌亂了。比如我在前文對(duì)話中想繼續(xù)讓它嘗試多圖融合,生成一張馬斯克、扎克伯格、皮柴一起圍觀我懷里猩猩寶寶的照片。不僅人物比例和表情及其不協(xié)調(diào),就連我這個(gè)照片主體變了一個(gè)人。

    除此之外,網(wǎng)友對(duì)它不滿意的地方還有圖片分辨率不高、對(duì)提示詞的審查太嚴(yán)格、藝術(shù)性和審美上比不上Midjourney、Imagen等等。

    但總體來(lái)說(shuō),大家對(duì)于Nano Banana評(píng)價(jià)主要還是以積極、正面為主,幾乎都認(rèn)為這是文生圖的又一里程碑。

    03 五條主線:谷歌的多模態(tài)生態(tài)大爆發(fā)

    如果把Nano Banana放在更長(zhǎng)的時(shí)間線上來(lái)看,你會(huì)發(fā)現(xiàn),這并不是谷歌的一次“偶然爆發(fā)”。

    事實(shí)上,在過(guò)去的一年多時(shí)間里,谷歌幾乎用一種“密集轟炸”的節(jié)奏,把多模態(tài)產(chǎn)品一口氣推到了前臺(tái)。各種模型、各種迭代甚至可以用眼花繚亂來(lái)形容。

    目前谷歌到底有哪些多模態(tài)產(chǎn)品線呢?我們來(lái)跟你一起理一理。

    谷歌的多模態(tài)產(chǎn)品目前已經(jīng)基本形成了一個(gè)完整的矩陣,它們大致可以分成五條主線。

    第一條主線,是文生圖Imagen系列。

    Imagen系列最早可以追溯到2022年5月,當(dāng)時(shí)Google Research首次提出這一文生圖模型。它的特點(diǎn)是結(jié)合大語(yǔ)言模型理解提示,再用擴(kuò)散模型生成圖像,在當(dāng)時(shí)就被認(rèn)為是超越DALL·E 2的新一代方案。不過(guò)因?yàn)榘踩桶鏅?quán)風(fēng)險(xiǎn),Imagen一開(kāi)始并沒(méi)有開(kāi)放給公眾使用。直到2024年I/O大會(huì),谷歌才正式推出Imagen 3,真正走向產(chǎn)品化。到2025年5月,Imagen 4發(fā)布,進(jìn)一步強(qiáng)化了光影表現(xiàn)和細(xì)節(jié)質(zhì)量,朝著“接近真實(shí)攝影”的方向邁進(jìn)。

    第二條主線,是文生視頻的Veo系列。

    2024年1月,谷歌研究院首次發(fā)布了Lumiere,用“時(shí)空一致性擴(kuò)散”的方式直接生成整段視頻,讓動(dòng)作和背景更加連貫自然。隨后在2024年5月,I/O大會(huì)上正式亮相Veo 1,可以生成1080p高清視頻。到了同年12月,Veo 2升級(jí)至4K,并首次接入Vertex AI平臺(tái)。而在2025年5月I/O,谷歌再次亮相 Veo 3,不僅能生成視頻,還能同步生成音樂(lè)和旁白,把文生視頻真正推進(jìn)到影視級(jí)創(chuàng)作的階段。

    第三條主線,是Genie系列,也就是“交互世界生成”,也被稱為“世界模型”。

    和文生視頻的模型不同,Genie的目標(biāo)不是做一段“看”的視頻,而是直接生成一個(gè)“能玩”的虛擬世界。

    Genie 1于2024年初首次亮相,作為第一個(gè)能夠根據(jù)圖像生成可玩2D游戲環(huán)境的模型,它展示了AI創(chuàng)造互動(dòng)世界的潛力。緊隨其后,Genie 2在2024年底發(fā)布,在一代基礎(chǔ)上取得了巨大進(jìn)步,它能生成更長(zhǎng)、更復(fù)雜的3D互動(dòng)世界,將AI生成的虛擬環(huán)境從二維平面擴(kuò)展到了三維空間。

    而最新的Genie 3在今年的8月5日推出,能力再次提升到了一個(gè)新高度,能夠從文本或圖像提示生成動(dòng)態(tài)、可導(dǎo)航的3D世界,并首次支持實(shí)時(shí)交互和“提示性世界事件”,允許用戶在生成環(huán)境中實(shí)時(shí)修改物體或天氣,使其成為了一個(gè)真正意義上的“世界模型”。

    換句話說(shuō),它不僅能幫你生成一段畫面,還能讓你能真正地“走進(jìn)去”,去玩、去體驗(yàn)。

    這讓Genie成為了谷歌多模態(tài)矩陣?yán)镆粋€(gè)特別的分支:它不是單純的視頻生成,而是文生視頻和虛擬交互的結(jié)合,預(yù)示著谷歌的多模態(tài)探索正在觸碰“沉浸式體驗(yàn)”和“虛擬世界構(gòu)建”的邊界。

    第四條主線,是面向創(chuàng)作者的工具集。

    2024年5月,谷歌在I/O上同時(shí)推出了ImageFX和VideoFX,讓用戶可以直接在Labs中體驗(yàn)文生圖與文生視頻。到了2025年5月,谷歌又發(fā)布了Flow,這是一個(gè)專為影視敘事設(shè)計(jì)的工具,把Veo和Imagen的能力整合到分鏡、鏡頭、敘事風(fēng)格的工作流里。

    最后一條主線,就是Gemini多模態(tài)底座。

    Gemini是谷歌的通用多模態(tài)基礎(chǔ)模型,是整個(gè)系統(tǒng)的“大腦”。它的核心能力在于理解、推理和處理各種信息,包括文本、圖像、音頻、視頻等。Gemini扮演著一個(gè)通用智能體的角色,為其他更專業(yè)的模型提供強(qiáng)大的基礎(chǔ)支持和世界知識(shí)。

    2023年底,Gemini 1.0發(fā)布,確立了Ultra、Pro、Nano三個(gè)不同尺寸的模型家族形態(tài)。

    2024年2月,Gemini 1.5發(fā)布,帶來(lái)了革命性的進(jìn)步,尤其是其突破性的長(zhǎng)上下文窗口,讓它能一次性處理海量的文本、代碼、圖像甚至視頻,這讓模型在理解復(fù)雜、冗長(zhǎng)的文檔或視頻方面有了前所未有的能力。

    2025年2月,Gemini 2.0系列登場(chǎng),推出了Flash和Flash-Lite,能夠更好地應(yīng)對(duì)需要低延遲和大規(guī)模部署的應(yīng)用場(chǎng)景。

    2025年8月,Gemini 2.5 Flash Image也就是大家熟知的Nano Banana正式現(xiàn)身,把“AI修圖”直接變成了人人可用的體驗(yàn)。

    圖片來(lái)源:google

    盤點(diǎn)下來(lái)你會(huì)發(fā)現(xiàn),谷歌的多模態(tài)戰(zhàn)略已經(jīng)逐漸清晰成型:文生圖的Imagen ,文生視頻的Veo,探索交互世界的Genie,再通過(guò)Flow、ImageFX、VideoFX把這些能力嵌進(jìn)創(chuàng)作工作流,而背后的支撐,是快速迭代的多模態(tài)底座Gemini。

    Nathan談到,谷歌所擁有的非常好的人才、基建和數(shù)據(jù)底座,是它在當(dāng)前激烈的大模型競(jìng)爭(zhēng)中的優(yōu)勢(shì)所在。在這看似復(fù)雜、龐大的產(chǎn)品線背后,谷歌其實(shí)也有著比較清晰的產(chǎn)品路線。

    Nathan Wang 硅谷101特邀研究員 Agent資深開(kāi)發(fā)者: 它每一次發(fā)不同的模型背后還是有著消費(fèi)場(chǎng)景,或者是一定的用戶案例,其實(shí)是針對(duì)不同的用戶畫像,因?yàn)榇蠹以诋a(chǎn)品第一件事就是要去了解你的客戶人群是誰(shuí),你才會(huì)去做產(chǎn)品,而不是說(shuō)做了產(chǎn)品再去找客戶人群。 所以在我看來(lái)谷歌的產(chǎn)品主線,還是根據(jù)客戶人群、應(yīng)用場(chǎng)景去開(kāi)發(fā)和迭代它的模型和產(chǎn)品,思路其實(shí)是比較清晰的。

    與此同時(shí),谷歌也正在漸進(jìn)式地朝著“大而全”的智能體方向推進(jìn)。

    張宋揚(yáng) 亞馬遜AGI部門Applied Sci: 現(xiàn)在很多大公司都希望做一個(gè)大而全的模型,能夠支持不同的模態(tài),是一個(gè)端到端的生成模型,包括語(yǔ)音、包括圖片、包括視頻、包括文字甚至包括代碼,都希望做一個(gè)大而全的,因?yàn)檫@應(yīng)該更符合大家對(duì)智能的認(rèn)知。 但這是一個(gè)很大的框架,但在這個(gè)框架之下,我們可能需要針對(duì)每一種任務(wù)去進(jìn)行研究,比如先研究怎么去生成圖片,再怎么生成視頻。所以你會(huì)發(fā)現(xiàn),它們的模型是不同的團(tuán)隊(duì)在做,它們得先把某一個(gè)任務(wù)先突破了然后發(fā)布了一個(gè)產(chǎn)品,然后另外一個(gè)突破了再發(fā)一個(gè)產(chǎn)品。但我相信或者作為用戶的角度,我們肯定也是希望它能夠把這些模型融合在一起,這樣使用界面也更簡(jiǎn)潔。

    對(duì)于未來(lái)谷歌多模態(tài)的發(fā)展,大家目前普遍猜測(cè),谷歌或許會(huì)把更多的模型能力向Gemini融合,進(jìn)而面向普通用戶打造一個(gè)的多模態(tài)的超級(jí)流量入口。

    而如Imagen、Veo、Genie等模型未來(lái)則將繼續(xù)向縱深發(fā)展,主要為專業(yè)級(jí)的開(kāi)發(fā)提供服務(wù)。

    圖源:ai.google

    從Nano Banana,到一整套多模態(tài)矩陣,我們看到了谷歌過(guò)去一年多的加速爆發(fā)。在這場(chǎng)生成式AI的競(jìng)賽里,谷歌曾被質(zhì)疑掉隊(duì)。但現(xiàn)在,無(wú)論是圖像、視頻,還是虛擬世界和創(chuàng)作工作流,谷歌幾乎把所有環(huán)節(jié)都重新補(bǔ)齊。

    這種“連環(huán)拳”式的產(chǎn)品發(fā)布,似乎在向外界釋放出一個(gè)信號(hào):谷歌不只是在追趕,而是在試圖用一個(gè)完整矩陣去重新定義生成式AI的邊界。

    但問(wèn)題是,這樣的爆發(fā)能不能真正轉(zhuǎn)化為市場(chǎng)優(yōu)勢(shì)?在這場(chǎng)速度與創(chuàng)新的較量中,Nano Banana又能領(lǐng)先多久呢?

    歡迎在評(píng)論區(qū)告訴我們,你覺(jué)得谷歌的這波多模態(tài)大爆發(fā)如何,Nano Banana到底好不好用?

    {loop type="arclist" row=1 }{$vo.title}
    插插插日日日干干干| 国产色欲av| 地铁上两个人一前一后攻击| 中文字幕亚洲无线码高清| 亚洲午夜熟女乱伦| 日韩欧美淫荡老熟女不伦性爱视频| 欧美成人精品三级网站| 婷婷六月天综合网| 人人操人人美| 亚洲国产乱伦视频| 网久久综合| 沈阳老熟女高潮45分钟| 肏日本老女人的屄| 97久久人妻精品| q2002午夜福利| 久久 97 无码 一区 欧| 欧美成人理论片乱| jizz中国少妇| 性色av无码专区一ⅴa亚洲| 在哪里可以看到免费毛片| 国产激情艳情在线看视频| 免费观看黄网站在线播放| 日本1区2区| 高跟肉丝少妇A片在线| 亚洲国产精品成人热| 五月婷婷七月丁香| 国产精品xxx在线| 人兽一区二区三区| 久久久久久91亚洲精品中文字幕| 人妻少妇精品无码系列| 亚洲无码视频一区| 人人爽爽人人肏屄| 精品伊人久久大香线蕉综合| 久拍国产在线观看| 精品高清无码免费视频| 公和我做好爽添厨房| 五月激情婷婷综合| www.libeier.cn| 久久无码专区| 又爽又黄无遮拦成人网站| 制服 丝袜 人妻 专区一本|