給大家介紹一下,這是我家一位練習(xí)時長四年半的小狗:
我一直很喜歡這張照片,因為它充分展現(xiàn)了家里所有人對它的嬌寵。
前兩天我拿到了豆包的Seedream4.0的內(nèi)測碼。
操作流程很簡單:“打開豆包App對話框→點擊【AI 生圖/生視頻】→點擊輸入框→選擇上傳參考圖→輸入文字指令”。
很多人跟我說,這是中國的Nano Banana,尤其在精準(zhǔn)指令編輯方面,它經(jīng)常表現(xiàn)得甚至更加出色。我剛好在整理舊手機(jī)的相冊,準(zhǔn)備以除舊迎新的積極態(tài)度迎接果年春晚(不一定真買),于是干脆把這張照片扔給了Seedream4.0,并對它說:
“給它戴上好看的華麗的豐富的首飾?!?/p>
這個prompt是我瞎想的,細(xì)究起來甚至是有點語病的。我想起現(xiàn)在網(wǎng)上到處都是教人寫,像小作文一樣長的Nano Banana的prompt,這樣去折騰內(nèi)測碼,其實是有點慚愧的。
然后Seedream4.0給我生成了一張毫無違和感的圖。
我立馬就不困了,因為這個照片還原度實在是太高了。
最絕的是,這狗雖然全身是珠寶,但珠寶都不亮,所有的反光都很克制——可以說是完美地還原了北京老破小房間里的黯淡。
可不能就這么委屈了這滿身的珠寶。于是我對Seedream4.0說,“將它置身于一個舞廳里?!?/p>
Seedream4.0不僅選了一個跟珠寶配色很搭的場景環(huán)境色,連珠寶的飽和度和亮度也明顯提高了,首飾的色澤跟隨環(huán)境的變化明顯更鮮艷了,毛發(fā)邊緣的光線散射也發(fā)生了變化,仿佛它真的穿越到了那個舞廳里。
它的還原度如此之高,以至于Seedream4.0簡直變成了一種賽博阿拉丁神燈。
養(yǎng)過狗的人大概都知道,狗狗的表情很豐富,而且有一個完整屬于自己的世界。這件事情的副作用是,鏟屎官抓拍的表情經(jīng)常是懸浮于環(huán)境和場合的。但有了Seedream4.0的驚艷表現(xiàn),我決定嘗試給不同的小狗表情配上不同的場景。
操作步驟與第一張圖的流程一樣,先換一身衣服,再換背景。這樣prompt的成功率很驚人,只要想好人物與場景的關(guān)系,幾乎沒有出現(xiàn)過因為特征扭曲而導(dǎo)致的廢片。
背景替換不是一個今天才有的功能,但Seedream4.0讓人驚艷的有兩點:
第一,它兼具精準(zhǔn)指令編輯能力與高度特征保持能力
你不希望它改變的地方,它都能完整保留下來。無論是照片里的水汽,還是毛發(fā)與皮膚的紋路,幾乎都沒有發(fā)生任何一眼可見的變化。
在圖片中,你看不到任何AI油光水滑的油膩感,或者自動加噪引發(fā)的真實感,每一張圖片都是自然的。
第二,在“第一”的基礎(chǔ)上,它呈現(xiàn)了一定的世界觀的能力
比如,在酒店當(dāng)迎賓員的小狗,陽光角度近似但不同,在脖子上留下的陰影角度也隨之有了細(xì)微的變化;叼著煙的牛仔,他的面部溝壑有輕微的加深;在航天飛船里,人的手臂也跟著小狗多出了一截太空服。
這些都不是簡單的環(huán)境色渲染的結(jié)果,它們意味著模型已經(jīng)有了很實打?qū)嵉膶ΜF(xiàn)實理解能力,只是它很克制,但你仔細(xì)看就能發(fā)現(xiàn)它無處不在。
為了進(jìn)一步探索模型對現(xiàn)實的理解和推理能力,我做了更多的嘗試。
這是我從unsplash下載的一張圖,圖里是一塊老式的俄制的老式指針式直流電流表。
我對Seedream4.0說,“將指針移動到右邊?!?/p>
說實話我當(dāng)時有點驚訝,它對“右”的理解很精準(zhǔn)。在這張圖里,“右”不是一個橫向水平的正東的朝向,而是在20刻度線偏右一點的位置上,這與人們的日常經(jīng)驗是完全符合的。
我繼續(xù)試驗了一下文本推理能力,同樣是unsplash上隨機(jī)找到的一張訓(xùn)練圖。
我告訴Seedream4.0,將球衣數(shù)字換成“梅西在美國大聯(lián)盟的球衣號碼”。
Seedream4.0 自己確認(rèn)了準(zhǔn)確地球衣號碼,找到了球衣數(shù)字,再替換了球衣數(shù)字,甚至連球衣上的紋理都做了還原。
我在圖庫里剛好看到一道被故意算錯了的數(shù)學(xué)題。
于是我讓seedream4.0將答案修改正確。
從以上圖片編輯的效果來看,Seedream4.0的文字編輯能力是很驚艷的。而在實測中,它甚至可以改變大段的文字。所以,你甚至可以在這個自然語言生成圖像的工具里,直接通過自然語言修改字幕了。
甚至你可以讓Seedream4.0嘗試更高階的玩法,讓它直接翻譯圖片里的中文。它在翻譯過程中,依然能保證畫面和文字的質(zhì)感是穩(wěn)定不跳脫的,上下的字體也都維持了原來的樣子。
只要你曾經(jīng)用過AI生圖工具,就會知道這件事情有多夸張。在此之前,只有nano banana算做到了這件事情。
測到這里,我想所有人腦子里都會自然而然地跳出,“這不就是中國的nano banana”。
所以我決定直接測一些nano banana的熱門demo。
比如,將之前的狗狗照片生成“手辦”圖。
還有許多人關(guān)注的OOTD(今日穿搭),我想在你們看到這篇測評的時候,OOTD已經(jīng)被不少同行給玩透了。所以我結(jié)合這次的圖片修復(fù)功能,為OOTD功能整一些不一樣的花活。
首先,我們請出學(xué)神愛因斯坦老師。這是它一張不多見的全身照。
然后我們告訴Seedream將它修復(fù)。
我從巴黎世家的官網(wǎng)找到了衣服、褲子和鞋子,于是有了一個跨越時空的穿搭。
可以看到Seedream4.0對整體產(chǎn)品的還原度都是在線的,褲子的做舊細(xì)節(jié)和鞋子的紋路都實現(xiàn)了還原。
(不過Seedream對合規(guī)的審核很嚴(yán)格,名人穿搭不太容易過審,經(jīng)常會被ban,大家可以謹(jǐn)慎嘗試)
在文字直接生成圖片方面,Nano Banana 官方前段時間曾開放了六個示例,涉及到了不同的能力側(cè)面。我想,谷歌方面試圖從這六個示例,以完整呈現(xiàn)其在不同場景的生圖能力。而且為了輔助用戶上手,Nano Banana 還貼心地給了prompt提示詞和對應(yīng)的生圖節(jié)奏。
對于一家AI媒體來說,或許很難找到比這六個示例更能直觀展現(xiàn)Seedream4.0和Nano Banana的能力與風(fēng)格對比了。
因此我將這六個示例的prompt都導(dǎo)入了內(nèi)容,左邊是Nano Banana,右邊是Seedream4.0。Seedream 4.0有時會生成多張圖,考慮到Nano Banana提供的是官方示例,我也會選擇多張圖中自認(rèn)為最好的那一張。如果生成水平差不多,我就默認(rèn)選擇第一張。
示例一
A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.一幅逼真的特寫肖像,描繪了一位年長的日本陶藝家。他臉上布滿深深的、被陽光刻蝕的皺紋,露出溫暖而洞悉一切的笑容。他正仔細(xì)端詳一只剛上釉的茶碗。場景設(shè)定在他那間質(zhì)樸、陽光充足的工作室里。柔和的黃金時刻光線透過窗戶灑入,照亮了陶土細(xì)膩的紋理。作品由 85 毫米人像鏡頭拍攝,背景呈現(xiàn)柔和的虛化效果(焦外成像)。整體氛圍寧靜而盡顯大師風(fēng)范。肖像采用豎版構(gòu)圖。(豆包翻譯)
相比于Nano Banana,Seedream4.0對“85 毫米人像鏡頭”的把控更好,鏡頭虛化效果的還原度更高,面部溝壑更自然。在前文提及的世界觀方面,Seedream4.0的陽光感更好,一看就是夕陽“黃金時刻”的陽光,在房間里光漫射效果也很到位。
總體來說,Nano Banana的AI感更強(qiáng),屬于一眼AI圖;但Seedream4.0乍一眼,真的會以為是一張照片。
不過豆包似乎對“ freshly glazed ”的理解不太一樣,因此陶瓷的釉面沒有上完。因此,這個示例算平手。
示例二
A kawaii-style sticker of a happy red panda wearing a tiny bamboo hat. It's munching on a green bamboo leaf. The design features bold, clean outlines, simple cel-shading, and a vibrant color palette. The background must be white.一張可愛風(fēng)格的貼紙,上面是一只開心的小熊貓,它戴著一頂小小的竹帽,正在啃一片綠色的竹葉。設(shè)計采用鮮明清晰的輪廓、簡單的賽璐珞 shading 技法和鮮艷的色彩搭配。背景必須是白色的。(豆包翻譯)
都很可愛,個人喜歡banana的風(fēng)格,但Seedream4.0似乎更符合prompt里“vibrant color palette”的設(shè)定。
示例三
Create a modern, minimalist logo for a coffee shop called 'The Daily Grind'. The text should be in a clean, bold, sans-serif font. The design should feature a simple, stylized icon of a coffee bean seamlessly integrated with the text. The color scheme is black and white.為一家名為 “The Daily Grind” 的咖啡店設(shè)計一個現(xiàn)代簡約風(fēng)格的標(biāo)志。文字部分采用簡潔、粗體的無襯線字體。設(shè)計中需包含一個簡約的、風(fēng)格化的咖啡豆圖標(biāo),與文字無縫融合。配色方案為黑白兩色。(豆包翻譯)
Seedream的設(shè)計很不錯,但banana更有巧思,banana勝。
示例四
A high-resolution, studio-lit product photograph of a minimalist ceramic coffee mug in matte black, presented on a polished concrete surface. The lighting is a three-point softbox setup designed to create soft, diffused highlights and eliminate harsh shadows. The camera angle is a slightly elevated 45-degree shot to showcase its clean lines. Ultra-realistic, with sharp focus on the steam rising from the coffee. Square image.一張高分辨率的工作室燈光產(chǎn)品照,主體是一只啞光黑色的簡約陶瓷咖啡杯,放置在拋光混凝土表面上。燈光采用三點柔光箱設(shè)置,旨在營造柔和、漫射的高光,消除生硬的陰影。拍攝角度為稍高的 45 度角,以展現(xiàn)杯子流暢的線條。畫面超寫實,清晰聚焦于咖啡升起的熱氣。
這個提示詞的難度有點高,Seedream沒有理解三點柔光箱設(shè)置。所以我重新強(qiáng)調(diào)了,不要讓光源出現(xiàn)在圖片里。
雙方都是高度寫實場景。但seedream4.0都符合了prompt的要求,角度抬高了45°,只是光源最后也沒有處理好。這一題就先放過。
示例五
A minimalist composition featuring a single, delicate red maple leaf positioned in the bottom-right of the frame. The background is a vast, empty off-white canvas, creating significant negative space for text. Soft, diffused lighting from the top left. Square image.一幅極簡構(gòu)圖的作品,一片纖薄的紅色楓葉置于畫面右下角。背景是一片開闊空曠的米白色畫布,形成大片可供添加文字的留白。光線從左上角柔和漫射而來。圖片為正方形構(gòu)圖。(豆包翻譯)
這張照片我仔細(xì)看了原圖,banana的官圖白色畫布也沒有出現(xiàn)“Soft, diffused lighting from the top left.”,在圖中,光線唯一的表現(xiàn)方式其實只有樹葉的陰影。
示例六
A single comic book panel in a gritty, noir art style with high-contrast black and white inks. In the foreground, a detective in a trench coat stands under a flickering streetlamp, rain soaking his shoulders. In the background, the neon sign of a desolate bar reflects in a puddle. A caption box at the top reads"The city was a tough place to keep secrets." The lighting is harsh, creating a dramatic, somber mood. Landscape.一幅漫畫單格,采用粗獷的黑色電影藝術(shù)風(fēng)格,以高對比度的黑白墨水繪制。前景中,一名穿風(fēng)衣的偵探站在一盞閃爍的街燈下,雨水浸濕了他的肩頭。背景里,一家荒涼酒吧的霓虹燈招牌倒映在水洼中。頂部的說明框?qū)懼骸斑@座城市藏不住秘密?!?光線強(qiáng)烈,營造出戲劇化的陰郁氛圍。畫面為橫版構(gòu)圖。(豆包翻譯)
雖然在谷歌官方的prompt提示詞示例里,的確是有“l(fā)anscape”和“荒涼酒吧倒影在水中”的要求,但示例卻沒有出現(xiàn)。而且Banana的光源也遠(yuǎn)談不上漫畫中“harsh”的要求。
Banana的構(gòu)圖更幽深,有藝術(shù)氣息,像電影的海報;但 Seedream對prompt的還原度更高,像電影里一段劇情開始的第一幀。
整體來看,nano banana 和 Seedream4.0的效果各有千秋。
Nano banana像一個很有自己頭腦的藝術(shù)生,它似乎會選擇性地忘記一些指令,來達(dá)成一個在它看來可能更美的構(gòu)圖。但Seedream4.0則會認(rèn)認(rèn)真真完成prompt里的所有指令,完成度明顯更好。
而且這還是在英文語境下,豆包的語義理解有可能會吃虧的情況下完成的。更不用說,以上都是谷歌的官圖,而我只是拿內(nèi)測版自己跑的圖。
在審美方面,Seedream4.0的成像效果明顯更加真實,有時甚至能達(dá)到讓人愣一下神,懷疑這究竟是不是AI生成的程度。而Nano banana的性能雖然強(qiáng)大,但依然有一種AI式的精致感,仿佛畫面抹上了一層AI的亮油。
結(jié)語
很多人將nano banana稱之為生圖界的ChatGPT3.5時刻。
因為過去模型只能生成一些天馬行空的東西,但由于缺乏一致性,很難凝聚成有效的生產(chǎn)力。用戶花費大量的token,才能撞出幾張有用的,最后生成一堆廢圖,費電費算力。
但Seedream4.0和nano banana這樣生圖模型,做到了精準(zhǔn)指令編輯、高度特征保持和深度意圖理解,不僅大大降低了普通用戶使用的門檻,也會極大提升創(chuàng)意人士的使用效率。
你可能也看出來了:相比于生成,我在使用Seedream4.0最快樂的時候永遠(yuǎn)是改圖。
因為讓用戶在照片上進(jìn)行修改,其實永遠(yuǎn)更符合人類對空間和視覺的直覺的。
比如,我們想象一個阿拉丁神燈、一個無所謂不能的魔法師,它可以在這個世界里變出任何怪誕驚奇的玩意兒。但我們感受到“驚奇”的前提,首先是我們腳下的世界或者我們眼前的人是穩(wěn)定的。有了一個注意力的錨點,再去添加和改變新的元素,這才會有魔術(shù)師的視覺效果。
因此,在生圖領(lǐng)域,Seedream4.0和nano banana絕對是劃時代的產(chǎn)品,肯定會引發(fā)創(chuàng)意行業(yè)的新革命。
而且人與AI的關(guān)系也不再是博弈,而是合作。人的創(chuàng)意落地門檻會更低,一個好的想法、一個轉(zhuǎn)瞬即逝記錄下來的細(xì)節(jié),都可以被AI放大成一個作品。
這里唯一的區(qū)別是,從GPT3.5出現(xiàn),到DeepSeek V3,我們花了兩年時間。但從nano banana正式發(fā)布,到Seedream4.0上線,總計只有20天。
而且如前文所述,從許多體驗和生圖效果上,Seedream4.0的體驗其實比nano banana還要完美。
比如,在交互上,Seedream4.0表現(xiàn)得更加用戶友好。
這次官方內(nèi)測的平臺是豆包。有時用戶輸入一些非常簡單的prompt時,豆包會主動幫助補齊一些要求,比如“保持某某其他元素保持不變”、“保持原比例”;如果你故意輸入一些倒裝句,豆包也會在生圖時將句子改成規(guī)范的表達(dá);如果你用模糊指向的詞語描述prompt,豆包也會在轉(zhuǎn)述時使用更加準(zhǔn)確的表達(dá)。
所以在拿豆包與Seedream4.0交互時,會時刻感覺到有一個小助手在邊上,幫你優(yōu)化向模型傳達(dá)的指令。用戶不用有任何的“prompt羞恥癥”,擔(dān)心自己的prompt不夠好,而導(dǎo)致效果不好——可以說是非常“vibe”了。
此外,Seedream4.0在畫面生成的語言遵從能力也更強(qiáng),也展現(xiàn)了驚人的世界理解與預(yù)測能力。
它不會放過一段冗長prompt中的任何一個內(nèi)容,光線變化一定帶來畫面漫反射與影子的變化,有倒影就一定會出現(xiàn)倒影,提出了光線的方向就一定會呈現(xiàn)。
當(dāng) AI 真的可以See Dream了,人與夢也就更近了。
如果Dream是人人都有的,那么人人也都可以成為創(chuàng)意者。
(本文來源:日照新聞網(wǎng)。本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費建議。對文章事實有疑問,請與有關(guān)方核實或與本網(wǎng)聯(lián)系。文章觀點非本網(wǎng)觀點,僅供讀者參考。)