字節(jié)新王炸!即夢新版6大能力超谷歌香蕉模型,豆包P圖又變強了!
智東西AI前瞻(公眾號:zhidxcomAI)作者|江宇編輯|漠影
智東西AI前瞻9月9日報道,今日,字節(jié)跳動Seed團隊正式發(fā)布新一代圖像創(chuàng)作模型Seedream 4.0(即夢圖片4.0模型)。
作為該系列迭代以來的一次整合升級,Seedream 4.0在一套模型架構(gòu)中集成了文生圖、圖像編輯、草圖控圖、風格遷移等多種能力,并支持最高4K分辨率圖像生成,現(xiàn)已接入即夢、豆包等平臺。
這一版本的發(fā)布,恰逢Google圖像生成模型Nano Banana(Gemini 2.5 Flash Image)在社交媒體刷屏走紅之際。相比之下,Seedream 4.0也帶來了完整的多模態(tài)創(chuàng)作能力,不僅支持自定義圖像比例、多圖融合與復(fù)雜結(jié)構(gòu)推理,在中文文字生成、圖像清晰度與任務(wù)一致性等關(guān)鍵能力上,具備鮮明優(yōu)勢。
在Seed團隊構(gòu)建的評測體系中,Seedream 4.0在文生圖與圖像編輯兩項任務(wù)的綜合Elo評分,已超越Nano Banana(Gemini 2.5 Flash Image)。
智東西先試了試用它給VOGUE二十周年群像封面改風格。在豆包對話頁面點擊“豆包P圖”,上傳照片,默認模型便是即夢4.0,輸入文字描述,等待近30秒,豆包就能一次性生成2張符合描述的圖片。
我們讓它生成了復(fù)古港風、未來賽博朋克、洛可可宮廷風、Y2K千禧辣妹風、極簡現(xiàn)代攝影風和古風等風格。從生圖效果來看,模型在整體風格還原上表現(xiàn)較好,無論是背景氛圍、光影色調(diào),還是人物造型,都能做到較統(tǒng)一的風格轉(zhuǎn)換,不足之處是人臉五官特征出現(xiàn)變形,人名欄也變模糊。
▲豆包修改的VOGUE二十周年群像封面 (點擊鏈接可查看原圖)
在初步體驗的基礎(chǔ)上,智東西進一步參考Seedream 4.0官方提出的八類基礎(chǔ)能力場景,設(shè)計了一組Prompt,并將同一任務(wù)同步交由Nano Banana執(zhí)行,圍繞精準編輯、控圖生成、手辦建模、多圖輸出、中文排版等維度,觀察兩款模型在生成效果上的差異。
一、八種玩法實測,Seedream 4.0和Nano Banana短兵相接
Seed團隊給出了Seedream 4.0的八類基礎(chǔ)玩法,官方將其歸納為:精準編輯、靈活參考、控圖生成、上下文推理、多圖融合、多圖輸出、文字渲染和自適應(yīng)畫布。
智東西圍繞每類能力,設(shè)置了實戰(zhàn)Prompt,并同步用Nano Banana跑同一任務(wù),來看誰的生成更穩(wěn)定、畫面更自然、任務(wù)理解力更強。
以下體驗均為真實測試結(jié)果,歡迎讀者復(fù)制指令自行復(fù)現(xiàn)。
1、中文寫實圖生成+精準編輯(Precise Editing)
Prompt:一個亞洲面孔女孩坐在江邊看書,身邊放著咖啡和一本筆記本,黃昏時分水面反光,構(gòu)圖為3:2橫圖,風格為寫實攝影。
補充指令1:發(fā)色為粉色。
補充指令2:背景為圖書館。
▲Seedream 4.0
▲Nano Banana
補充指令1:發(fā)色為粉色。
▲Seedream 4.0
▲Nano Banana
補充指令2:背景為圖書館。
▲Seedream 4.0
▲Nano Banana
這組圖最能拉開“寫實能力”的差距。Seedream 4.0對補充指令的理解更精準,效果也更自然。不僅發(fā)色和波光粼粼的這類細節(jié)更為寫實,場景切換到圖書館后,依舊能維持整體畫面協(xié)調(diào)。
而Nano Banana在補充“背景為圖書館”的指令后,畫面中的人物姿態(tài)上就略顯僵硬。
2、多圖參考生成(Multi-Image Reference Generation)
Prompt:請將參考圖中的衣服、鞋子和配飾整體換到模特身上,確保服裝貼合身形,面部特征和姿勢保持一致,生成圖像風格與參考圖一致。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這組體驗中,Seedream 4.0的表現(xiàn)略遜。雖然衣物與姿態(tài)基本對得上,但服飾的款式并未完全復(fù)刻。在圖像理解上,未能準確識別參考圖上衣服的褶皺。
反觀Nano Banana的效果更自然流暢,整體穿搭更“貼身”。
3、 草圖控圖/視覺信號可控生成(Visual Signal Controllable Generation)
Prompt 1:根據(jù)上傳的手繪草圖生成現(xiàn)代極簡風格客廳實景圖,保留草圖中家具位置,房間挑高,光線明亮。
▲參考圖
▲Seedream 4.0
▲Nano Banana
Prompt 2:為一張包含兩個人物的動作線稿進行上色,動作姿勢與線稿圖保持完全一致,人物比例和細節(jié)需嚴格遵循參考圖。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這一類任務(wù)中,Seedream 4.0展現(xiàn)出了更強的一致性,動作還原幾乎“絲滑貼線”。Nano Banana的優(yōu)勢則在人物細節(jié)與氛圍感,但在貼合線稿的控制上略有波動。
4、手辦生成/靈活參考(Flexible Reference)
Prompt:繪制圖中角色的1/7比例商業(yè)化手辦,寫實風格,場景設(shè)定為電腦桌,亞克力底座,旁邊有印有原畫的包裝盒和ZBrush建模畫面。
▲Seedream 4.0
▲Nano Banana
這類任務(wù)曾是Nano Banana走紅社媒的“代表作”,這次Seedream 4.0也做得頗為出色,手辦質(zhì)感真實,周邊元素豐富,構(gòu)圖也更完整。
5、多圖輸出(Multi-Image Output)
Prompt:參考這個LOGO,做一套戶外運動品牌視覺設(shè)計,品牌名稱為“GREEN”,包括包裝袋、帽子、卡片、手環(huán)、紙盒、掛繩等,綠色為主色調(diào),簡約現(xiàn)代風。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這類多圖輸出任務(wù),是考驗?zāi)P图毠?jié)、統(tǒng)一性與輸出清晰度的硬仗。Nano Banana生成結(jié)果清新可愛,但有些空泛。而Seedream 4.0能保持多圖風格一致,外加高清晰度,也更適合商業(yè)展示。
6、高級文字渲染與排版(Advanced Text Rendering)
Prompt 1:生成一張中文海報,主標題為“城市綠色出行倡議”,副標題為“打造未來低碳生活方式”,底部有二維碼和品牌LOGO。
▲Seedream 4.0
▲Nano Banana
Prompt 2:生成送貨機器人的手繪草圖,含文字、公式、表格、統(tǒng)計圖等元素。
▲Seedream 4.0
▲Nano Banana
在中文字處理這一項,Seedream 4.0是“降維打擊”。文本清晰度、字形規(guī)整性與位置排布都表現(xiàn)穩(wěn)定,有“直接交付”的潛力。
而Nano Banana則依舊存在“中文混亂”的老問題。
7、上下文推理生成(In-Context Reasoning Generation)
Prompt:時間從中午12點過去11小時15分鐘,房間光線變暗,鬧鐘時間應(yīng)同步變化。
▲Seedream 4.0
▲Nano Banana
Seedream 4.0不僅調(diào)暗了室內(nèi)光線,窗外景色也配合“入夜”,連鬧鐘顯示時間也匹配。而Nano Banana雖然場景變暗,但窗外還是大白天,可見“推理”這一步還沒跟上。
8、自適應(yīng)比例與4K生成(Adaptive Aspect Ratio & 4K Generation)
Prompt:生成一張16:9橫版構(gòu)圖的城市夜景俯瞰圖,建筑燈光清晰,要求圖像分辨率為4K。
▲Seedream 4.0
▲Nano Banana
Seedream 4.0一鍵輸出4K高分圖,比例、光影、清晰度都達標。Nano Banana則提示“當前不支持生成4K圖像”,盡管構(gòu)圖不錯,但解析度還是有局限。
二、一套模型通吃文生圖與編輯,推理速度提升10倍
Seedream 4.0在架構(gòu)設(shè)計上完成了一次整合式升級,將前代文生圖模型Seedream 3.0與圖像編輯模型SeedEdit 3.0融合為一套統(tǒng)一模型架構(gòu)。
核心創(chuàng)新包括:
1、DiT架構(gòu)+高壓縮比VAE:構(gòu)建了一個高效率的擴散Transformer模型,訓(xùn)練與推理速度提升10倍;
2、VLM模塊加持:引入SeedVLM模塊,強化對圖像語義、世界知識的理解,增強多模態(tài)上下文推理能力;
3、聯(lián)合訓(xùn)練機制:通過CT、SFT、RLHF三階段全鏈路訓(xùn)練,將生成與編輯任務(wù)進行融合優(yōu)化,在圖像結(jié)構(gòu)還原度、風格一致性、文字理解力上表現(xiàn)更佳;
4、大規(guī)模多模態(tài)數(shù)據(jù)鏈路:結(jié)合視頻抽幀、HTML內(nèi)容檢索、專家模型合成等方式,構(gòu)建出大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)集;
5、推理效率優(yōu)化:引入對抗蒸餾、分布匹配、推測解碼等機制,在保持質(zhì)量的同時大幅減少生成耗時,2K圖像可秒級完成生成。
在保持生成質(zhì)量穩(wěn)定的同時,Seedream 4.0還提供了圖像尺寸、畫面比例、風格控制等細致參數(shù)設(shè)置,并原生集成了草圖、Canny、Depth、Mask等控圖通道,無需額外模型支持。
三、評測成績:圖像編輯任務(wù)Elo評分超Nano Banana,文生圖能力穩(wěn)中有短板
根據(jù)Seed團隊在MagicBench評測基準上的結(jié)果,Seedream 4.0在圖像編輯任務(wù)(Single-Image Editing Evaluation)中整體表現(xiàn)較為均衡,綜合評分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在“文字渲染(Text Rendering)”、“人工評價得分(DreamEval, bo4/avg)”等維度表現(xiàn)突出,特別是在中文內(nèi)容處理上具備明顯優(yōu)勢。
▲圖片編輯任務(wù)綜合評測
在“指令對齊(Alignment)”方面,Seedream 4.0與模型Nano Banana(Gemini 2.5 Flash Image)處于同一水平,略低于GPT-Image-1;而在“一致性(Consistency)”和“結(jié)構(gòu)還原(Structure)”上,相比模型Nano Banana(Gemini 2.5 Flash Image)略有不足,但整體差距不大。
▲文生圖任務(wù)綜合評測
在文生圖任務(wù)(Text-to-Image Evaluation)中,Seedream 4.0在“美學(xué)表現(xiàn)(Aesthetics)”維度得分相對較高;但在“結(jié)構(gòu)還原(Structure)”、“文字渲染(Text Rendering)”、“語義對齊(Alignment)”和“錯誤糾正(Correction)”等指標上,相比GPT-Image-1略遜一籌,整體評分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整體能力突出。
整體來看,Seedream 4.0在圖像編輯場景中具備較強能力,而在自由生成類的文生圖場景中,其基礎(chǔ)能力穩(wěn)定,仍有部分生成一致性和對抗復(fù)雜場景的提升空間。
結(jié)語:一個更實用、更本地化的國產(chǎn)圖像模型
通過一輪多維度的實際體驗與評測對比可以看出,Seedream 4.0在圖像生成能力上的表現(xiàn)更加成熟,特別是在中文場景下具備明顯優(yōu)勢。
它為用戶提供了更高的控制自由度,也具備支持商業(yè)、設(shè)計、教育等專業(yè)場景的基礎(chǔ)能力。在國產(chǎn)圖像模型不斷演進的過程中,Seedream 4.0或許已代表了當前圖像生成領(lǐng)域的一個穩(wěn)定階段成果。