發(fā)布時(shí)間:2025-09-21 來源:火樹銀花網(wǎng)作者:勤奮的瞌睡蟲
智東西AI前瞻(公眾號(hào):zhidxcomAI)作者|江宇編輯|漠影
智東西AI前瞻9月9日?qǐng)?bào)道,今日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)正式發(fā)布新一代圖像創(chuàng)作模型Seedream 4.0(即夢(mèng)圖片4.0模型)。
作為該系列迭代以來的一次整合升級(jí),Seedream 4.0在一套模型架構(gòu)中集成了文生圖、圖像編輯、草圖控圖、風(fēng)格遷移等多種能力,并支持最高4K分辨率圖像生成,現(xiàn)已接入即夢(mèng)、豆包等平臺(tái)。
這一版本的發(fā)布,恰逢Google圖像生成模型Nano Banana(Gemini 2.5 Flash Image)在社交媒體刷屏走紅之際。相比之下,Seedream 4.0也帶來了完整的多模態(tài)創(chuàng)作能力,不僅支持自定義圖像比例、多圖融合與復(fù)雜結(jié)構(gòu)推理,在中文文字生成、圖像清晰度與任務(wù)一致性等關(guān)鍵能力上,具備鮮明優(yōu)勢(shì)。
在Seed團(tuán)隊(duì)構(gòu)建的評(píng)測(cè)體系中,Seedream 4.0在文生圖與圖像編輯兩項(xiàng)任務(wù)的綜合Elo評(píng)分,已超越Nano Banana(Gemini 2.5 Flash Image)。
智東西先試了試用它給VOGUE二十周年群像封面改風(fēng)格。在豆包對(duì)話頁(yè)面點(diǎn)擊“豆包P圖”,上傳照片,默認(rèn)模型便是即夢(mèng)4.0,輸入文字描述,等待近30秒,豆包就能一次性生成2張符合描述的圖片。
我們讓它生成了復(fù)古港風(fēng)、未來賽博朋克、洛可可宮廷風(fēng)、Y2K千禧辣妹風(fēng)、極簡(jiǎn)現(xiàn)代攝影風(fēng)和古風(fēng)等風(fēng)格。從生圖效果來看,模型在整體風(fēng)格還原上表現(xiàn)較好,無論是背景氛圍、光影色調(diào),還是人物造型,都能做到較統(tǒng)一的風(fēng)格轉(zhuǎn)換,不足之處是人臉五官特征出現(xiàn)變形,人名欄也變模糊。
▲豆包修改的VOGUE二十周年群像封面 (點(diǎn)擊鏈接可查看原圖)
在初步體驗(yàn)的基礎(chǔ)上,智東西進(jìn)一步參考Seedream 4.0官方提出的八類基礎(chǔ)能力場(chǎng)景,設(shè)計(jì)了一組Prompt,并將同一任務(wù)同步交由Nano Banana執(zhí)行,圍繞精準(zhǔn)編輯、控圖生成、手辦建模、多圖輸出、中文排版等維度,觀察兩款模型在生成效果上的差異。
一、八種玩法實(shí)測(cè),Seedream 4.0和Nano Banana短兵相接
Seed團(tuán)隊(duì)給出了Seedream 4.0的八類基礎(chǔ)玩法,官方將其歸納為:精準(zhǔn)編輯、靈活參考、控圖生成、上下文推理、多圖融合、多圖輸出、文字渲染和自適應(yīng)畫布。
智東西圍繞每類能力,設(shè)置了實(shí)戰(zhàn)Prompt,并同步用Nano Banana跑同一任務(wù),來看誰(shuí)的生成更穩(wěn)定、畫面更自然、任務(wù)理解力更強(qiáng)。
以下體驗(yàn)均為真實(shí)測(cè)試結(jié)果,歡迎讀者復(fù)制指令自行復(fù)現(xiàn)。
1、中文寫實(shí)圖生成+精準(zhǔn)編輯(Precise Editing)
Prompt:一個(gè)亞洲面孔女孩坐在江邊看書,身邊放著咖啡和一本筆記本,黃昏時(shí)分水面反光,構(gòu)圖為3:2橫圖,風(fēng)格為寫實(shí)攝影。
補(bǔ)充指令1:發(fā)色為粉色。
補(bǔ)充指令2:背景為圖書館。
▲Seedream 4.0
▲Nano Banana
補(bǔ)充指令1:發(fā)色為粉色。
▲Seedream 4.0
▲Nano Banana
補(bǔ)充指令2:背景為圖書館。
▲Seedream 4.0
▲Nano Banana
這組圖最能拉開“寫實(shí)能力”的差距。Seedream 4.0對(duì)補(bǔ)充指令的理解更精準(zhǔn),效果也更自然。不僅發(fā)色和波光粼粼的這類細(xì)節(jié)更為寫實(shí),場(chǎng)景切換到圖書館后,依舊能維持整體畫面協(xié)調(diào)。
而Nano Banana在補(bǔ)充“背景為圖書館”的指令后,畫面中的人物姿態(tài)上就略顯僵硬。
2、多圖參考生成(Multi-Image Reference Generation)
Prompt:請(qǐng)將參考圖中的衣服、鞋子和配飾整體換到模特身上,確保服裝貼合身形,面部特征和姿勢(shì)保持一致,生成圖像風(fēng)格與參考圖一致。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這組體驗(yàn)中,Seedream 4.0的表現(xiàn)略遜。雖然衣物與姿態(tài)基本對(duì)得上,但服飾的款式并未完全復(fù)刻。在圖像理解上,未能準(zhǔn)確識(shí)別參考圖上衣服的褶皺。
反觀Nano Banana的效果更自然流暢,整體穿搭更“貼身”。
3、 草圖控圖/視覺信號(hào)可控生成(Visual Signal Controllable Generation)
Prompt 1:根據(jù)上傳的手繪草圖生成現(xiàn)代極簡(jiǎn)風(fēng)格客廳實(shí)景圖,保留草圖中家具位置,房間挑高,光線明亮。
▲參考圖
▲Seedream 4.0
▲Nano Banana
Prompt 2:為一張包含兩個(gè)人物的動(dòng)作線稿進(jìn)行上色,動(dòng)作姿勢(shì)與線稿圖保持完全一致,人物比例和細(xì)節(jié)需嚴(yán)格遵循參考圖。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這一類任務(wù)中,Seedream 4.0展現(xiàn)出了更強(qiáng)的一致性,動(dòng)作還原幾乎“絲滑貼線”。Nano Banana的優(yōu)勢(shì)則在人物細(xì)節(jié)與氛圍感,但在貼合線稿的控制上略有波動(dòng)。
4、手辦生成/靈活參考(Flexible Reference)
Prompt:繪制圖中角色的1/7比例商業(yè)化手辦,寫實(shí)風(fēng)格,場(chǎng)景設(shè)定為電腦桌,亞克力底座,旁邊有印有原畫的包裝盒和ZBrush建模畫面。
▲Seedream 4.0
▲Nano Banana
這類任務(wù)曾是Nano Banana走紅社媒的“代表作”,這次Seedream 4.0也做得頗為出色,手辦質(zhì)感真實(shí),周邊元素豐富,構(gòu)圖也更完整。
5、多圖輸出(Multi-Image Output)
Prompt:參考這個(gè)LOGO,做一套戶外運(yùn)動(dòng)品牌視覺設(shè)計(jì),品牌名稱為“GREEN”,包括包裝袋、帽子、卡片、手環(huán)、紙盒、掛繩等,綠色為主色調(diào),簡(jiǎn)約現(xiàn)代風(fēng)。
▲參考圖
▲Seedream 4.0
▲Nano Banana
這類多圖輸出任務(wù),是考驗(yàn)?zāi)P图?xì)節(jié)、統(tǒng)一性與輸出清晰度的硬仗。Nano Banana生成結(jié)果清新可愛,但有些空泛。而Seedream 4.0能保持多圖風(fēng)格一致,外加高清晰度,也更適合商業(yè)展示。
6、高級(jí)文字渲染與排版(Advanced Text Rendering)
Prompt 1:生成一張中文海報(bào),主標(biāo)題為“城市綠色出行倡議”,副標(biāo)題為“打造未來低碳生活方式”,底部有二維碼和品牌LOGO。
▲Seedream 4.0
▲Nano Banana
Prompt 2:生成送貨機(jī)器人的手繪草圖,含文字、公式、表格、統(tǒng)計(jì)圖等元素。
▲Seedream 4.0
▲Nano Banana
在中文字處理這一項(xiàng),Seedream 4.0是“降維打擊”。文本清晰度、字形規(guī)整性與位置排布都表現(xiàn)穩(wěn)定,有“直接交付”的潛力。
而Nano Banana則依舊存在“中文混亂”的老問題。
7、上下文推理生成(In-Context Reasoning Generation)
Prompt:時(shí)間從中午12點(diǎn)過去11小時(shí)15分鐘,房間光線變暗,鬧鐘時(shí)間應(yīng)同步變化。
▲Seedream 4.0
▲Nano Banana
Seedream 4.0不僅調(diào)暗了室內(nèi)光線,窗外景色也配合“入夜”,連鬧鐘顯示時(shí)間也匹配。而Nano Banana雖然場(chǎng)景變暗,但窗外還是大白天,可見“推理”這一步還沒跟上。
8、自適應(yīng)比例與4K生成(Adaptive Aspect Ratio & 4K Generation)
Prompt:生成一張16:9橫版構(gòu)圖的城市夜景俯瞰圖,建筑燈光清晰,要求圖像分辨率為4K。
▲Seedream 4.0
▲Nano Banana
Seedream 4.0一鍵輸出4K高分圖,比例、光影、清晰度都達(dá)標(biāo)。Nano Banana則提示“當(dāng)前不支持生成4K圖像”,盡管構(gòu)圖不錯(cuò),但解析度還是有局限。
二、一套模型通吃文生圖與編輯,推理速度提升10倍
Seedream 4.0在架構(gòu)設(shè)計(jì)上完成了一次整合式升級(jí),將前代文生圖模型Seedream 3.0與圖像編輯模型SeedEdit 3.0融合為一套統(tǒng)一模型架構(gòu)。
核心創(chuàng)新包括:
1、DiT架構(gòu)+高壓縮比VAE:構(gòu)建了一個(gè)高效率的擴(kuò)散Transformer模型,訓(xùn)練與推理速度提升10倍;
2、VLM模塊加持:引入SeedVLM模塊,強(qiáng)化對(duì)圖像語(yǔ)義、世界知識(shí)的理解,增強(qiáng)多模態(tài)上下文推理能力;
3、聯(lián)合訓(xùn)練機(jī)制:通過CT、SFT、RLHF三階段全鏈路訓(xùn)練,將生成與編輯任務(wù)進(jìn)行融合優(yōu)化,在圖像結(jié)構(gòu)還原度、風(fēng)格一致性、文字理解力上表現(xiàn)更佳;
4、大規(guī)模多模態(tài)數(shù)據(jù)鏈路:結(jié)合視頻抽幀、HTML內(nèi)容檢索、專家模型合成等方式,構(gòu)建出大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)集;
5、推理效率優(yōu)化:引入對(duì)抗蒸餾、分布匹配、推測(cè)解碼等機(jī)制,在保持質(zhì)量的同時(shí)大幅減少生成耗時(shí),2K圖像可秒級(jí)完成生成。
在保持生成質(zhì)量穩(wěn)定的同時(shí),Seedream 4.0還提供了圖像尺寸、畫面比例、風(fēng)格控制等細(xì)致參數(shù)設(shè)置,并原生集成了草圖、Canny、Depth、Mask等控圖通道,無需額外模型支持。
三、評(píng)測(cè)成績(jī):圖像編輯任務(wù)Elo評(píng)分超Nano Banana,文生圖能力穩(wěn)中有短板
根據(jù)Seed團(tuán)隊(duì)在MagicBench評(píng)測(cè)基準(zhǔn)上的結(jié)果,Seedream 4.0在圖像編輯任務(wù)(Single-Image Editing Evaluation)中整體表現(xiàn)較為均衡,綜合評(píng)分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在“文字渲染(Text Rendering)”、“人工評(píng)價(jià)得分(DreamEval, bo4/avg)”等維度表現(xiàn)突出,特別是在中文內(nèi)容處理上具備明顯優(yōu)勢(shì)。
▲圖片編輯任務(wù)綜合評(píng)測(cè)
在“指令對(duì)齊(Alignment)”方面,Seedream 4.0與模型Nano Banana(Gemini 2.5 Flash Image)處于同一水平,略低于GPT-Image-1;而在“一致性(Consistency)”和“結(jié)構(gòu)還原(Structure)”上,相比模型Nano Banana(Gemini 2.5 Flash Image)略有不足,但整體差距不大。
▲文生圖任務(wù)綜合評(píng)測(cè)
在文生圖任務(wù)(Text-to-Image Evaluation)中,Seedream 4.0在“美學(xué)表現(xiàn)(Aesthetics)”維度得分相對(duì)較高;但在“結(jié)構(gòu)還原(Structure)”、“文字渲染(Text Rendering)”、“語(yǔ)義對(duì)齊(Alignment)”和“錯(cuò)誤糾正(Correction)”等指標(biāo)上,相比GPT-Image-1略遜一籌,整體評(píng)分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整體能力突出。
整體來看,Seedream 4.0在圖像編輯場(chǎng)景中具備較強(qiáng)能力,而在自由生成類的文生圖場(chǎng)景中,其基礎(chǔ)能力穩(wěn)定,仍有部分生成一致性和對(duì)抗復(fù)雜場(chǎng)景的提升空間。
結(jié)語(yǔ):一個(gè)更實(shí)用、更本地化的國(guó)產(chǎn)圖像模型
通過一輪多維度的實(shí)際體驗(yàn)與評(píng)測(cè)對(duì)比可以看出,Seedream 4.0在圖像生成能力上的表現(xiàn)更加成熟,特別是在中文場(chǎng)景下具備明顯優(yōu)勢(shì)。
它為用戶提供了更高的控制自由度,也具備支持商業(yè)、設(shè)計(jì)、教育等專業(yè)場(chǎng)景的基礎(chǔ)能力。在國(guó)產(chǎn)圖像模型不斷演進(jìn)的過程中,Seedream 4.0或許已代表了當(dāng)前圖像生成領(lǐng)域的一個(gè)穩(wěn)定階段成果。