字節(jié)新王炸!即夢新版6大能力超谷歌香蕉模型,豆包P圖又變強了!

智東西AI前瞻(公眾號:zhidxcomAI)作者|江宇編輯|漠影

智東西AI前瞻9月9日報道,今日,字節(jié)跳動Seed團隊正式發(fā)布新一代圖像創(chuàng)作模型Seedream 4.0(即夢圖片4.0模型)。

作為該系列迭代以來的一次整合升級,Seedream 4.0在一套模型架構(gòu)中集成了文生圖、圖像編輯、草圖控圖、風格遷移等多種能力,并支持最高4K分辨率圖像生成,現(xiàn)已接入即夢、豆包等平臺。

這一版本的發(fā)布,恰逢Google圖像生成模型Nano Banana(Gemini 2.5 Flash Image)在社交媒體刷屏走紅之際。相比之下,Seedream 4.0也帶來了完整的多模態(tài)創(chuàng)作能力,不僅支持自定義圖像比例、多圖融合與復(fù)雜結(jié)構(gòu)推理,在中文文字生成、圖像清晰度與任務(wù)一致性等關(guān)鍵能力上,具備鮮明優(yōu)勢。

在Seed團隊構(gòu)建的評測體系中,Seedream 4.0在文生圖與圖像編輯兩項任務(wù)的綜合Elo評分,已超越Nano Banana(Gemini 2.5 Flash Image)。

智東西先試了試用它給VOGUE二十周年群像封面改風格。在豆包對話頁面點擊“豆包P圖”,上傳照片,默認模型便是即夢4.0,輸入文字描述,等待近30秒,豆包就能一次性生成2張符合描述的圖片。

我們讓它生成了復(fù)古港風、未來賽博朋克、洛可可宮廷風、Y2K千禧辣妹風、極簡現(xiàn)代攝影風和古風等風格。從生圖效果來看,模型在整體風格還原上表現(xiàn)較好,無論是背景氛圍、光影色調(diào),還是人物造型,都能做到較統(tǒng)一的風格轉(zhuǎn)換,不足之處是人臉五官特征出現(xiàn)變形,人名欄也變模糊。

▲豆包修改的VOGUE二十周年群像封面 (點擊鏈接可查看原圖)

在初步體驗的基礎(chǔ)上,智東西進一步參考Seedream 4.0官方提出的八類基礎(chǔ)能力場景,設(shè)計了一組Prompt,并將同一任務(wù)同步交由Nano Banana執(zhí)行,圍繞精準編輯、控圖生成、手辦建模、多圖輸出、中文排版等維度,觀察兩款模型在生成效果上的差異。

一、八種玩法實測,Seedream 4.0和Nano Banana短兵相接

Seed團隊給出了Seedream 4.0的八類基礎(chǔ)玩法,官方將其歸納為:精準編輯、靈活參考、控圖生成、上下文推理、多圖融合、多圖輸出、文字渲染和自適應(yīng)畫布。

智東西圍繞每類能力,設(shè)置了實戰(zhàn)Prompt,并同步用Nano Banana跑同一任務(wù),來看誰的生成更穩(wěn)定、畫面更自然、任務(wù)理解力更強。

以下體驗均為真實測試結(jié)果,歡迎讀者復(fù)制指令自行復(fù)現(xiàn)。

1、中文寫實圖生成+精準編輯(Precise Editing)

Prompt:一個亞洲面孔女孩坐在江邊看書,身邊放著咖啡和一本筆記本,黃昏時分水面反光,構(gòu)圖為3:2橫圖,風格為寫實攝影。

補充指令1:發(fā)色為粉色。

補充指令2:背景為圖書館。

▲Seedream 4.0

▲Nano Banana

補充指令1:發(fā)色為粉色。

▲Seedream 4.0

▲Nano Banana

補充指令2:背景為圖書館。

▲Seedream 4.0

▲Nano Banana

這組圖最能拉開“寫實能力”的差距。Seedream 4.0對補充指令的理解更精準,效果也更自然。不僅發(fā)色和波光粼粼的這類細節(jié)更為寫實,場景切換到圖書館后,依舊能維持整體畫面協(xié)調(diào)。

而Nano Banana在補充“背景為圖書館”的指令后,畫面中的人物姿態(tài)上就略顯僵硬。

2、多圖參考生成(Multi-Image Reference Generation)

Prompt:請將參考圖中的衣服、鞋子和配飾整體換到模特身上,確保服裝貼合身形,面部特征和姿勢保持一致,生成圖像風格與參考圖一致。

▲參考圖

▲Seedream 4.0

▲Nano Banana

這組體驗中,Seedream 4.0的表現(xiàn)略遜。雖然衣物與姿態(tài)基本對得上,但服飾的款式并未完全復(fù)刻。在圖像理解上,未能準確識別參考圖上衣服的褶皺。

反觀Nano Banana的效果更自然流暢,整體穿搭更“貼身”。

3、 草圖控圖/視覺信號可控生成(Visual Signal Controllable Generation)

Prompt 1:根據(jù)上傳的手繪草圖生成現(xiàn)代極簡風格客廳實景圖,保留草圖中家具位置,房間挑高,光線明亮。

▲參考圖

▲Seedream 4.0

▲Nano Banana

Prompt 2:為一張包含兩個人物的動作線稿進行上色,動作姿勢與線稿圖保持完全一致,人物比例和細節(jié)需嚴格遵循參考圖。

▲參考圖

▲Seedream 4.0

▲Nano Banana

這一類任務(wù)中,Seedream 4.0展現(xiàn)出了更強的一致性,動作還原幾乎“絲滑貼線”。Nano Banana的優(yōu)勢則在人物細節(jié)與氛圍感,但在貼合線稿的控制上略有波動。

4、手辦生成/靈活參考(Flexible Reference)

Prompt:繪制圖中角色的1/7比例商業(yè)化手辦,寫實風格,場景設(shè)定為電腦桌,亞克力底座,旁邊有印有原畫的包裝盒和ZBrush建模畫面。

▲Seedream 4.0

▲Nano Banana

這類任務(wù)曾是Nano Banana走紅社媒的“代表作”,這次Seedream 4.0也做得頗為出色,手辦質(zhì)感真實,周邊元素豐富,構(gòu)圖也更完整。

5、多圖輸出(Multi-Image Output)

Prompt:參考這個LOGO,做一套戶外運動品牌視覺設(shè)計,品牌名稱為“GREEN”,包括包裝袋、帽子、卡片、手環(huán)、紙盒、掛繩等,綠色為主色調(diào),簡約現(xiàn)代風。

▲參考圖

▲Seedream 4.0

▲Nano Banana

這類多圖輸出任務(wù),是考驗?zāi)P图毠?jié)、統(tǒng)一性與輸出清晰度的硬仗。Nano Banana生成結(jié)果清新可愛,但有些空泛。而Seedream 4.0能保持多圖風格一致,外加高清晰度,也更適合商業(yè)展示。

6、高級文字渲染與排版(Advanced Text Rendering)

Prompt 1:生成一張中文海報,主標題為“城市綠色出行倡議”,副標題為“打造未來低碳生活方式”,底部有二維碼和品牌LOGO。

▲Seedream 4.0

▲Nano Banana

Prompt 2:生成送貨機器人的手繪草圖,含文字、公式、表格、統(tǒng)計圖等元素。

▲Seedream 4.0

▲Nano Banana

在中文字處理這一項,Seedream 4.0是“降維打擊”。文本清晰度、字形規(guī)整性與位置排布都表現(xiàn)穩(wěn)定,有“直接交付”的潛力。

而Nano Banana則依舊存在“中文混亂”的老問題。

7、上下文推理生成(In-Context Reasoning Generation)

Prompt:時間從中午12點過去11小時15分鐘,房間光線變暗,鬧鐘時間應(yīng)同步變化。

▲Seedream 4.0

▲Nano Banana

Seedream 4.0不僅調(diào)暗了室內(nèi)光線,窗外景色也配合“入夜”,連鬧鐘顯示時間也匹配。而Nano Banana雖然場景變暗,但窗外還是大白天,可見“推理”這一步還沒跟上。

8、自適應(yīng)比例與4K生成(Adaptive Aspect Ratio & 4K Generation)

Prompt:生成一張16:9橫版構(gòu)圖的城市夜景俯瞰圖,建筑燈光清晰,要求圖像分辨率為4K。

▲Seedream 4.0

▲Nano Banana

Seedream 4.0一鍵輸出4K高分圖,比例、光影、清晰度都達標。Nano Banana則提示“當前不支持生成4K圖像”,盡管構(gòu)圖不錯,但解析度還是有局限。

二、一套模型通吃文生圖與編輯,推理速度提升10倍

Seedream 4.0在架構(gòu)設(shè)計上完成了一次整合式升級,將前代文生圖模型Seedream 3.0與圖像編輯模型SeedEdit 3.0融合為一套統(tǒng)一模型架構(gòu)。

核心創(chuàng)新包括:

1、DiT架構(gòu)+高壓縮比VAE:構(gòu)建了一個高效率的擴散Transformer模型,訓(xùn)練與推理速度提升10倍;

2、VLM模塊加持:引入SeedVLM模塊,強化對圖像語義、世界知識的理解,增強多模態(tài)上下文推理能力;

3、聯(lián)合訓(xùn)練機制:通過CT、SFT、RLHF三階段全鏈路訓(xùn)練,將生成與編輯任務(wù)進行融合優(yōu)化,在圖像結(jié)構(gòu)還原度、風格一致性、文字理解力上表現(xiàn)更佳;

4、大規(guī)模多模態(tài)數(shù)據(jù)鏈路:結(jié)合視頻抽幀、HTML內(nèi)容檢索、專家模型合成等方式,構(gòu)建出大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)集;

5、推理效率優(yōu)化:引入對抗蒸餾、分布匹配、推測解碼等機制,在保持質(zhì)量的同時大幅減少生成耗時,2K圖像可秒級完成生成。

在保持生成質(zhì)量穩(wěn)定的同時,Seedream 4.0還提供了圖像尺寸、畫面比例、風格控制等細致參數(shù)設(shè)置,并原生集成了草圖、Canny、Depth、Mask等控圖通道,無需額外模型支持。

三、評測成績:圖像編輯任務(wù)Elo評分超Nano Banana,文生圖能力穩(wěn)中有短板

根據(jù)Seed團隊在MagicBench評測基準上的結(jié)果,Seedream 4.0在圖像編輯任務(wù)(Single-Image Editing Evaluation)中整體表現(xiàn)較為均衡,綜合評分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在“文字渲染(Text Rendering)”、“人工評價得分(DreamEval, bo4/avg)”等維度表現(xiàn)突出,特別是在中文內(nèi)容處理上具備明顯優(yōu)勢。

▲圖片編輯任務(wù)綜合評測

在“指令對齊(Alignment)”方面,Seedream 4.0與模型Nano Banana(Gemini 2.5 Flash Image)處于同一水平,略低于GPT-Image-1;而在“一致性(Consistency)”和“結(jié)構(gòu)還原(Structure)”上,相比模型Nano Banana(Gemini 2.5 Flash Image)略有不足,但整體差距不大。

▲文生圖任務(wù)綜合評測

在文生圖任務(wù)(Text-to-Image Evaluation)中,Seedream 4.0在“美學(xué)表現(xiàn)(Aesthetics)”維度得分相對較高;但在“結(jié)構(gòu)還原(Structure)”、“文字渲染(Text Rendering)”、“語義對齊(Alignment)”和“錯誤糾正(Correction)”等指標上,相比GPT-Image-1略遜一籌,整體評分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整體能力突出。

整體來看,Seedream 4.0在圖像編輯場景中具備較強能力,而在自由生成類的文生圖場景中,其基礎(chǔ)能力穩(wěn)定,仍有部分生成一致性和對抗復(fù)雜場景的提升空間。

結(jié)語:一個更實用、更本地化的國產(chǎn)圖像模型

通過一輪多維度的實際體驗與評測對比可以看出,Seedream 4.0在圖像生成能力上的表現(xiàn)更加成熟,特別是在中文場景下具備明顯優(yōu)勢。

它為用戶提供了更高的控制自由度,也具備支持商業(yè)、設(shè)計、教育等專業(yè)場景的基礎(chǔ)能力。在國產(chǎn)圖像模型不斷演進的過程中,Seedream 4.0或許已代表了當前圖像生成領(lǐng)域的一個穩(wěn)定階段成果。

清遠
上一篇:{loop type="arclist" row=1 }{$vo.title}
三年片在线观看大全国语| 无码精品影院| 免费观看全黄做爰大片国产| 黄色视频网站免费观看| 亚洲男男AV| 99久久亚洲综合精品成人网| 欧美精品一区二区三区潮喷b2 | 国产精品videossex久久发布| 一区二区三区在线色视频| 久久人人爽人人爽人人片av麻烦| XXX69人与公交少妇| 在线观看热码亚洲AV每日更新| 夜夜躁狠狠躁日日躁2021| 日本护士野外xxxhd| 亚洲国产a∨无码中文777| 国产成人亚洲精品无码综合原创 | 国产精品4hu.www| 真人与拘做受免费视频一| 97欧美精品系列一区二区| 国产精品无码无片在线观看| 国产乱姪AV片免费看| 求一免费av网| 亚洲精品国产熟老女| 日日躁夜夜躁mv老熟女| 五月丁香六月婷婷色色| 白嫩少妇高潮喷水| 亚洲色成人网站www永久下载| 国产伦精品一区二区三区照| 欧美熟妇久久久久久毛多| 97人妻碰碰人人澡人人爽| 国产偷自视频区视频| japanese熟妇| 免费看成人aa片无码视频吃奶 | 在线视频一区二区日韩国产| 神马久久久久| 激情图片另类小说| 精品久久久久久无码专区| 欧美成人午夜免费影院| 亚洲中文乱码在线| 成人免费视频2018| 苍井空一区二区波多野结衣av |